上线证明
把同一条请求带进上线评审
把一条代表性请求带进上线评审,让采购、安全与交付团队都能围绕同一份 route reason、结算成本与缓存边界继续讨论。
保留一条已经接近目标模型组合的 X-Request-Id 作为评审起点。
流式调用结束后重新打开结算记录,而不是只看瞬时响应头。
先把 prompt cache 折扣和 durable response-cache replay 区分清楚,再决定正式上线边界。
上线证明
把一条代表性请求带进上线评审,让采购、安全与交付团队都能围绕同一份 route reason、结算成本与缓存边界继续讨论。