启用前确认模型能力

请求中设置 stream=true 后即可启用 SSE 流式输出。上线前先确认模型目录中的流式能力,并在真实账号路由上验证。普通错误仍以 JSON 返回;流式响应只用于已经开始的增量输出。

区分用量、超时和客户端中断

生产客户端需要分别处理 SSE 事件、最终用量、上游超时和用户主动取消。提供方流中断时,网关会记录诊断,方便后续区分成功调用、拒绝调用和未完成调用。

stream=true在支持的模型上请求增量输出
usage记录最终 token 用量或网关结算事实
client abort按取消处理,不当作提供方成功
timeout退避重试,或选择更低延迟模型