启用前确认模型能力
请求中设置 stream=true 后即可启用 SSE 流式输出。上线前先确认模型目录中的流式能力,并在真实账号路由上验证。普通错误仍以 JSON 返回;流式响应只用于已经开始的增量输出。
区分用量、超时和客户端中断
生产客户端需要分别处理 SSE 事件、最终用量、上游超时和用户主动取消。提供方流中断时,网关会记录诊断,方便后续区分成功调用、拒绝调用和未完成调用。
| stream=true | 在支持的模型上请求增量输出 |
| usage | 记录最终 token 用量或网关结算事实 |
| client abort | 按取消处理,不当作提供方成功 |
| timeout | 退避重试,或选择更低延迟模型 |