按量付费
模型费率- PoC 和单项目
- 上线前估算
- OpenAI 请求格式
计算器
成本 = 请求次数 × token × 单价 / 1,000,000。
Qwen3 Max:¥2.20。
根据模型价格、token 数量和请求量估算月度支出。
低成本参考
| 模型 | 提供方 | 输入 | 输出 | 上下文 | 能力 | 适用场景 | 延迟 | 状态 | 来源 |
|---|---|---|---|---|---|---|---|---|---|
| Qwen3 Maxqwen/qwen3-max | Alibaba Cloud / Qwen | ¥0.2 / 1M tokens | ¥2 / 1M tokens | 128k | 工具调用JSON 模式长上下文 | 中文问答, general chat | 1000-3200ms | 生产可用 | 提供方公开定价 |
| DeepSeek V4 Flashdeepseek/deepseek-v4-flash | DeepSeek | $0.112 / 1M tokens | $0.224 / 1M tokens | 1M | 工具调用JSON 模式长上下文 | 低成本中文任务, 长上下文摘要 | 800-2600ms | 目录 | OpenRouter(可用时) |
| Mistral Small 3.2 24B Instructmistralai/mistral-small-3.2-24b-instruct | Mistral AI | $0.1 / 1M tokens | $0.3 / 1M tokens | 128k | 工具调用JSON 模式流式输出 | 翻译, 分类 | 700-2300ms | 目录 | OpenRouter(可用时) |
| GPT-4o miniopenai/gpt-4o-mini | OpenRouter | $0.15 / 1M tokens | $0.6 / 1M tokens | 128k | 工具调用视觉JSON 模式 | 低成本聊天, 图像理解 | 800-2400ms | 目录 | OpenRouter(可用时) |
| Llama 4 Maverickmeta-llama/llama-4-maverick | Meta | $0.15 / 1M tokens | $0.6 / 1M tokens | 1M | JSON 模式长上下文流式输出 | 开源模型工作流, 成本敏感型长上下文 | 950-2800ms | 目录 | OpenRouter(可用时) |
| Gemini 2.5 Flashgoogle/gemini-2.5-flash | $0.3 / 1M tokens | $2.50 / 1M tokens | 1M | 工具调用视觉JSON 模式 | 长文档摘要, 图像问答 | 900-2800ms | 目录 | OpenRouter(可用时) | |
| DeepSeek R1deepseek/deepseek-r1 | DeepSeek | $0.7 / 1M tokens | $2.50 / 1M tokens | 163.8k | JSON 模式长上下文推理 | 中文推理, 数学 | 1800-6000ms | 目录 | OpenRouter(可用时) |
| Qwen3 Coder Plusqwen/qwen3-coder-plus | Alibaba Cloud / Qwen | $0.65 / 1M tokens | $3.25 / 1M tokens | 1M | 工具调用JSON 模式长上下文 | 中文工程工作流, 代码生成 | 1200-3900ms | 目录 | OpenRouter(可用时) |