- 对于下表中未提到的 benchmark 或其他闭源 benchmark,推荐 temperature = 1.0,stream = true,top_p = 0.95
- Reasoning 相关的 benchmark: maxtoken 推荐设置到 128k,并且总测试题量至少要到 500-1000 题才会获得一个相对低的测试方差。(比如 AIME2025 建议测试 32 次 30*32=960 题)
- Code 相关的 benchmark:maxtoken 推荐设置到 256k
- Agentic Task 相关的 benchmark:如果需要 multi hop search,maxtoken 推荐设置到 256k 并配合 context management 机制;其他类型的 agentic task 推荐至少设置 16-64k 的 maxtoken
K2.6 模型基准测试推荐参数
| Benchmark 分类 | Benchmark | Temperature | Max token 推荐设置 | 推荐测试次数 | Top-P | 其他 |
|---|---|---|---|---|---|---|
| Multi-modal | MMMU-Pro | 推荐设置:1.0 | max tokens = 96k | 3次 | top_p=0.95 | thinking= |
| MMMU-Pro w/ python | 推荐设置:1.0 | per step tokens = 64k; total max tokens = 96k | 3次 | top_p=0.95 | 推荐max steps = 50 thinking= | |
| CharXiv (RQ) | 推荐设置:1.0 | max tokens = 96k | 3次 | top_p=0.95 | thinking= | |
| CharXiv (RQ) w/ python | 推荐设置:1.0 | per step tokens = 64k; total max tokens = 96k | 3次 | top_p=0.95 | 推荐max steps = 50 thinking= | |
| MathVision | 推荐设置:1.0 | max tokens = 96k | 3次 | top_p=0.95 | thinking= | |
| MathVision w/ python | 推荐设置:1.0 | per step tokens = 64k; total max tokens = 96k | 3次 | top_p=0.95 | 推荐max steps = 50 thinking= | |
| V* w/ python | 推荐设置:1.0 | per step tokens = 64k; total max tokens = 96k | 3次 | top_p=0.95 | 推荐max steps = 50 thinking= | |
| Agent | HLE-Full w/ tools | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 256k | 1次 | top_p=0.95 | 推荐max steps = 300 thinking= |
| BrowseComp | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 256k | 1次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| DeepSearchQA | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 256k | 1次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| WideSearch | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 256k | 4次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| Toolathlon | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 256k | 4次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| MCPMark | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 256k | 4次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| Claw Eval | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 256k | 4次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| APEX-Agents | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 256k | 4次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| Coding | Terminal-Bench 2.0 (Terminus-2) | 推荐设置:1.0 | max tokens = 256k | 3次 | top_p=0.95 | thinking= |
| SWE-Bench Pro | 推荐设置:1.0 | per step tokens = 32k; total max tokens = 256k | 5次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| SWE-Bench Multilingual | 推荐设置:1.0 | per step tokens = 32k; total max tokens = 256k | 5次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| SWE-Bench Verified | 推荐设置:1.0 | per step tokens = 32k; total max tokens = 256k | 5次 | top_p=0.95 | 推荐max steps = 300 thinking= | |
| SciCode | 推荐设置:1.0 | max tokens = 96k | 4次 | top_p=0.95 | thinking= | |
| OJBench (python) | 推荐设置:1.0 | max tokens = 96k | 8次 | top_p=0.95 | thinking= | |
| LiveCodeBench (v6) | 推荐设置:1.0 | max tokens = 96k | 1次 | top_p=0.95 | thinking= | |
| Math | AIME 2026 | 推荐设置:1.0 | max tokens = 96k | 32次 | top_p=0.95 | thinking= |
| HMMT 2026 (Feb) | 推荐设置:1.0 | max tokens = 96k | 32次 | top_p=0.95 | thinking= | |
| IMO-AnswerBench | 推荐设置:1.0 | max tokens = 96k | 4次 | top_p=0.95 | thinking= | |
| Knowledge | HLE-Full | 推荐设置:1.0 | max tokens = 96k | 1次 | top_p=0.95 | thinking= |
| GPQA-Diamond | 推荐设置:1.0 | max tokens = 96k | 8次 | top_p=0.95 | thinking= |
K2.5 模型基准测试推荐参数
| Benchmark 分类 | Benchmark | Temperature | Max token 推荐设置 | 推荐测试次数 | Top-P | 其他 |
|---|---|---|---|---|---|---|
| Multi-modal | MMMU-Pro | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= |
| CharXiv (RQ) | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= | |
| MathVision | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= | |
| MathVista | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= | |
| OCRBench | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= | |
| ZeroBench | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= | |
| WorldVQA | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= | |
| InfoVQA (val) | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= | |
| SimpleVQA | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | thinking= | |
| ZeroBench w/ tools | 推荐设置:1.0 | max token = 64k | 3次 | top_p=0.95 | 推荐max steps = 30 thinking= | |
| Code | SWE系列 | 推荐设置:1.0 | per step tokens = 16k; total max token = 256k | 5次 | top_p=0.95 | thinking= |
| Lcb + OJBench | 推荐设置:1.0 | max tokens = 128k | 1次 | top_p=0.95 | thinking= | |
| TerminalBench | 推荐设置:1.0 | max tokens = 128k | 3次 | top_p=0.95 | thinking= | |
| Reasoning | AIME2025 no tools | 推荐设置:1.0 | total max tokens = 96k | 32次 | top_p=0.95 | thinking= |
| AIME2025 w/ tools | 推荐设置:1.0 | per turn tokens = 96k; total max tokens = 96k | 32次 | top_p=0.95 | thinking= 推荐 max steps = 120 | |
| HLE no tools | 推荐设置:1.0 | max tokens = 96k | 1次 | top_p=0.95 | thinking= | |
| HLE w/ tools | 推荐设置:1.0 | total max tokens = 128k; per step tokens = 48k | 1次 | top_p=0.95 | thinking= 推荐 max steps = 120 | |
| HLE heavy | 推荐设置:1.0 | total max tokens = 128k; per step tokens = 48k | 1次 | top_p=0.95 | thinking= 推荐max steps = 200 parallel n=8 | |
| HMMT2025 no tools | 推荐设置:1.0 | max tokens = 96k | 32次 | top_p=0.95 | thinking= | |
| HMMT2025 w/tools | 推荐设置:1.0 | per step tokens = 96k; total tokens = 96k | 32次 | top_p=0.95 | thinking= 推荐 max steps = 120 | |
| IMO-AnswerBench | 推荐设置:1.0 | max tokens = 96k | 3次 | top_p=0.95 | thinking= | |
| GPQA-Diamond | 推荐设置:1.0 | max tokens = 96k | 8次 | top_p=0.95 | thinking= | |
| Agentic Search Task | BrowseComp/ BrowseComp-ZH/Seal-0/ Frames | 推荐设置:1.0 | per step tokens = 24k; total max tokens = 256k | 4次 | top_p=0.95 | thinking= 推荐max steps = 250 推荐使用 context management 机制以防止上下文过长,保证足够的工具调用 在 system prompt 中带上今天的日期,并让模型在不确定时进行搜索 |
| Agentic Task | Tau | 推荐设置:1.0 | >=16k | 4次 | top_p=0.95 | thinking= 推荐max steps = 100 |
{"type": "enabled"},请注意,为了确保模型的性能,会有以下约束:
- 为了避免思考内容与指定的
tool_choice冲突,tool_choice只能使用”auto”和”none”(默认值为”auto”),取任何其他值将会报错; - 在多步工具调用过程中,您必须在将本轮会话中工具调用时assistant message里的
reasoning_content保留在上下文当中,否则会报错; - 官方内置的 builtin 的联网搜索
$web_search工具暂时与 Kimi K2.5/K2.6 思考模式不兼容,可以选择先关闭思考模式后使用联网搜索工具$web_search。
K2-Thinking 系列模型基准测试推荐参数
| Benchmark 分类 | Benchmark | Temperature | Max token 推荐设置 | 推荐测试次数 | 其他 |
|---|---|---|---|---|---|
| Code | SWE系列 | 推荐设置:0.7; 可接受的其他设置:1.0 | per step tokens = 16k; total max token = 256k | 5次 | |
| Lcb + OJBench | 推荐设置:1.0 | max tokens = 128k | 1次 | ||
| TerminalBench | 推荐设置:1.0 | max tokens = 128k | 3次 | ||
| Reasoning | AIME2025 no tools | 推荐设置:1.0 | total max tokens = 96k | 32次 | |
| AIME2025 w/ tools | 推荐设置:1.0 | per step tokens = 48k; total max tokens = 128k | 16次 | 推荐 max steps = 120 | |
| HLE no tools | 推荐设置:1.0 | max tokens = 96k | 1次 | ||
| HLE w/ tools | 推荐设置:1.0 | total max tokens = 128k; per step tokens = 48k | 1次 | 推荐 max steps = 120 | |
| HLE heavy | 推荐设置:1.0 | total max tokens = 128k; per step tokens = 48k | 1次 | 推荐max steps = 200 parallel n=8 | |
| HMMT2025 no tools | 推荐设置:1.0 | max tokens = 96k | 32次 | ||
| HMMT2025 w/tools | 推荐设置:1.0 | per step tokens = 96k; total tokens = 96k | 32次 | 推荐 max steps = 120 | |
| IMO-AnswerBench | 推荐设置:1.0 | max tokens = 96k | 3次 | ||
| GPQA-Diamond | 推荐设置:1.0 | max tokens = 96k | 8次 | ||
| Agentic Search Task | BrowseComp/ BrowseComp-ZH/Seal-0/ Frames | 推荐设置:1.0 | per step tokens = 24k; total max tokens = 256k | 4次 | 推荐max steps = 250 推荐使用 context management 机制以防止上下文过长,保证足够的工具调用 在 system prompt 中带上今天的日期,并让模型在不确定时进行搜索 |
| Agentic Task | Tau | 推荐设置:0.0 | >=16k | 4次 | 推荐max steps = 100 |
API 推荐参数与注意事项
- 强烈推荐使用官方 API 来做 benchmark 测试,部分第三方 API 可能存在精度偏差
- 使用推荐的模型进行测试:
- 对于 K2.6:使用
kimi-k2.6进行测试 - 对于 K2.5:使用
kimi-k2.5进行测试 - 对于 K2 系列:使用
kimi-k2-thinking-turbo进行快速推理
- 对于 K2.6:使用
- 必须设置:
stream = true- 非流式模式可能会导致随机的连接中断,难以控制
- 当前 API 默认设置:
- Kimi K2.6:
- default max_tokens = 32768
- default thinking =
{"type": "enabled", "keep": null} - default temperature = 1.0
- default top_p = 0.95
- default n = 1
- default presence_penalty = 0.0
- default frequency_penalty = 0.0
- Kimi K2 Thinking:
- default temp = 1.0
- default max token = 64000
- Kimi K2.5:
- default max_tokens = 32768
- default thinking =
{"type": "enabled"} - default temperature = 1.0
- default top_p = 0.95
- default n = 1
- default presence_penalty = 0.0
- default frequency_penalty = 0.0
- Kimi K2.6:
- 超时设置:
- 使用
stream = false时,api.moonshot.cn超时时间为 2 小时,但某些 ISP 可能会提前终止连接 - 因此我们建议您设置
stream = true
- 使用
- 并发控制:
- 保持较低的并发数以避免速率限制
- 重试逻辑 是必须的:
- 处理服务器过载情况
- 处理因随机服务器问题导致的意外完成原因
- 处理复杂的网络问题
FAQ
Q1: temperature 取值对不同模型是一致的吗? A: 不同模型系列的 temperature 设置不同:- k2.6 模型:temperature = 1.0
- k2.5 模型:temperature = 1.0
- k2-thinking 系列模型:推荐使用 temperature=1.0
- k2 其他系列模型:推荐使用 temperature=0.6