🎉 最新发布 kimi k2.5 模型,支持多模态理解与处理,擅长解决更复杂的问题。
文档
产品定价
模型推理定价

模型推理价格说明

计费基本概念

计费单元

Token:代表常见的字符序列,每个汉字使用的 Token 数目可能是不同的。例如,单个汉字"夔"可能会被分解为若干 Token 的组合,而像"中国"这样短且常见的短语则可能会使用单个 Token。大致来说,对于一段通常的中文文本,1 个 Token 大约相当于 1.5-2 个汉字。具体每次调用实际产生的 Tokens 数量可以通过调用计算 Token API 来获得。

计费逻辑

Chat Completion 接口收费:我们对 Input 和 Output 均实行按量计费。如果您上传并抽取文档内容,并将抽取的文档内容作为 Input 传输给模型,那么文档内容也将按量计费。文件相关接口(文件内容抽取/文件存储)接口限时免费,即您只上传并抽取文档,这个API本身不会产生费用。

产品定价

多模态模型 kimi-k2.5

  • kimi-k2.5 是 Kimi 迄今最全能的模型,原生的多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务
  • 模型上下文长度 256k,支持长思考擅长深度推理
  • 支持自动上下文缓存功能,ToolCalls、JSON Mode、Partial Mode、联网搜索功能等能力

生成模型 kimi-k2

  • kimi-k2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型
  • kimi-k2-0905-preview 模型上下文长度 256k,在 kimi-k2-0711-preview 能力的基础上,具备更强的 Agentic Coding 能力、更突出的前端代码的美观度和实用性、以及更好的上下文理解能力
  • kimi-k2-turbo-preview 模型上下文长度 256k,是 kimi k2 的高速版本模型,始终对标最新版本的 kimi-k2 模型(kimi-k2-0905-preview)。模型参数与 kimi-k2 一致,但输出速度已提至每秒 60 tokens,最高可达每秒 100 tokens
  • kimi-k2-0711-preview 模型上下文长度为 128k
  • kimi-k2-thinking 模型上下文长度 256k,是具有通用 Agentic 能力和推理能力的思考模型,它擅长深度推理使用须知
  • kimi-k2-thinking-turbo 模型上下文长度 256k,是 kimi-k2-thinking 模型的高速版,适用于需要深度推理和追求极致高速的场景
  • 支持 ToolCalls、JSON Mode、Partial Mode、联网搜索功能等,不支持视觉功能
  • 支持自动上下文缓存功能,缓存命中的 tokens 将按照输入价格(缓存命中)单价收费,您可以在控制台中查看"context caching"类型的费用明细

生成模型 Moonshot-v1

此处 1M = 1,000,000,表格中的价格代表每消耗 1M tokens 的价格。