主要概念

文本生成模型

Moonshot的文本生成模型（指moonshot-v1）是训练用于理解自然语言和书面语言的，它可以根据输入生成文本输出。对模型的输入也被称为“prompt”。通常我们建议您提供明确的指令以及给出一些范例，来让模型能够完成既定的任务，设计 prompt 本质上就是学会如何“训练”模型。moonshot-v1模型可以用于各种任务，包括内容或代码生成、摘要、对话、创意写作等。

语言模型推理服务

语言模型推理服务是一个基于我们 (Moonshot AI) 开发和训练的预训练模型的 API 服务。在设计上，我们对外主要提供了一个 Chat Completions 接口，它可以用于生成文本，但是它本身是不支持访问网络、数据库等外部资源，也不支持执行任何代码。

Token

文本生成模型以 Token 为基本单位来处理文本。Token 代表常见的字符序列。例如，单个汉字"夔"可能会被分解为若干 Token 的组合，而像"中国"这样短且常见的短语则可能会使用单个 Token。大致来说，对于一段通常的中文文本，1 个 Token 大约相当于 1.5-2 个汉字。

需要注意的是，对于我们的文本模型，Input 和 Output 的总和长度不能超过模型的最大上下文长度。

速率限制通过4种方式衡量：并发、RPM（每分钟请求数）、TPM（每分钟 Token 数）、TPD（每天 Token 数）。速率限制可能会在任何一种选项中达到，取决于哪个先发生。例如，你可能向 ChatCompletions 发送了 20 个请求，每个请求只有 100 个 Token ，那么你就达到了限制（如果你的 RPM 限制是 20），即使你在这些 20 个请求中没有发满 200k 个 Token （假设你的TPM限制是 200k）。

对网关，出于方便考虑，我们会基于请求中的 max_tokens 参数来计算速率限制。这意味着，如果你的请求中包含了 max_tokens 参数，我们会使用这个参数来计算速率限制。如果你的请求中没有包含 max_tokens 参数，我们会使用默认的 max_tokens 参数来计算速率限制。当你发出请求后，我们会基于你请求的 token 数量加上你 max_tokens 参数的数量来判断你是否达到了速率限制。而不考虑实际生成的 token 数量。

而在计费环节中，我们会基于你请求的 token 数量加上实际生成的 token 数量来计算费用。

其他值得注意的重要事项
- 速率限制是在用户级别而非密钥级别上实施的。
- 目前我们在所有模型中共享速率限制。

模型列表

你可以使用我们的 List Models API 来获取当前可用的模型列表。当前的我们支持的模型有：

多模态模型 kimi-k2.5

模型名称	描述
`kimi-k2.5`	Kimi 迄今最智能的模型，在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SoTA 表现。同时 Kimi K2.5 也是 Kimi 迄今最全能的模型，原生的多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。上下文 256k

kimi-k2 模型

模型名称	描述
`kimi-k2-0905-preview`	上下文长度 256k，在 0711 版本基础上增强了 Agentic Coding 能力、前端代码美观度和实用性、以及上下文理解能力
`kimi-k2-0711-preview`	上下文长度 128k，MoE 架构基础模型，总参数 1T，激活参数 32B。具备超强代码和 Agent 能力。查看技术博客 (opens in a new tab)
`kimi-k2-turbo-preview`	K2 的高速版本，对标最新版本(0905)。输出速度提升至每秒 60-100 tokens，上下文长度 256k
`kimi-k2-thinking`	K2 长思考模型，支持 256k 上下文，支持多步工具调用与思考，擅长解决更复杂的问题
`kimi-k2-thinking-turbo`	K2 长思考模型的高速版本，支持 256k 上下文，擅长深度推理，输出速度提升至每秒 60-100 tokens

生成模型 moonshot-v1

模型名称	描述
`moonshot-v1-8k`	适用于生成短文本，上下文长度 8k
`moonshot-v1-32k`	适用于生成长文本，上下文长度 32k
`moonshot-v1-128k`	适用于生成超长文本，上下文长度 128k
`moonshot-v1-8k-vision-preview`	Vision 视觉模型，理解图片内容并输出文本，上下文长度 8k
`moonshot-v1-32k-vision-preview`	Vision 视觉模型，理解图片内容并输出文本，上下文长度 32k
`moonshot-v1-128k-vision-preview`	Vision 视觉模型，理解图片内容并输出文本，上下文长度 128k

注：以上moonshot-v1 模型的区别仅在于最大上下文长度(包括输入和输出)，效果上并无差异。

已下线模型

kimi-latest 已于 2026 年 1 月 28 日停止新用户使用，将不再维护和支持。请直接使用 Kimi 最新模型 kimi-k2.5，以获得持续支持和更强推理能力。

kimi-thinking-preview 已于 2025 年 11 月 11 日下线，不再维护和支持。建议直接升级至最新模型 kimi-k2.5，以获得思考能力。

如需更多支持，请联系销售

使用指南

欢迎 Chat