Caching - Moonshot AI 开放平台

上下文缓存定价与计费

价格处于公测期，可能随时调整。

模型版本	模型长度	标准价格 / 1M tokens	Cache Tokens 调用价格	Cache 创建/ 1M tokens	Cache 存储 / 1M tokens/min	Cache 调用/次
v1	8k	12	限时免费	24	10	0.02
v1	32k	24	限时免费	24	10	0.02
v1	128k	60	限时免费	24	10	0.02

单位：元

Cache 资源收费 = Cache 创建收费 + Cache 存储收费

一次使用了 Cache 的 Chat 调用收费 = Cache 调用收费+ Chat 未匹配 Cache 的 Input Tokens 收费 + Output Tokens 收费

Cache 创建费用
- 调用 Cache 创建接口，成功创建 Cache 后，按照 Cache 中 Tokens 按实际量计费。
- 计费单位：按实际 Tokens 量计费
Cache 存储费用
- Cache 存活时间内，按分钟收取 Cache 存储费用。
- 计费单位：分钟，不足一分钟按一分钟计费
Cache 调用费用
- Cache 调用收费分两个部分
  - Cache 调用 Tokens 费用
  - Cache 按次调用的费用：Cache 存活时间内，用户通过 chat 接口请求已创建成功的 Cache，若 chat message 内容与存活中的 Cache 匹配成功，将按调用次数收取 Cache 调用费用，Cache 每次调用 0.02 元。
- 计费单位：次

您可以使用成本计算器，将您的业务具体情据填写一下，平台帮您计算，业务切换到 Context Caching 后，预计可节省的金额，为您提供数据决策是否需要切换 Context Caching。

计算器

计算器示例场景说明：上传解析《甄嬛传》小说，分别提问甄嬛/华妃/安陵容/沈眉庄/皇后/皇上6个主要人物的性格。

计算器选项	类比甄嬛传问答场景，如何填写
调用模型	《甄嬛传》小说第一册 20 万字，需要使用 128k 模型进行提问，选择 moonshot-v1-128k
单次提问 Input Tokens 数量	《甄嬛传》小说 20 万字，预估需要 tokens 130,000，每个问题 20 个 tokens，计算器填写： 130,000+20 = 130,020 tokens
单次提问 Output Tokens 数量	每次提问，预计返回人物性格总结字数 100 字，消耗 tokens 80，计算器填写：80
相同 Input Tokens 比例	即《甄嬛传》小说 tokens 数占比每次提问的 tokens 消耗，计算器填写：130,000/130,020 = 99%
重复提问时间段	《甄嬛传》人物性格分析，6 个问题，预计在多长时间内提问完成，计算器填写：10min
重复提问次数	针对《甄嬛传》重复提问的次数，计算器填写：6

Context Caching 功能仅开放给 Tier5 等级用户，用户范围放开时间，敬请期待
单用户最大 Cache 存储上限为 128k
Cache 单次可设置过期时间 1h
Tier 限速：创建 Cache 的 Tokens ，Chat 调用 Cache 的 Tokens，都会计算在您和 api 交互的 Tokens 总数中，需要被 TPM/TPD 限额限制