上下文缓存定价与计费
产品定价
价格处于公测期,可能随时调整。
模型版本 | 模型长度 | 标准价格 / 1M tokens | Cache Tokens 调用价格 | Cache 创建/ 1M tokens | Cache 存储 / 1M tokens/min | Cache 调用/次 |
---|---|---|---|---|---|---|
v1 | 8k | 12 | 限时免费 | 24 | 10 | 0.02 |
v1 | 32k | 24 | 限时免费 | 24 | 10 | 0.02 |
v1 | 128k | 60 | 限时免费 | 24 | 10 | 0.02 |
单位:元
计费逻辑
Cache 资源收费 = Cache 创建收费 + Cache 存储收费
一次使用了 Cache 的 Chat 调用收费 = Cache 调用收费+ Chat 未匹配 Cache 的 Input Tokens 收费 + Output Tokens 收费
计费项说明
- Cache 创建费用
- 调用 Cache 创建接口,成功创建 Cache 后,按照 Cache 中 Tokens 按实际量计费。
- 计费单位:按实际 Tokens 量计费
- Cache 存储费用
- Cache 存活时间内,按分钟收取 Cache 存储费用。
- 计费单位:分钟,不足一分钟按一分钟计费
- Cache 调用费用
- Cache 调用收费分两个部分
- Cache 调用 Tokens 费用
- Cache 按次调用的费用:Cache 存活时间内,用户通过 chat 接口请求已创建成功的 Cache,若 chat message 内容与存活中的 Cache 匹配成功,将按调用次数收取 Cache 调用费用,Cache 每次调用 0.02 元。
- 计费单位:次
- Cache 调用收费分两个部分
成本计算器
您可以使用成本计算器,将您的业务具体情据填写一下,平台帮您计算,业务切换到 Context Caching 后,预计可节省的金额,为您提供数据决策是否需要切换 Context Caching。
计算器体验入口:成本计算器 (opens in a new tab)
计算器示例场景说明:上传解析《甄嬛传》小说,分别提问甄嬛/华妃/安陵容/沈眉庄/皇后/皇上6个主要人物的性格。
计算器选项 | 类比甄嬛传问答场景,如何填写 |
---|---|
调用模型 | 《甄嬛传》小说第一册 20 万字,需要使用 128k 模型进行提问,选择 moonshot-v1-128k |
单次提问 Input Tokens 数量 | 《甄嬛传》小说 20 万字,预估需要 tokens 130,000,每个问题 20 个 tokens,计算器填写: 130,000+20 = 130,020 tokens |
单次提问 Output Tokens 数量 | 每次提问,预计返回人物性格总结字数 100 字,消耗 tokens 80,计算器填写:80 |
相同 Input Tokens 比例 | 即《甄嬛传》小说 tokens 数占比每次提问的 tokens 消耗,计算器填写:130,000/130,020 = 99% |
重复提问时间段 | 《甄嬛传》人物性格分析,6 个问题,预计在多长时间内提问完成,计算器填写:10min |
重复提问次数 | 针对《甄嬛传》重复提问的次数,计算器填写:6 |
限制说明
- Context Caching 功能仅开放给 Tier5 等级用户,用户范围放开时间,敬请期待
- 单用户最大 Cache 存储上限为 128k
- Cache 单次可设置过期时间 1h
- Tier 限速:创建 Cache 的 Tokens ,Chat 调用 Cache 的 Tokens,都会计算在您和 api 交互的 Tokens 总数中,需要被 TPM/TPD 限额限制
注意事项
- 创建 Cache 为异步操作,通常发起请求仍需等待 40s-60s 方可使用。
- 可以使用 list cache 方法确认 Cache 是否创建成功。