文档
产品定价
上下文缓存

上下文缓存定价与计费

产品定价

价格处于公测期,可能随时调整。

模型版本模型长度标准价格 / 1M tokensCache Tokens 调用价格Cache 创建/ 1M tokensCache 存储 / 1M tokens/minCache 调用/次
v18k12限时免费24100.02
v132k24限时免费24100.02
v1128k60限时免费24100.02

单位:元

计费逻辑

Cache 资源收费 = Cache 创建收费 + Cache 存储收费

一次使用了 Cache 的 Chat 调用收费 = Cache 调用收费+ Chat 未匹配 Cache 的 Input Tokens 收费 + Output Tokens 收费

计费项说明

  • Cache 创建费用
    • 调用 Cache 创建接口,成功创建 Cache 后,按照 Cache 中 Tokens 按实际量计费。
    • 计费单位:按实际 Tokens 量计费
  • Cache 存储费用
    • Cache 存活时间内,按分钟收取 Cache 存储费用。
    • 计费单位:分钟,不足一分钟按一分钟计费
  • Cache 调用费用
    • Cache 调用收费分两个部分
      • Cache 调用 Tokens 费用
      • Cache 按次调用的费用:Cache 存活时间内,用户通过 chat 接口请求已创建成功的 Cache,若 chat message 内容与存活中的 Cache 匹配成功,将按调用次数收取 Cache 调用费用,Cache 每次调用 0.02 元。
    • 计费单位:次

成本计算器

您可以使用成本计算器,将您的业务具体情据填写一下,平台帮您计算,业务切换到 Context Caching 后,预计可节省的金额,为您提供数据决策是否需要切换 Context Caching。

计算器体验入口:成本计算器 (opens in a new tab)

计算器

计算器示例场景说明:上传解析《甄嬛传》小说,分别提问甄嬛/华妃/安陵容/沈眉庄/皇后/皇上6个主要人物的性格。

计算器选项类比甄嬛传问答场景,如何填写
调用模型《甄嬛传》小说第一册 20 万字,需要使用 128k 模型进行提问,选择 moonshot-v1-128k
单次提问 Input Tokens 数量《甄嬛传》小说 20 万字,预估需要 tokens 130,000,每个问题 20 个 tokens,计算器填写: 130,000+20 = 130,020 tokens
单次提问 Output Tokens 数量每次提问,预计返回人物性格总结字数 100 字,消耗 tokens 80,计算器填写:80
相同 Input Tokens 比例即《甄嬛传》小说 tokens 数占比每次提问的 tokens 消耗,计算器填写:130,000/130,020 = 99%
重复提问时间段《甄嬛传》人物性格分析,6 个问题,预计在多长时间内提问完成,计算器填写:10min
重复提问次数针对《甄嬛传》重复提问的次数,计算器填写:6

限制说明

  • Context Caching 功能仅开放给 Tier5 等级用户,用户范围放开时间,敬请期待
  • 单用户最大 Cache 存储上限为 128k
  • Cache 单次可设置过期时间 1h
  • Tier 限速:创建 Cache 的 Tokens ,Chat 调用 Cache 的 Tokens,都会计算在您和 api 交互的 Tokens 总数中,需要被 TPM/TPD 限额限制

注意事项

  • 创建 Cache 为异步操作,通常发起请求仍需等待 40s-60s 方可使用。
  • 可以使用 list cache 方法确认 Cache 是否创建成功。