价格说明
计费基本概念
计费单元
Token:代表常见的字符序列,每个汉字使用的 Token 数目可能是不同的。例如,单个汉字"夔"可能会被分解为若干 Token 的组合,而像"中国"这样短且常见的短语则可能会使用单个 Token。
大致来说,对于一段通常的中文文本,1 个 Token 大约相当于 1.5-2 个汉字。具体每次调用实际产生的 Tokens 数量可以通过调用计算Token API 来获得。
计费逻辑
我们对 Input 和 Output 均实行按量计费。如果您上传并抽取文档内容,并将抽取的文档内容作为 Input 传输给模型,那么文档内容也将按量计费。
但如果您只上传并抽取文档,这个API本身不会产生费用。
为什么要做限速?
速率限制是API接口的常见做法,主要有以下几个考量:
- 有助于防止滥用或误用API。例如,恶意行为者可能会通过大量请求来淹没API,试图使其过载或导致服务中断。通过设置速率限制,我们可以防范这样的行为。
- 速率限制有助于确保每个人都能公平地访问API。如果一个人或组织发出过多的请求,可能会拖慢所有人的API。通过限制单个用户可以发出的请求数量,那么尽可能多的人有机会使用API而不会遇到速度减慢的问题。
- 速率限制可以帮助我们管理集群总负载。如果对API的请求急剧增加,可能会给服务器带来压力并导致性能问题。通过设置速率限制将可以帮助为所有用户维护一个平稳且一致的体验。
产品定价
文本生成模型 Moonshot-v1
模型 | 计费单位 | 价格 |
---|---|---|
moonshot-v1-8k | 1M tokens | ¥12.00 |
moonshot-v1-32k | 1M tokens | ¥24.00 |
moonshot-v1-128k | 1M tokens | ¥60.00 |
此处 1M = 1,000,000,表格中的价格代表每消耗 1M tokens 的价格。
以上模型的区别在于它们的最大上下文长度,这个长度包括了输入消息和生成的输出,在效果上并没有什么区别。
收费接口说明
- Chat Completion 接口收费:按照实际输入输出 tokens 的消耗计费
- 文件相关接口(文件内容抽取/文件存储)接口限时免费
充值与限速
为了整体资源分配的公平性,同时防止恶意攻击,我们目前将基于账户的累计充值金额进行速率限制,具体如下表,如有更高需求请联系人工客服:
用户等级 | 累计充值金额 | 并发 | RPM | TPM | TPD |
---|---|---|---|---|---|
Free | ¥ 0 | 1 | 3 | 32,000 | 1,500,000 |
Tier1 | ¥ 50 | 50 | 200 | 128,000 | 10,000,000 |
Tier2 | ¥ 100 | 100 | 500 | 128,000 | 20,000,000 |
Tier3 | ¥ 500 | 200 | 5,000 | 384,000 | Unlimited |
Tier4 | ¥ 5,000 | 400 | 5,000 | 768,000 | Unlimited |
Tier5 | ¥ 20,000 | 1,000 | 10,000 | 2,000,000 | Unlimited |
限速概念解释
-
并发: 同一时间内我们最多处理的来自您的请求数
-
RPM: request per minute 指一分钟内您最多向我们发起的请求数
-
TPM: token per minute 指一分钟内您最多和我们交互的token数
-
TPD: token per day 指一天内您最多和我们交互的token数
其他细节请参考速率限制一节。
特别说明
- 我们将全力保障用户的正常使用,但当集群负载达到容量上限时,我们可能会采取临时的限流措施,对各类限速进行调整。
- 代金券不计入累计充值总额