用得起的长文本

4 min read

大幅降本!响应提速!

在业务的合适场景中使用 Context Caching,根据您的业务特性,最高可以节省 90% 的调用成本。同时,Context Caching 还能大幅降低 API 的接口响应耗时(或者说首字返回速度)。简单来说,越是规模化、重复度高的 prompt 场景,Context Caching 功能带来的收益就越大。

Context Caching 的典型使用场景

Context Caching 特别适合于用频繁请求,重复引用大量初始上下文的情况,通过重用已缓存的内容,可以显著提高效率并降低费用。因为这个功能具有强烈的业务属性,我们下面简单列举一些合适的业务场景:

Context Caching 与 RAG 方案的比较

一直以来,长文本大模型虽然效果更好,但是使用成本高是个绕不开的话题。之前业界广泛采用 RAG 方案来进行业务降本,下面我们简单说明加上 Context Caching 功能后的长文本模型与 RAG 方案的区别:

Context Caching

RAG

Coming Soon

即将发布 Context Caching 功能的场景最佳实践/计费方案/技术文档,敬请期待。

2024 © Moonshot AI用户中心文档