另一种以无限注意力进行RAG的方法

软文推广1年前 (2024)发布刘老三

118 0

在我们之前的博客文章中，我们探索了使用无限注意力通过使用预先计算的上下文表示初始化模型的键值存储来有效地将大型语言模型(LLM)适应长上下文任务的想法。这种方法允许创建“分叉”模型快照，这些快照可以在许多提示中重复使用，从而显着减少延迟和推理时间。

在此基础上，我们现在提出了这种方法的分层扩展，可以在大型应用程序中对客户特定的上下文进行可扩展且高效的管理。

分层上下文嵌入：关键思想是以分层方式构建上下文嵌入，其中“根”嵌入代表核心公司策略，并派生出包含其他个性化上下文的特定于客户的嵌入。

1. 根嵌入(公司策略)： – 公司策略的序列化无限注意力状态作为基础上下文。 — 此根嵌入对所有客户一致的高级指南、规则和知识进行编码。

2. 特定于客户的嵌入： — 对于每个客户，从根嵌入派生出一个单独的无限注意力状态。 — 这种特定于客户的嵌入包含额外的上下文，例如客户的个人资料、交互历史记录、交易和注释。 — 通过将一般公司政策与个性化信息相结合，客户嵌入可以实现上下文相关且高效地处理特定于客户的提示。

增量更新和策略传播：为了使上下文嵌入与最新的客户交互和公司策略变化保持同步，我们提出了一种增量更新机制：

1. 客户交互： — 通过无限注意力记忆的增量更新，新的客户交互或数据点可以有效地纳入相应的客户嵌入中。 — 这允许实时适应上下文，而无需重新处理整个历史记录。

2. 策略更新： — 当修改公司策略时，根嵌入会更新，然后传播到派生的客户嵌入。 — 这可确保所有客户互动始终遵循最新政策。 — 虽然在策略更新时重新生成客户嵌入确实会产生一些开销，但与客户交互相比，策略更改的频率相对较低，从而缓解了这一点。

相对于检索增强生成的优点：与传统的检索增强生成(RAG)模型相比，这种分层上下文嵌入方法具有以下几个优点：

1. 效率：——通过将上下文编码为固定大小的嵌入，这种方法避免了对每个新提示进行昂贵的检索操作。 — Infini-attention 状态的紧凑表示允许高效存储和加载上下文嵌入，即使对于大型客户群也是如此。

2. 上下文连贯性： — 将客户特定信息直接纳入上下文嵌入中，确保所有相关数据均可随时用于指导模型的生成过程。 — 与对检索到的段落进行调节相比，这种集成的上下文表示可以导致更加连贯和上下文适当的响应。

3. 可扩展性：无限注意力嵌入的固定大小性质使得这种方法对于大型客户群和长期交互历史具有高度可扩展性。 — 存储和计算需求随着客户数量线性增长，而不是随着交互或数据点的总量线性增长。

结论：分层上下文嵌入方法建立在使用无限注意力进行高效长上下文适应的思想之上，为管理大规模语言模型中的客户特定上下文提供了强大且可扩展的解决方案。

通过以分层方式构建上下文嵌入，并使用公司策略的根嵌入和派生的特定于客户的嵌入，这种方法可以实现高效、上下文感知和个性化的客户交互处理。

虽然确实存在需要解决的挑战和需要进一步探索的领域，但我们相信这种分层方法代表了在现实应用程序中构建更高效和更有效的上下文感知语言模型的有前途的方向。随着我们不断开发和完善这些技术，我们期待看到它们在客户支持、个性化推荐和情境人工智能助手等领域产生的影响。更具响应性、连贯性和上下文相关的语言模型的潜力是一个令人兴奋的前景，我们渴望在这一领域取得进展。