什么是检索增强生成 (RAG)？

mostakimvip06 · Post by **mostakimvip06** » Tue Mar 18, 2025 6:00 am

大型语言模型 (LLM)（如 GPT-4）取得了惊人的进步，但它们也存在局限性——过时的知识、幻觉和通用反应。我们可以使用检索增强生成 (RAG)来解决这一问题。

在这篇博客中，我将深入分析 RAG 的工作原理、它为何能改变 AI 应用，以及企业如何使用它来创建更智能、更可靠的系统。

什么是 RAG？
检索增强生成 (RAG) 是一种通过将 LLM 与外部数据源集成来增强 LLM 的技术。通过将 GPT-4 等模型的生成功能与精确的信息检索机制相结合，RAG 使 AI 系统能够生成更准确、更符合语境的响应。

LLM 功能强大，但具有固有的局限性：

知识有限：LLM 只能根据其训西班牙赌博数据练数据生成响应，这些数据可能已经过时或缺乏特定领域的信息。
幻觉：这些模型有时会产生听起来合理但却不正确的信息。
通用回答：如果无法获取外部资源，法学硕士 (LLM) 可能会提供模糊或不精确的答案。
RAG 通过允许模型从结构化和非结构化数据源（例如数据库、文档和 API）检索最新和特定领域的信息来解决这些问题。

RAG 与 LangChain
使用检索增强生成 (RAG) 和 LangChain 将外部数据与 LLM 集成。
为什么要使用 RAG 来提高 LLM 成绩？一个例子
为了更好地说明什么是 RAG 以及该技术如何工作，让我们考虑当今许多企业面临的一个场景。

假设您是一家销售智能手机和笔记本电脑等设备的电子公司的高管。您想为公司创建一个客户支持聊天机器人，以回答用户有关产品规格、故障排除、保修信息等的查询。

您希望使用 GPT-3 或GPT-4等 LLM 的功能来为您的聊天机器人提供支持。

然而，大型语言模型存在以下局限性，导致客户体验低效：

缺乏具体信息
语言模型只能根据训练数据提供通用答案。如果用户询问与您销售的软件相关的具体问题，或者对如何进行深入故障排除有疑问，传统的 LLM 可能无法提供准确的答案。

这是因为它们尚未接受过针对贵组织的特定数据的训练。此外，这些模型的训练数据有截止日期，限制了它们提供最新响应的能力。

幻觉
LLM 可能会产生“幻觉”，这意味着它们倾向于根据想象的事实自信地生成错误响应。如果这些算法无法准确回答用户的查询，它们还会提供偏离主题的响应，从而导致糟糕的客户体验。

一般回应
语言模型通常提供通用的响应，而不是针对特定上下文量身定制的。这在客户支持场景中可能是一个主要缺点，因为通常需要根据个人用户偏好来提供个性化的客户体验。

RAG 有效地弥补了这些差距，为您提供了一种将 LLM 的一般知识库与访问特定信息（例如产品数据库和用户手册中存在的数据）的能力相结合的方法。这种方法可以提供高度准确和可靠的响应，以满足您组织的需求。

RAG 如何工作？
现在您已经了解了 RAG 是什么，让我们看看设置此框架所涉及的步骤：

步骤 1：数据收集
您必须首先收集应用程序所需的所有数据。对于电子公司的客户支持聊天机器人，这些数据可能包括用户手册、产品数据库和常见问题解答列表。

第 2 步：数据分块
数据分块是将数据分解成更小、更易于管理的部分的过程。例如，如果您有一本长达 100 页的用户手册，您可以将其分解成不同的部分，每个部分都可能回答不同的客户问题。

这样，每块数据都集中在一个特定的主题上。当从源数据集中检索到一条信息时，它更有可能直接适用于用户的查询，因为我们避免包含整个文档中不相关的信息。

这也提高了效率，因为系统可以快速获取最相关的信息，而不是处理整个文档。

步骤 3：文档嵌入
现在源数据已被分解成更小的部分，需要将其转换为矢量表示。这涉及将文本数据转换为嵌入，即捕捉文本背后语义的数字表示。

简而言之，文档嵌入允许系统理解用户查询，并根据文本的含义将其与源数据集中的相关信息进行匹配，而不是进行简单的逐字比较。这种方法可确保响应与用户的查询相关且一致。

如果您想了解有关如何将文本数据转换为矢量表示的更多信息，我们建议您探索有关使用 OpenAI API 进行文本嵌入的教程。

步骤 4：处理用户查询
当用户查询进入系统时，还必须将其转换为嵌入或向量表示。文档和查询嵌入必须使用相同的模型，以确保两者之间的统一性。

一旦查询被转换为嵌入，系统就会将查询嵌入与文档嵌入进行比较。它使用余弦相似度和欧几里得距离等度量来识别和检索嵌入与查询嵌入最相似的块。

这些块被认为与用户的查询最相关。

第 5 步：使用 LLM 生成回复
检索到的文本块与初始用户查询一起被输入到语言模型中。算法将利用这些信息通过聊天界面对用户的问题生成连贯的响应。

以下是总结 RAG 工作原理的简化流程图：