AI基本名词扫盲

本文将对AI中的一些常见名词进行介绍,帮助大家对一些例如LLM、Agent、RAG、Prompt、Function Calling、MCP、本地部署之类的名词有个基本的认识。

1. LLM(大语言模型)

1.1 什么是LLM?

LLM(Large Language Model,大语言模型)是通过海量文本训练出的深度学习模型,能够理解、生成人类语言。如GPT、Claude、LLaMA、DeepSeek等。

1.2 LLM的核心技术

  • Transformer架构(2017年Google提出):采用自注意力机制(Self-Attention),让模型能并行处理长文本。
  • 训练方式:
    • 预训练(Pre-training):在万亿级token数据上训练(如Common Crawl、Wikipedia)。
    • 微调(Fine-tuning):用指令数据优化模型行为(如ChatGPT的RLHF)。

1.3 不同的LLM对比

公司 代表模型 特点 开源情况 最大参数量
OpenAI GPT-4、GPT-4o 闭源,商用API最强,支持多模态 仅API ~1.8T(估计)
Google Gemini 1.5 多模态能力强,支持超长上下文(1M token) 部分开源(Gemma) ~10T(估计)
Meta LLaMA-3 开源生态最活跃,适合本地部署 完全开源 400B+
Anthropic Claude 3 强调安全对齐,长上下文(200K token) 仅API ~1T(估计)
Mistral Mixtral 8x22B 混合专家(MoE)架构,高效推理 开源 176B(8x22B)
DeepSeek DeepSeek-V3 中文能力突出,支持128K上下文,免费商用 开源 未知(未公开)

2. Agent(智能体)

2.1 什么是Agent?

Agent是一种能够自主理解目标、制定计划并执行任务的AI系统,由LLM作为”大脑。Agend不单单是一个LLM对话机器人,或者单一的图片/代码生成工具,而是结合了多种大模型工具并结合工作流的智能体,真正模拟人类行为来完成复杂任务。

2.2 Agent的核心能力

  1. 任务分解(将复杂问题拆解为子任务)
  2. 工具调用(如搜索、计算、API)
  3. 记忆管理(保存上下文)
  4. 自我反思(优化执行策略)

2.3 不同的Agent方案对比

公司/项目 代表Agent 特点 是否开源
OpenAI GPT-4 + 自定义Agent 依赖Function Calling,适合API集成
Google Gemini API Agent 结合Google搜索、地图等工具
Meta LLaMA + AutoGPT 开源生态丰富,可本地部署
Anthropic Claude + 自定义Agent 强调安全性和可控性
AutoGPT 开源Agent框架 可自主执行任务,但稳定性一般

3. RAG(检索增强生成)

3.1 什么是RAG?

RAG(Retrieval-Augmented Generation)是一种结合了信息检索和文本生成的技术,主要用于提升大语言模型(LLM)在问答、对话和内容生成等任务中的准确性和可靠性。核心思想是通过检索外部知识库或文档来增强生成模型的能力,从而生成更准确、更有依据的答案。

3.2 RAG vs 传统LLM

对比项 传统LLM RAG
知识更新 依赖训练数据(无法更新) 可动态更新知识库
准确性 可能产生幻觉 基于检索结果,更可靠
适用场景 通用问答 专业领域(法律、医疗)

3.3 不同的RAG方案

公司 RAG方案 特点
OpenAI GPT + 知识库插件 依赖企业自定义数据
Google Vertex AI Search 结合Google搜索能力
LlamaIndex 开源RAG框架 支持本地知识库
Pinecone 向量数据库方案 专为RAG优化检索

4. Prompt Engineering(提示词工程)

4.1 什么是Prompt?

Prompt是用户输入给AI的指令或问题,是人与AI交互的主要方式。Prompt质量直接影响输出效果,催生了”提示工程”(Prompt Engineering)这一新领域。

4.2 高级Prompt技巧

  • Few-shot Prompting(提供示例)
  • Chain-of-Thought(CoT)(让模型分步思考)
  • ReAct(Reasoning + Action)(结合推理和工具调用)

4.3 不同的Prompt优化

公司 Prompt优化方案 特点
OpenAI GPT-4 Turbo优化 对模糊Prompt理解更强
Anthropic Claude 3 System Prompt 强调安全约束
Google Gemini 1.5 Prompt适应 支持超长上下文

5. Function Calling(函数调用)

5.1 什么是Function Calling?

Function Calling 是一种让大语言模型能够调用外部函数或工具的技术。简单来说,就是让大模型不仅能理解和生成文本,还能根据用户的需求,调用特定的 API 或工具来完成更复杂的任务。

5.2 不同公司的实现

公司 Function Calling方案 特点
OpenAI GPT-4 Function Calling 成熟稳定
Google Gemini API Tools 结合Google生态
Anthropic Claude Tools 更严格的权限控制

6. 本地部署:满血版 vs 蒸馏版

6.1 本地部署的意义

  • 免费(本地部署免费,投入一个好设备即可)
  • 数据隐私(所有的数据都存储在本地,不会上传到云端)
  • 定制化(利用自己的数据集对模型训练,形成特定领域的专用模型)
  • 成本可控(长期使用下来比API便宜)
  • 性能和效率(避免网络延迟的问题,让我们能够更快地得到结果)
  • 无需网络依赖(不联网的情况下也可以随时进行使用,无网络要求限制)

6.2 满血版 vs 阉割版:

  • 满血版:完整参数(如LLaMA-3 400B),需高端GPU。
  • 阉割版:量化版(如LLaMA-3 7b),可在笔记本运行。