AI基本名词扫盲
AI基本名词扫盲
YuXiang本文将对AI中的一些常见名词进行介绍,帮助大家对一些例如LLM、Agent、RAG、Prompt、Function Calling、MCP、本地部署之类的名词有个基本的认识。
1. LLM(大语言模型)
1.1 什么是LLM?
LLM(Large Language Model,大语言模型)是通过海量文本训练出的深度学习模型,能够理解、生成人类语言。如GPT、Claude、LLaMA、DeepSeek等。
1.2 LLM的核心技术
- Transformer架构(2017年Google提出):采用自注意力机制(Self-Attention),让模型能并行处理长文本。
- 训练方式:
- 预训练(Pre-training):在万亿级token数据上训练(如Common Crawl、Wikipedia)。
- 微调(Fine-tuning):用指令数据优化模型行为(如ChatGPT的RLHF)。
1.3 不同的LLM对比
公司 | 代表模型 | 特点 | 开源情况 | 最大参数量 |
---|---|---|---|---|
OpenAI | GPT-4、GPT-4o | 闭源,商用API最强,支持多模态 | 仅API | ~1.8T(估计) |
Gemini 1.5 | 多模态能力强,支持超长上下文(1M token) | 部分开源(Gemma) | ~10T(估计) | |
Meta | LLaMA-3 | 开源生态最活跃,适合本地部署 | 完全开源 | 400B+ |
Anthropic | Claude 3 | 强调安全对齐,长上下文(200K token) | 仅API | ~1T(估计) |
Mistral | Mixtral 8x22B | 混合专家(MoE)架构,高效推理 | 开源 | 176B(8x22B) |
DeepSeek | DeepSeek-V3 | 中文能力突出,支持128K上下文,免费商用 | 开源 | 未知(未公开) |
2. Agent(智能体)
2.1 什么是Agent?
Agent是一种能够自主理解目标、制定计划并执行任务的AI系统,由LLM作为”大脑。Agend不单单是一个LLM对话机器人,或者单一的图片/代码生成工具,而是结合了多种大模型工具并结合工作流的智能体,真正模拟人类行为来完成复杂任务。
2.2 Agent的核心能力
- 任务分解(将复杂问题拆解为子任务)
- 工具调用(如搜索、计算、API)
- 记忆管理(保存上下文)
- 自我反思(优化执行策略)
2.3 不同的Agent方案对比
公司/项目 | 代表Agent | 特点 | 是否开源 |
---|---|---|---|
OpenAI | GPT-4 + 自定义Agent | 依赖Function Calling,适合API集成 | 否 |
Gemini API Agent | 结合Google搜索、地图等工具 | 否 | |
Meta | LLaMA + AutoGPT | 开源生态丰富,可本地部署 | 是 |
Anthropic | Claude + 自定义Agent | 强调安全性和可控性 | 否 |
AutoGPT | 开源Agent框架 | 可自主执行任务,但稳定性一般 | 是 |
3. RAG(检索增强生成)
3.1 什么是RAG?
RAG(Retrieval-Augmented Generation)是一种结合了信息检索和文本生成的技术,主要用于提升大语言模型(LLM)在问答、对话和内容生成等任务中的准确性和可靠性。核心思想是通过检索外部知识库或文档来增强生成模型的能力,从而生成更准确、更有依据的答案。
3.2 RAG vs 传统LLM
对比项 | 传统LLM | RAG |
---|---|---|
知识更新 | 依赖训练数据(无法更新) | 可动态更新知识库 |
准确性 | 可能产生幻觉 | 基于检索结果,更可靠 |
适用场景 | 通用问答 | 专业领域(法律、医疗) |
3.3 不同的RAG方案
公司 | RAG方案 | 特点 |
---|---|---|
OpenAI | GPT + 知识库插件 | 依赖企业自定义数据 |
Vertex AI Search | 结合Google搜索能力 | |
LlamaIndex | 开源RAG框架 | 支持本地知识库 |
Pinecone | 向量数据库方案 | 专为RAG优化检索 |
4. Prompt Engineering(提示词工程)
4.1 什么是Prompt?
Prompt是用户输入给AI的指令或问题,是人与AI交互的主要方式。Prompt质量直接影响输出效果,催生了”提示工程”(Prompt Engineering)这一新领域。
4.2 高级Prompt技巧
- Few-shot Prompting(提供示例)
- Chain-of-Thought(CoT)(让模型分步思考)
- ReAct(Reasoning + Action)(结合推理和工具调用)
4.3 不同的Prompt优化
公司 | Prompt优化方案 | 特点 |
---|---|---|
OpenAI | GPT-4 Turbo优化 | 对模糊Prompt理解更强 |
Anthropic | Claude 3 System Prompt | 强调安全约束 |
Gemini 1.5 Prompt适应 | 支持超长上下文 |
5. Function Calling(函数调用)
5.1 什么是Function Calling?
Function Calling 是一种让大语言模型能够调用外部函数或工具的技术。简单来说,就是让大模型不仅能理解和生成文本,还能根据用户的需求,调用特定的 API 或工具来完成更复杂的任务。
5.2 不同公司的实现
公司 | Function Calling方案 | 特点 |
---|---|---|
OpenAI | GPT-4 Function Calling | 成熟稳定 |
Gemini API Tools | 结合Google生态 | |
Anthropic | Claude Tools | 更严格的权限控制 |
6. 本地部署:满血版 vs 蒸馏版
6.1 本地部署的意义
- 免费(本地部署免费,投入一个好设备即可)
- 数据隐私(所有的数据都存储在本地,不会上传到云端)
- 定制化(利用自己的数据集对模型训练,形成特定领域的专用模型)
- 成本可控(长期使用下来比API便宜)
- 性能和效率(避免网络延迟的问题,让我们能够更快地得到结果)
- 无需网络依赖(不联网的情况下也可以随时进行使用,无网络要求限制)
6.2 满血版 vs 阉割版:
- 满血版:完整参数(如LLaMA-3 400B),需高端GPU。
- 阉割版:量化版(如LLaMA-3 7b),可在笔记本运行。