AI基本名词扫盲

YuXiang

本文将对AI中的一些常见名词进行介绍，帮助大家对一些例如LLM、Agent、RAG、Prompt、Function Calling、MCP、本地部署之类的名词有个基本的认识。

1. LLM（大语言模型）

LLM（Large Language Model，大语言模型）是通过海量文本训练出的深度学习模型，能够理解、生成人类语言。如GPT、Claude、LLaMA、DeepSeek等。

Transformer架构（2017年Google提出）：采用自注意力机制（Self-Attention），让模型能并行处理长文本。
训练方式：
- 预训练（Pre-training）：在万亿级token数据上训练（如Common Crawl、Wikipedia）。
- 微调（Fine-tuning）：用指令数据优化模型行为（如ChatGPT的RLHF）。

公司	代表模型	特点	开源情况	最大参数量
OpenAI	GPT-4、GPT-4o	闭源，商用API最强，支持多模态	仅API	~1.8T（估计）
Google	Gemini 1.5	多模态能力强，支持超长上下文（1M token）	部分开源（Gemma）	~10T（估计）
Meta	LLaMA-3	开源生态最活跃，适合本地部署	完全开源	400B+
Anthropic	Claude 3	强调安全对齐，长上下文（200K token）	仅API	~1T（估计）
Mistral	Mixtral 8x22B	混合专家（MoE）架构，高效推理	开源	176B（8x22B）
DeepSeek	DeepSeek-V3	中文能力突出，支持128K上下文，免费商用	开源	未知（未公开）

Agent是一种能够自主理解目标、制定计划并执行任务的AI系统，由LLM作为”大脑。Agend不单单是一个LLM对话机器人，或者单一的图片/代码生成工具，而是结合了多种大模型工具并结合工作流的智能体，真正模拟人类行为来完成复杂任务。

公司/项目	代表Agent	特点	是否开源
OpenAI	GPT-4 + 自定义Agent	依赖Function Calling，适合API集成	否
Google	Gemini API Agent	结合Google搜索、地图等工具	否
Meta	LLaMA + AutoGPT	开源生态丰富，可本地部署	是
Anthropic	Claude + 自定义Agent	强调安全性和可控性	否
AutoGPT	开源Agent框架	可自主执行任务，但稳定性一般	是

RAG（Retrieval-Augmented Generation）是一种结合了信息检索和文本生成的技术，主要用于提升大语言模型（LLM）在问答、对话和内容生成等任务中的准确性和可靠性。核心思想是通过检索外部知识库或文档来增强生成模型的能力，从而生成更准确、更有依据的答案。

Prompt是用户输入给AI的指令或问题，是人与AI交互的主要方式。Prompt质量直接影响输出效果，催生了”提示工程”(Prompt Engineering)这一新领域。

Function Calling 是一种让大语言模型能够调用外部函数或工具的技术。简单来说，就是让大模型不仅能理解和生成文本，还能根据用户的需求，调用特定的 API 或工具来完成更复杂的任务。