从零开始了解人工智能。
0. 乱花渐欲迷人眼
Claude Code、Codex、ChatGPT、Gemini、Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等等这些都是什么?
主要分为两层:工具产品 和 底层模型。
工具产品
- 网页端/客户端:ChatGPT、Claude、Gemini、Kimi、豆包等
- 终端命令行:Claude Code、Codex(也有客户端)、Trae、OpenCode、Amp 等
底层模型
- Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等
- GLM-5、MiniMax 2.5、Kimi 2.5 等
1. AI 到底是什么?
- AI(人工智能):让机器模拟人类智能行为与思考方式。
- ML(机器学习):AI 的主流实现方法。传统编程是“人写规则 -> 机器执行”;机器学习是“人给数据 -> 机器找规律”。
- DL(深度学习):机器学习的升级版,使用多层神经网络来处理复杂数据(图像、语音、文本)。
简单比喻:AI 是目标,ML 是方法,DL 是目前最强大的引擎。
2. 生成式 AI 与 LLM(大语言模型)
我们常用的 ChatGPT、Claude、Gemini 都属于生成式 AI(Generative AI)。
它们的核心是 LLM(Large Language Model,大语言模型):
- LLM 在海量文本上预训练,学会“预测下一个 token”。
- 它不是“查答案”,而是“按概率生成内容”——写作、写代码、翻译、总结、对话都基于这个原理。
关键特性
- Token(词元):模型处理文本的基本单位,不等于“一个字”或“一个词”。
- 上下文窗口(Context Window):模型一次能处理的 token 上限。窗口越大,可处理内容越长。
- Hallucination(幻觉):模型可能会自信地编造事实,需要结合外部工具和数据源校验。
3. Transformer 架构:LLM 的心脏
Transformer 来自 2017 年论文 Attention Is All You Need,现代 LLM 几乎都基于它。
它的革命性在于:抛弃了传统“按时间步循环处理”的方式,转向并行计算。
核心思想
- 注意力机制(Attention):模型可同时看整句,自动判断词与词之间的关联强度。
- Q/K/V 机制:通过 Query、Key、Value 计算相关性后加权汇总。
- 多头注意力(Multi-Head Attention):从多个视角并行关注同一输入,再合并结果。
- 位置编码(Positional Encoding):补充位置信息,弥补无循环结构的顺序感缺失。
结构组成
- Encoder(编码器):负责理解输入。
- Decoder(解码器):负责逐步生成输出。
为什么强大
- 并行训练效率高。
- 能捕捉长距离依赖关系。
- 可扩展性强:层数、参数规模提升后就能形成更强模型。
不需要先懂全部数学细节,只要记住:注意力机制让模型真正“看上下文”。
4. Prompt Engineering:普通人最实用的技能
Prompt Engineering 就是“写指令的艺术”。同一个模型,提示词质量不同,输出可能差一个量级。
核心技巧(基础到进阶)
-
Zero-Shot(零样本) 直接下任务,不给示例。 例子:把下面这段代码改得更简洁。
-
Few-Shot(少样本) 提供 2-5 个输入输出样例,让模型按样学习。
-
Chain-of-Thought(CoT,思维链) 要求模型按步骤分析,再给结论。 模板:先分析问题 -> 列出步骤 -> 检查潜在错误 -> 给最终答案。
-
Role Prompting(角色提示) 赋予模型明确身份。 例子:你是有 10 年经验的资深产品经理,请帮我写一份 PRD。
-
结构化输出 强制固定格式(JSON、表格、XML 等),便于复用与自动化处理。
进阶方法
- ReAct(Reason + Act):思考 -> 调工具 -> 观察结果 -> 再思考。
- Self-Consistency(自洽性):生成多个方案后做一致性投票。
- Tree-of-Thoughts(ToT,思维树):探索多个分支后再评估最优路径。
- RAG(检索增强生成):先检索外部知识,再生成答案,显著降低幻觉风险。
实战建议
- 具体优于模糊。
- 迭代优于一次到位。
- 提示词 + 工具调用一起设计,效果通常最好。
5. 其他重要概念
- Agentic AI(代理式 AI):能自主规划和执行多步任务,并做结果校验。
- Fine-tuning(微调):用领域数据继续训练,让模型更擅长特定任务。
- Multimodal(多模态):处理文本、图像、音频、视频等多种输入。
- Alignment(对齐):让模型输出更安全、更有帮助、更符合人类价值。
6. 如何快速上手实践
- 每天用 AI 完成 1-2 个真实任务(写邮件、分析数据、头脑风暴等)。
- 建立自己的 Prompt 笔记库(Obsidian、Raycast Notes 都可)。
- 优先掌握 Few-Shot + CoT 组合。
- 持续关注开源社区和新模型动态。
AI 不是玄学。
把它当作一个可训练、可协作、可验证的认知工具,持续练习,你就会越来越强。