从零开始了解人工智能。

0. 乱花渐欲迷人眼

Claude Code、Codex、ChatGPT、Gemini、Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等等这些都是什么?

主要分为两层:工具产品底层模型

工具产品

  • 网页端/客户端:ChatGPT、Claude、Gemini、Kimi、豆包等
  • 终端命令行:Claude Code、Codex(也有客户端)、Trae、OpenCode、Amp 等

底层模型

  • Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等
  • GLM-5、MiniMax 2.5、Kimi 2.5 等

1. AI 到底是什么?

  • AI(人工智能):让机器模拟人类智能行为与思考方式。
  • ML(机器学习):AI 的主流实现方法。传统编程是“人写规则 -> 机器执行”;机器学习是“人给数据 -> 机器找规律”。
  • DL(深度学习):机器学习的升级版,使用多层神经网络来处理复杂数据(图像、语音、文本)。

简单比喻:AI 是目标,ML 是方法,DL 是目前最强大的引擎。

2. 生成式 AI 与 LLM(大语言模型)

我们常用的 ChatGPT、Claude、Gemini 都属于生成式 AI(Generative AI)

它们的核心是 LLM(Large Language Model,大语言模型)

  • LLM 在海量文本上预训练,学会“预测下一个 token”。
  • 它不是“查答案”,而是“按概率生成内容”——写作、写代码、翻译、总结、对话都基于这个原理。

关键特性

  • Token(词元):模型处理文本的基本单位,不等于“一个字”或“一个词”。
  • 上下文窗口(Context Window):模型一次能处理的 token 上限。窗口越大,可处理内容越长。
  • Hallucination(幻觉):模型可能会自信地编造事实,需要结合外部工具和数据源校验。

3. Transformer 架构:LLM 的心脏

Transformer 来自 2017 年论文 Attention Is All You Need,现代 LLM 几乎都基于它。

它的革命性在于:抛弃了传统“按时间步循环处理”的方式,转向并行计算。

核心思想

  • 注意力机制(Attention):模型可同时看整句,自动判断词与词之间的关联强度。
  • Q/K/V 机制:通过 Query、Key、Value 计算相关性后加权汇总。
  • 多头注意力(Multi-Head Attention):从多个视角并行关注同一输入,再合并结果。
  • 位置编码(Positional Encoding):补充位置信息,弥补无循环结构的顺序感缺失。

结构组成

  • Encoder(编码器):负责理解输入。
  • Decoder(解码器):负责逐步生成输出。

为什么强大

  • 并行训练效率高。
  • 能捕捉长距离依赖关系。
  • 可扩展性强:层数、参数规模提升后就能形成更强模型。

不需要先懂全部数学细节,只要记住:注意力机制让模型真正“看上下文”

4. Prompt Engineering:普通人最实用的技能

Prompt Engineering 就是“写指令的艺术”。同一个模型,提示词质量不同,输出可能差一个量级。

核心技巧(基础到进阶)

  1. Zero-Shot(零样本) 直接下任务,不给示例。 例子:把下面这段代码改得更简洁。

  2. Few-Shot(少样本) 提供 2-5 个输入输出样例,让模型按样学习。

  3. Chain-of-Thought(CoT,思维链) 要求模型按步骤分析,再给结论。 模板:先分析问题 -> 列出步骤 -> 检查潜在错误 -> 给最终答案。

  4. Role Prompting(角色提示) 赋予模型明确身份。 例子:你是有 10 年经验的资深产品经理,请帮我写一份 PRD。

  5. 结构化输出 强制固定格式(JSON、表格、XML 等),便于复用与自动化处理。

进阶方法

  • ReAct(Reason + Act):思考 -> 调工具 -> 观察结果 -> 再思考。
  • Self-Consistency(自洽性):生成多个方案后做一致性投票。
  • Tree-of-Thoughts(ToT,思维树):探索多个分支后再评估最优路径。
  • RAG(检索增强生成):先检索外部知识,再生成答案,显著降低幻觉风险。

实战建议

  • 具体优于模糊。
  • 迭代优于一次到位。
  • 提示词 + 工具调用一起设计,效果通常最好。

5. 其他重要概念

  • Agentic AI(代理式 AI):能自主规划和执行多步任务,并做结果校验。
  • Fine-tuning(微调):用领域数据继续训练,让模型更擅长特定任务。
  • Multimodal(多模态):处理文本、图像、音频、视频等多种输入。
  • Alignment(对齐):让模型输出更安全、更有帮助、更符合人类价值。

6. 如何快速上手实践

  1. 每天用 AI 完成 1-2 个真实任务(写邮件、分析数据、头脑风暴等)。
  2. 建立自己的 Prompt 笔记库(Obsidian、Raycast Notes 都可)。
  3. 优先掌握 Few-Shot + CoT 组合。
  4. 持续关注开源社区和新模型动态。

AI 不是玄学。

把它当作一个可训练、可协作、可验证的认知工具,持续练习,你就会越来越强。