从零开始了解人工智能

从零开始了解人工智能。

0. 乱花渐欲迷人眼

Claude Code、Codex、ChatGPT、Gemini、Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等等这些都是什么？

主要分为两层：工具产品 和 底层模型。

工具产品

网页端/客户端：ChatGPT、Claude、Gemini、Kimi、豆包等
终端命令行：Claude Code、Codex（也有客户端）、Trae、OpenCode、Amp 等

底层模型

Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等
GLM-5、MiniMax 2.5、Kimi 2.5 等

1. AI 到底是什么？

AI（人工智能）：让机器模拟人类智能行为与思考方式。
ML（机器学习）：AI 的主流实现方法。传统编程是“人写规则 -> 机器执行”；机器学习是“人给数据 -> 机器找规律”。
DL（深度学习）：机器学习的升级版，使用多层神经网络来处理复杂数据（图像、语音、文本）。

简单比喻：AI 是目标，ML 是方法，DL 是目前最强大的引擎。

2. 生成式 AI 与 LLM（大语言模型）

我们常用的 ChatGPT、Claude、Gemini 都属于生成式 AI（Generative AI）。

它们的核心是 LLM（Large Language Model，大语言模型）：

LLM 在海量文本上预训练，学会“预测下一个 token”。
它不是“查答案”，而是“按概率生成内容”——写作、写代码、翻译、总结、对话都基于这个原理。

关键特性

Token（词元）：模型处理文本的基本单位，不等于“一个字”或“一个词”。
上下文窗口（Context Window）：模型一次能处理的 token 上限。窗口越大，可处理内容越长。
Hallucination（幻觉）：模型可能会自信地编造事实，需要结合外部工具和数据源校验。

3. Transformer 架构：LLM 的心脏

Transformer 来自 2017 年论文 Attention Is All You Need，现代 LLM 几乎都基于它。

它的革命性在于：抛弃了传统“按时间步循环处理”的方式，转向并行计算。

核心思想

注意力机制（Attention）：模型可同时看整句，自动判断词与词之间的关联强度。
Q/K/V 机制：通过 Query、Key、Value 计算相关性后加权汇总。
多头注意力（Multi-Head Attention）：从多个视角并行关注同一输入，再合并结果。
位置编码（Positional Encoding）：补充位置信息，弥补无循环结构的顺序感缺失。

结构组成

Encoder（编码器）：负责理解输入。
Decoder（解码器）：负责逐步生成输出。

为什么强大

并行训练效率高。
能捕捉长距离依赖关系。
可扩展性强：层数、参数规模提升后就能形成更强模型。

不需要先懂全部数学细节，只要记住：注意力机制让模型真正“看上下文”。

4. Prompt Engineering：普通人最实用的技能

Prompt Engineering 就是“写指令的艺术”。同一个模型，提示词质量不同，输出可能差一个量级。

核心技巧（基础到进阶）

Zero-Shot（零样本） 直接下任务，不给示例。例子：把下面这段代码改得更简洁。
Few-Shot（少样本） 提供 2-5 个输入输出样例，让模型按样学习。
Chain-of-Thought（CoT，思维链） 要求模型按步骤分析，再给结论。模板：先分析问题 -> 列出步骤 -> 检查潜在错误 -> 给最终答案。
Role Prompting（角色提示） 赋予模型明确身份。例子：你是有 10 年经验的资深产品经理，请帮我写一份 PRD。
结构化输出 强制固定格式（JSON、表格、XML 等），便于复用与自动化处理。

进阶方法

ReAct（Reason + Act）：思考 -> 调工具 -> 观察结果 -> 再思考。
Self-Consistency（自洽性）：生成多个方案后做一致性投票。
Tree-of-Thoughts（ToT，思维树）：探索多个分支后再评估最优路径。
RAG（检索增强生成）：先检索外部知识，再生成答案，显著降低幻觉风险。

实战建议

具体优于模糊。
迭代优于一次到位。
提示词 + 工具调用一起设计，效果通常最好。

5. 其他重要概念

Agentic AI（代理式 AI）：能自主规划和执行多步任务，并做结果校验。
Fine-tuning（微调）：用领域数据继续训练，让模型更擅长特定任务。
Multimodal（多模态）：处理文本、图像、音频、视频等多种输入。
Alignment（对齐）：让模型输出更安全、更有帮助、更符合人类价值。

6. 如何快速上手实践

每天用 AI 完成 1-2 个真实任务（写邮件、分析数据、头脑风暴等）。
建立自己的 Prompt 笔记库（Obsidian、Raycast Notes 都可）。
优先掌握 Few-Shot + CoT 组合。
持续关注开源社区和新模型动态。

AI 不是玄学。

把它当作一个可训练、可协作、可验证的认知工具，持续练习，你就会越来越强。