一只会思考的猪
一只会思考的猪
发布于 2026-05-11 / 7 阅读
0
0

大模型发展史

从 Transformer 到 Agentic Engineering——一部关于智能进化的编年史

主线:时间序关键里程碑
隐藏脉络:模型能力进化 · 工程方法论 · 普通人感知
特别章节:中国大模型发展全景

参考来源:Wikipedia、学术论文、Karpathy 演进框架、网络搜索


目录

  • 脉络总览图

  • 第一阶段:奠基期(2017–2019)

    • 2017:Transformer 诞生

    • 2018:预训练范式的确立

    • 2019:危险的能力

  • 第二阶段:突破期(2020–2021)

    • 2020:规模法则的震撼

    • 2021:AI 编程元年

  • 第三阶段:爆发期(2022)

    • 2022 年前半:对齐与推理的突破

    • 2022.11.30:ChatGPT 引爆一切

  • 第四阶段:群雄逐鹿(2023)

    • 2023 上半年:GPT-4 与开源觉醒

    • 2023 下半年:平台化与百模大战

  • 第五阶段:深水区(2024)

    • 推理模型与"System 2 思维"

    • Agent 的萌芽

  • 第六阶段:新范式(2025)

    • DeepSeek-R1:AI 的斯普特尼克时刻

    • Agentic 编程的全面崛起

  • 第七阶段:建制化(2026)

  • 隐藏脉络·三条线索深度分析

    • 脉络一:模型能力跃迁路径

    • 脉络二:工程方法论的进化

    • 脉络三:普通人的感知曲线

  • 特别篇:中国大模型发展全景

    • 概览:中国 AI 六小虎与巨头的牌桌

    • 百度 · 文心一言

    • 阿里巴巴 · 通义千问 Qwen

    • 月之暗面 · Kimi

    • 字节跳动 · 豆包

    • 智谱 AI · ChatGLM / GLM

    • DeepSeek · 深度求索

    • 其他重要玩家

    • 中国大模型行业的独特逻辑

  • 附录:关键数字记忆


脉络总览图

2017 ─── Transformer 诞生(基础架构奠基)
2018 ─── GPT-1 / BERT(预训练范式确立)
2019 ─── GPT-2("危险"的生成能力,伦理讨论升温)
2020 ─── GPT-3(规模法则验证,few-shot 惊艳学术界)
2021 ─── Copilot / Codex(AI 编程元年)
2022 ─── ChatGPT(引爆公众认知,AI 全民化)
2023 ─── GPT-4 / 开源爆发 / 中国入局(多模态+生态战)
2024 ─── GPT-4o / o1 / Claude 3.5(推理突破+工具使用)
2025 ─── DeepSeek R1 / Agentic / MCP(成本革命+工程化)
2026 ─── Agent 规模化 / 建制化(基础设施化)

第一阶段:奠基期(2017–2019)

2017年 · Transformer 诞生

2017 年 6 月,Google 的八位研究者——Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Łukasz Kaiser、Illia Polosukhin——在 NeurIPS 会议上发表了一篇只有 15 页的论文:《Attention Is All You Need》。

这篇论文提出的 Transformer 架构,以"自注意力机制"(Self-Attention)取代了此前统治 NLP 领域二十年的 RNN/LSTM。它做到了三件事:

  1. 解决了长序列建模问题:RNN 读第 1000 个词时已经"忘记"第 1 个词;Transformer 的注意力机制让每个词都能直接"看到"序列中的任意位置

  2. 实现了并行化训练:RNN 必须一个词一个词地串行处理;Transformer 可以整句并行计算,训练效率产生数量级飞跃

  3. 提供了一种统一架构:同一套 Transformer 既可以做编码(理解),也可以做解码(生成)

传统 RNN:                    Transformer:
"我" → "爱" → "你"            "我" ←→ "爱"
(必须依次处理)                  ↘   ↙   ↘
                                "你"
                              (所有词同时交互)

当时没有人想到,这个架构会成为此后十年一切 AI 突破的地基。GPT、BERT、Claude、Gemini、DeepSeek……所有叫得出名字的大模型,都是 Transformer 的后代。

🔬 能力突破:从"统计模型"到"上下文理解",机器第一次真正"读懂"了句子
⚙️ 工程突破:并行训练取代串行——同样的算力,训练速度快了一个数量级
👤 公众感知:零。这是纯学术界的狂欢


2018年 · 预训练范式的确立

如果说 2017 年发明了引擎,2018 年则是两派人马分别用这台引擎造出了两辆截然不同的车。

6 月,OpenAI 发布 GPT-1。

论文标题《Improving Language Understanding by Generative Pre-Training》奠定了此后一切 GPT 系列的方法论:

海量无标注文本 → 预训练(学习语言的统计规律)
        ↓
下游任务标注数据 → 微调(适配具体任务)

GPT-1 只有 1.17 亿参数,以今天标准"小得可怜",但它的核心理念是革命性的:不需要为每个任务从头训练模型,一个预训练好的基础模型可以适配几乎所有 NLP 任务。

GPT-1 使用了 Decoder-only(仅解码器)架构——它只用了 Transformer 的右半部分,这让它天然擅长"生成"而非"理解"。

10 月,Google 发布 BERT。

BERT(Bidirectional Encoder Representations from Transformers)走了另一条路:Encoder-only(仅编码器)。它用了一种叫"掩码语言模型"(Masked Language Model)的训练方法——随机遮住句子中的一些词,让模型根据上下文猜出被遮住的词。

输入:  "我 [MASK] 吃 [MASK]"
BERT:  "我 [想] 吃 [饭]"  ← 根据上下文双向推断
GPT:   "我想吃" → "饭"      ← 单向预测下一个词

BERT 的 3.4 亿参数虽然不是天文数字,但它在发布时横扫了 11 项 NLP 基准测试——情感分析、命名实体识别、问答、文本蕴含……每一项都被刷新到前所未有的高度。

BERT 和 GPT 的路线分歧,决定了两家公司此后十年的技术走向:

  • BERT(Encoder-only)→ 擅长理解、分类、抽取 → Google 搜索的核心能力

  • GPT(Decoder-only)→ 擅长生成、创作、对话 → OpenAI 的护城河

事实证明,历史选择了 GPT 的路线。到 2023 年,学术界的 BERT 使用率开始大幅下降——因为 Decoder-only 模型通过"提示"就能完成原来需要微调 Encoder 才能做的事。

🔬 能力突破:从静态词向量到上下文感知的动态表示——"苹果"是水果还是公司,模型看上下文就知道
⚙️ 工程突破:预训练-微调范式确立,成为此后数年的行业标准流程
👤 公众感知:NLP 圈震动,工业界开始关注但还没大规模落地


2019年 · "危险"的能力

2 月,OpenAI 发布 GPT-2。 15 亿参数,是 GPT-1 的 10 倍以上。

按照惯例,OpenAI 应该直接开源模型权重和代码。但他们做了一个震惊业界的决定:分阶段发布。 先只放出最小的 1.24 亿参数版本,最大版本推迟了 9 个月才放出。

理由是:"这个模型太危险了。"

GPT-2 可以生成极其连贯的长文本——新闻、故事、技术文档,真假难辨。OpenAI 担心它会被用来:

  • 大规模生产假新闻

  • 冒充他人撰写内容

  • 制造垃圾信息淹没真实资讯

这个决定在当时引发了激烈争论。支持者认为这是负责任的 AI 安全实践;反对者(包括许多研究者)认为这是在制造恐慌、炒作营销,而且"不开源反而让坏人先研发出更强的模型"。

无论动机如何,GPT-2 的"危险论"客观上把 AI 安全问题推到了公众视野。这是第一次,非技术媒体用头版报道"AI 可能会写假新闻"。

10 月,另一件影响深远的事发生了:Google 将 BERT 应用于英文搜索。这意味着大模型第一次进入了 10 亿级用户的消费产品。你搜一个长尾问题,Google 不再只是匹配关键词,而是真正"理解"了你的意图再返回结果。

到 12 月,BERT 已经覆盖了 Google 搜索的 70 多种语言;到 2020 年 10 月,几乎每一个英文查询都经过了 BERT 处理。这是大模型第一次在商业上证明自己的价值——不是以"酷炫 demo"的方式,而是静悄悄地提升了全球数十亿人的搜索体验。

🔬 能力突破:GPT-2 的文本生成从"勉强通顺"跨越到"以假乱真";BERT 让搜索从"关键词匹配"进化到"语义理解"
⚙️ 工程突破:"分阶段发布"成为 AI 安全讨论的标准议题;模型规模竞赛正式拉开序幕
👤 公众感知:GPT-2"危险论"登上主流媒体标题,普通人第一次听说了"AI 写假新闻"这个概念。但这个阶段的 AI 仍然是"新闻里的东西",不是"我能用的东西"


第二阶段:突破期(2020–2021)

2020年 · 规模法则的震撼

5 月,OpenAI 发布 GPT-3。 1750 亿参数——是 GPT-2 的 100 倍以上,也是当时世界上最大的语言模型。

但参数数量本身不是重点。重点是 GPT-3 展现了一种前所未有的能力:Few-Shot Learning(少样本学习)。

简单说:你不需要给 GPT-3 几千个训练样本让它学会一个新任务。你只需要在提示词(Prompt)里给它几个例子,它就能"理解"任务要求并完成。

传统方式(需要微调):
  给模型 10,000 个"英文→法文"翻译样本 → 训练 → 模型学会翻译

GPT-3 方式(Few-Shot Prompting):
  提示词里放 3 个翻译例子 →
  "English: I love you. French: Je t'aime." →
  GPT-3 直接开始翻译

这种 涌现能力(Emergent Ability)是规模法则(Scaling Law)的产物——2020 年 1 月,Jared Kaplan 等 OpenAI 研究者在论文《Scaling Laws for Neural Language Models》中系统性地证明:模型的性能随着参数数量、训练数据量和计算量的增加而可预测地提升。 这不是线性增长——当模型跨过某个规模的临界点后,某些能力会突然"涌现"出来。

GPT-3 就是这个临界点的产物。它能写诗、写代码、做翻译、写邮件、做摘要,甚至能进行简单的数学推理——所有这些都是通过"提示"完成的,不需要任何额外训练。

OpenAI 没有开源 GPT-3,而是通过 API 的形式提供访问。这确立了一种新的商业模式:模型即服务(Model-as-a-Service)。开发者按 token 付费调用,OpenAI 负责模型的运行和维护。

同时,"提示词工程"(Prompt Engineering)这个概念诞生了——如何设计提示词以获得最佳输出,成为一门新"手艺"。

6 月,GitHub 与 OpenAI 合作推出 GitHub Copilot 技术预览——基于 GPT-3 的代码专用版本 Codex。在 IDE 中输入注释描述意图,Copilot 就能自动生成代码。AI 辅助编程的大门被推开了一条缝。

🔬 能力突破:Few-Shot Learning 涌现——模型开始表现出"举一反三"的能力。规模不再是量变,而是质变
⚙️ 工程突破:API 化商业模式确立;"Prompt Engineering"概念出现;Scaling Law 成为指导模型研发的核心理论
👤 公众感知:科技圈被 GPT-3 震撼——"它能写诗!它能写代码!"但普通人仍然隔着一层纱,因为 GPT-3 只在 API 和少数内测产品中可用


2021年 · AI 编程元年

这是 AI 从"实验室"走向"IDE"的一年。

6 月,GitHub Copilot 正式发布。 基于 OpenAI Codex,它直接嵌入 VS Code、JetBrains 等主流 IDE。程序员写代码时,Copilot 在后台实时建议下一行代码、整个函数,甚至根据注释生成完整实现。

程序员输入:  // 解析 CSV 文件,按第二列降序排序,返回前10行
Copilot 输出: def parse_csv_top10(filepath): ...
              (完整实现,包括异常处理和边界条件)

这是开发者群体第一次大规模、日常化地接触大模型。Copilot 在程序员中迅速普及,到 2022 年 6 月已有超过 120 万付费用户。

程序员的反应是分裂的:

  • 一部分人狂喜:"我的效率翻倍了"

  • 一部分人焦虑:"AI 会不会取代我?"

  • 一部分人质疑:"生成的代码质量靠谱吗?"

但无论如何,"AI 能不能写代码"这个问题已经有了明确答案——能。

1 月,OpenAI 发布 DALL·E——第一个引起广泛关注的文本到图像生成模型。虽然效果还比较粗糙,但它证明了 Transformer 架构不仅可以处理文本,还可以处理图像。"多模态"这个概念开始进入公众视野。

7 月,一家新公司 Anthropic 成立。 创始人是从 OpenAI 离开的 Dario Amodei(前研究 VP)和 Daniela Amodei。他们的核心理念是:AI 的发展必须以安全为前提。

这个分裂标志着一个持续至今的路线之争:能力优先 vs 安全优先。 OpenAI 以快速迭代、追求更强能力著称;Anthropic 以谨慎发布、强调"宪法 AI"(Constitutional AI)为特色。两家公司的竞争——既是技术路线之争,也是价值观之争——深刻塑造了此后数年的大模型产业格局。

🔬 能力突破:代码生成从"能写"到"好用";多模态从概念变成原型(DALL·E)
⚙️ 工程突破:Copilot 将大模型嵌入开发者工作流——"AI 辅助"找到了第一个大规模落地的场景
👤 公众感知:程序员群体被劈成两半——热爱者 vs 焦虑者。"AI 抢饭碗"的讨论第一次有了真实案例。普通大众仍然只在新闻里看到 AI,没有亲身体验


第三阶段:爆发期(2022)

2022年前半 · 对齐与推理的突破

2022 年上半年,三件重要的事悄然发生。当时看起来只是学术进展,回头看却是 ChatGPT 成功的三个技术支柱。

1 月,OpenAI 发布 InstructGPT。

InstructGPT 是 GPT-3 的改进版。技术上,它引入了一项名为 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习) 的关键技术。流程如下:

Step 1: 让人工标注员写出"好的回答"→ 用这些数据微调模型(SFT)
Step 2: 让模型对同一个问题生成多个回答 → 标注员排序 → 训练奖励模型(RM)
Step 3: 用奖励模型通过强化学习优化语言模型(PPO)

效果是革命性的:InstructGPT 只有 13 亿参数,却在人类评测中击败了 1750 亿参数的 GPT-3。不是因为更"聪明",而是因为更"听话"——它学会了遵循人类的指令,而不是自顾自地生成文本。

这解决了大模型落地最关键的障碍:可控性。 一个很聪明但不听话的模型没有实用价值;一个足够聪明且听话的模型可以做成产品。

1 月,Google 发表 Chain-of-Thought(思维链)论文。

Jason Wei 等研究者在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中证明:如果在提示词中要求模型"一步步思考"(Let's think step by step),模型的复杂推理能力会大幅提升。

没有 CoT:
  Q: "小明有5个苹果,吃了2个,又买了3个,现在有几个?"
  A: "6个"(可能对,可能错,取决于模型大小)

有 CoT:
  Q: "小明有5个苹果,吃了2个,又买了3个,现在有几个?请一步步思考。"
  A: "小明开始有5个苹果。吃了2个后剩下3个。又买了3个,所以总共有6个。答案是6。"
  (正确率大幅提升)

这个简单的技巧让大模型在数学推理、逻辑推理、常识推理等任务上的表现产生了质的飞跃。它揭示了:大模型的能力远超我们的使用技巧——不是模型不行,是我们还没学会怎么问。

夏天,Anthropic 完成 Claude 第一版训练。 但他们选择不发布,理由是"需要更多的内部安全测试"和"不想引发危险的 AI 军备竞赛"。Anthropic 的谨慎和 OpenAI 的激进,形成了鲜明对比。

与此同时,图像生成领域也在爆发:7 月 Midjourney 公测,8 月 Stable Diffusion 开源。人们第一次可以用自然语言生成高质量的图像。AI 的艺术创作能力让公众既震撼又不安——"AI 画的画算艺术吗?"

🔬 能力突破:RLHF 让模型从"聪明"进化到"听话+聪明";CoT 解锁了复杂推理能力
⚙️ 工程突破:RLHF 成为行业标准的对齐方法;"怎么让大模型遵循人类意图"从学术问题变成工程问题
👤 公众感知:大多数人还不知道这些技术突破——但暴风雨前的宁静即将结束


2022年11月30日 · ChatGPT 引爆一切

2022 年 11 月 30 日,OpenAI 发布 ChatGPT。 这是一个基于 GPT-3.5(InstructGPT 的升级版)的对话式 AI 产品。

没有新闻发布会,没有大规模营销。Sam Altman 只在推特上发了一条:"try ChatGPT"。

接下来的事情超出了所有人的预期:

  • 5 天,用户突破 100 万

  • 2 个月,月活用户突破 1 亿——成为史上增长最快的消费应用(TikTok 用了 9 个月,Instagram 用了 2.5 年)

  • 2 个多月,微软追加投资 100 亿美元,并将其整合进 Bing、Office、Azure

为什么会爆得这么快?

第一,它是对话式的。 之前的 GPT-3 需要通过 API 调用,需要写 Prompt,有技术门槛。ChatGPT 打开网页就能聊天——任何会用键盘的人都能用。这彻底消除了使用门槛。

第二,它能做太多事了。 写邮件、写论文、写代码、写诗歌、翻译、总结、头脑风暴、角色扮演……用户发现 ChatGPT 几乎"什么都能聊"。每发现一个新用法,就在社交媒体上引发新一轮传播。

第三,它"像人"。 和 ChatGPT 对话的体验,与之前任何 AI 都不同。它会承认错误、会拒绝不当请求、会根据上下文调整回答风格。RLHF 让它变得"有礼貌"、"有分寸"——这反而让人感觉它更像一个"人"。

ChatGPT 的意义远超一款产品。 它是人类历史上第一次,普通人可以直接和"通用人工智能雏形"对话。它把 AI 从"新闻里的概念"变成了"我手上能用的工具"。全球数亿人第一次亲身体验到:AI 真的来了。

ChatGPT 引发的连锁反应:

科技行业:  每家公司紧急立项"大模型战略"
教育行业:  学生用 ChatGPT 写作业 → 学校禁 → 又解禁
内容行业:  媒体用 AI 写稿、设计师用 AI 出图
政府层面:  ChatGPT封锁中国,引发国产替代
投资市场:  AI 概念股爆发,一级市场 AI 投资激增
公众舆论:  "AI 取代人类"从科幻话题变成社会讨论

🔬 能力突破:ChatGPT 本身没有新架构——它证明的是"RLHF + 对话界面 + 免费开放"的组合拳有多大的社会能量
⚙️ 工程突破:从"API 服务"到"消费产品"的跨越——OpenAI 学会了"做产品"
👤 公众感知:🔥🔥🔥 全民 AI 觉醒。几乎每个人的信息流都被 ChatGPT 占领。这是 AI 历史上最重要的"破圈"事件。从此,AI 不再是少数人的话题,而是全社会的焦点


第四阶段:群雄逐鹿(2023)

2023上半年 · GPT-4 与开源觉醒

2023 年是"大模型军备竞赛"全面爆发的一年。如果说 ChatGPT 点燃了一根火柴,2023 年则是整片森林都在燃烧。

1 月,Andrej Karpathy(特斯拉前 AI 总监、OpenAI 创始成员)发推:"The hottest new programming language is English."(最热门的编程语言是英语。)这句话精准概括了 AI 对编程的颠覆:自然语言正在成为新的编程界面。

2 月,微软发布 New Bing。 集成的是 GPT-4 的早期版本。搜索引擎第一次可以"对话"而不是"列链接"。虽然因为幻觉和诡异的对话上了新闻,但它标志着搜索范式的根本性改变已经拉开序幕。

2 月,Meta 发布 LLaMA。 参数从 7B 到 65B,仅在研究许可下发布。但很快模型权重在 4chan 泄露,全球研究者蜂拥而入。LLaMA 的泄露引爆了一场运动——开源大模型运动。

在 LLaMA 之前,开源社区面对 GPT-3/4 这样的闭源巨无霸几乎毫无还手之力。LLaMA 证明:一个精心设计的 7B 模型,在消费级硬件上就能跑出接近 GPT-3.5 的水平。这意味着大模型不再是少数巨头的专利。

3 月 14 日,OpenAI 发布 GPT-4。 这是又一个分水岭:

  • 多模态:GPT-4 不仅能读文字,能"看懂"图片——图表、照片、手写笔记、截图

  • 超强推理:在美国 BAR 律师资格考试中超过 90% 的考生;在 SAT 数学中接近满分;能通过几乎所有的 AP 考试

  • 编程飞跃:在 LeetCode 困难题上表现优异;能根据手绘草图生成网页代码

GPT-4 给人的震撼不是"更好一点",而是"这个是另一个层次的东西"。如果说 GPT-3.5 是聪明的高中生,GPT-4 在某些领域已经接近专业级。

3 月,Anthropic 发布 Claude。 初始版本仅对少数获准用户开放 API。Claude 的差异化定位是"有帮助、无害、诚实"——安全和伦理是其核心卖点。

3 月 16 日,百度发布文心一言。 这是中国大厂的第一枪。虽然发布会上的演示视频是录播(股价因此大跌 6%),但它标志着中国大模型产业的正式起跑。

4 月,阿里巴巴发布通义千问。

中国大模型的"揭幕战"打响。

🔬 能力突破:GPT-4 的多模态理解——AI 第一次"看到"世界;LLaMA 证明开源也能很强
⚙️ 工程突破:搜索+AI 的融合实验(New Bing);开源生态的爆发(LLaMA 衍生出 Alpaca、Vicuna、Guanaco 等数十个微调版本)
👤 公众感知:GPT-4 的法律/医学/编程能力让专业人士感到威胁;中国用户开始关注国产大模型;"Prompt Engineer"成为 2023 年最热门的新兴岗位


2023下半年 · 平台化与百模大战

下半年,竞争从"谁的模型更强"扩展到"谁能让模型落地"。

7 月,Anthropic 发布 Claude 2(全面对外)。 100K token 的上下文窗口让长文档处理成为可能——一本《了不起的盖茨比》全书可以一次塞给 AI 分析。

7 月,Meta 发布 LLaMA 2(开源可商用)。 这是开源生态的真正转折点——可商用许可证意味着企业可以放心使用。HuggingFace 上的下载量爆炸式增长。

8 月 31 日,中国首批大模型通过备案向公众开放。 百度文心一言、字节豆包、商汤日日新等 8 家率先获批。中国用户终于可以合法使用国产大模型。

9 月,Mistral 发布 Mistral 7B。 这家法国创业公司证明:不需要千亿参数,精心设计的 7B 模型也能很强。欧洲在大模型竞赛中有了自己的位置。

11 月,OpenAI 首届开发者大会(DevDay)。 Sam Altman 宣布了一系列平台化举措:

  • GPT-4 Turbo:128K 上下文,价格降低 3 倍

  • Assistants API:开发者可以在 API 层面创建能使用工具的 AI Agent

  • GPT Store:用户可以创建、分享、销售自定义 GPT——"AI 时代的 App Store"

DevDay 的战略意图很清楚:OpenAI 要做大模型时代的"操作系统"和"应用商店"。

11 月 17–22 日,OpenAI 发生"政变"。 董事会在未提前通知的情况下罢免 CEO Sam Altman,理由是"对董事会不坦诚"。随后引发了一场惊心动魄的五天拉锯:

  • 员工联名信——"不解雇董事会,我们就集体辞职"(770 名员工中 738 人签名)

  • 微软表态支持 Altman(宣布将 Altman 和 Brockman 招入微软)

  • 投资者施压

  • 最终 Altman 复职,董事会重组

这场风波暴露了 OpenAI 治理结构的根本矛盾:非盈利董事会 vs 商业实体。也是对 AI 行业的一个警示——当技术能力超越组织治理能力时,危机不会来自模型,而会来自人。

12 月,Google 发布 Gemini 1.0。 原生多模态(从一开始就设计为处理文本+图像+音频+视频),分为 Ultra/Pro/Nano 三档。Google 开始全面反击。

12 月,Mistral 发布 Mixtral 8x7B。 采用 MoE(Mixture of Experts,混合专家)架构——每次推理只激活部分参数,用更少的计算量达到更大模型的性能。MoE 从学术实验变成产品级方案。

🔬 能力突破:上下文窗口从 4K → 128K → 100K token(从"读一段"到"读一本书");MoE 架构工程化
⚙️ 工程突破:OpenAI 的平台化(Assistants API + GPT Store)、MoE 架构普及、RAG(检索增强生成)成为企业落地标配、中国"百模大战"全面爆发
👤 公众感知:ChatGPT 封锁中国IP → 国产替代加速;"AI 取代工作"的讨论从程序员扩展到设计师、翻译、客服;OpenAI 的 5 天宫斗剧成为全球头条;企业端从"要不要用 AI"变成"怎么用 AI"


第五阶段:深水区(2024)

GPT-4o 与"全模态"体验

2024 年,竞争的维度从"模型能力"扩展到"交互体验"和"工具使用"。

1 月,GPT Store 上线。 虽然生态热度不如预期(多数 GPT 是低质量的提示词包装),但它开创了"AI 应用市场"的概念。

2 月,Google 发布 Gemini 1.5 Pro。 杀手级特性:100 万 token 上下文窗口。可以一次性处理 1 小时视频、11 小时音频、或 70 万字的文本。Google 用这个特性宣告:搜索起家的公司在信息处理上仍有独特优势。

3 月,Anthropic 发布 Claude 3。 三档策略(Opus/Sonnet/Haiku)确立了"不同任务用不同模型"的产品思路:

  • Opus:最强能力,最贵最慢——用于复杂分析、深度写作

  • Sonnet:平衡型——日常编程、对话的主力

  • Haiku:最快最便宜——简单任务、实时响应

Claude 3 Opus 在多项基准测试上首次超越了 GPT-4。这是第一次有非 OpenAI 模型在综合能力上登顶。

4 月,Meta 发布 LLaMA 3(8B/70B)。 开源模型的质量逼近闭源旗舰。对于大多数企业场景,"开源 70B"已经足够好。

5 月 13 日,OpenAI 发布 GPT-4o("o" for "omni")。 这是交互体验的革命:

  • 原生多模态:文本、语音、视觉不再是三个模型拼接,而是一个模型同时处理

  • 实时语音对话:延迟降低到毫秒级,可以自然打断——像跟真人说话一样

  • 情感感知:能捕捉语气、情绪、环境音

GPT-4o 发布于 Google I/O 大会前一天,精准狙击了 Google 的发布节奏。这种做法本身就说明:AI 竞争的激烈程度已经不亚于智能手机战争。

6 月,Anthropic 发布 Claude 3.5 Sonnet。 编程能力质的飞跃——在 SWE-bench(真实 GitHub 问题修复基准)上的表现远超所有竞品。"谁是最好的 AI 程序员"成为最受关注的战场。

6 月,Anthropic 发布 Artifacts 功能。 AI 对话的输出不再只是文本——可以在侧边栏直接生成并运行代码、交互式图表、SVG 图形。这是从"聊天"到"协作创作"的跨越。

用户: "用 React 做一个番茄钟"
Claude: [生成完整的前端代码]
       → 侧边栏直接渲染、可交互

🔬 能力突破:100 万 token 上下文、原生全模态融合、实时语音对话
⚙️ 工程突破:三档模型分层策略成为行业标配;AI 从"聊天"走向"交互式产出"
👤 公众感知:"AI 会说话、能看、能听懂"——科幻电影成了现实;"最好的 AI 程序员"成为社交媒体热议话题;开发者开始用 Artifacts 快速做原型


推理模型与"System 2 思维"

2024 年下半年的最大突破,来自一个看似矛盾的方向:让 AI "慢"下来。

9 月 12 日,OpenAI 发布 o1(代号"Strawberry")。 这不是一个"更大"的模型,而是一个"更会思考"的模型。

传统 LLM 的工作方式:

你问 → 它马上回答(一个 token 接一个 token)

o1 的工作方式:

你问 → 它在内部"思考"几十秒甚至几分钟 → 它回答
      ↑
     这个"思考"是隐藏的 Chain-of-Thought——
     它自己跟自己对话,分析问题、尝试方案、纠正错误

效果令人震撼:

  • 在国际数学奥林匹克(IMO)资格考试中排名前 500

  • 在 Codeforces 编程竞赛中超过 89% 的参赛者

  • 在博士级科学问题上达到专家水平

Daniel Kahneman 在《思考,快与慢》中将人类思维分为两套系统:

  • System 1:快速、直觉、自动("2+2=4")

  • System 2:缓慢、理性、需要努力("17×24=?")

传统 LLM 一直只在做 System 1。o1 第一次让 AI 展现出了 System 2 的雏形——不是"知道答案",而是"推导出答案"。

10 月,Anthropic 发布 Claude "Computer Use"。 AI 可以"看"屏幕、"移动"鼠标、"敲击"键盘——像人一样操作电脑。虽然还很慢且容易出错,但方向明确:AI 不只是回答问题,AI 要"干活"。

12 月,OpenAI 发布 o3(跳过了 o2 以避免与英国电信运营商 O2 的商标冲突)。 推理能力再次跃升。ARC-AGI 基准(测试 AI 的抽象推理能力)上得分从 GPT-4 的接近零提升到 o3 的 87.5%(人类水平为 85%)。

年底,DeepSeek 发布 DeepSeek-V3。 训练成本仅为约 $550 万,不到 GPT-4 训练成本的 1/20,性能却接近 GPT-4o。这个消息在年末的 AI 圈悄悄传播——多数人还没有意识到这意味着什么。

🔬 能力突破:从 System 1 到 System 2——AI 学会了"深思熟虑"而不是"脱口而出"
⚙️ 工程突破:推理时计算(Test-time Compute)成为新的 Scaling 方向——不再只堆训练算力,推理时多算几步也能提升
👤 公众感知:o1 的推理能力让公众第一次感受到 AI "真的在思考"——不只是模式匹配;"AI 取代人类推理"的讨论升温


第六阶段:新范式(2025)

DeepSeek-R1:AI 的斯普特尼克时刻

1957 年,苏联发射了人类第一颗人造卫星斯普特尼克 1 号。美国人震惊地发现:他们在太空竞赛中落后了。 这个时刻引发了其后十年的科技追赶浪潮。

2025 年 1 月 20 日,中国公司 DeepSeek 发布了 DeepSeek-R1。

DeepSeek-R1 是一个开源推理模型,在数学、编程、科学推理上的表现正面对标 OpenAI o1。但它的发布带来了两个炸裂性信息:

  1. 训练成本极低:DeeSeek-V3 的训练成本约 557 万,而 GPT-4 估计超过1 亿——差了近 20 倍。即使在同等性能的情况下,也意味着此前"大模型必须烧钱"的共识被推翻

  2. 完全开源(MIT 许可证):任何人都可以下载、使用、修改、商用

市场反应是毁灭性的:英伟达股价单日暴跌 17%,市值蒸发近 6000 亿美元——创下美股历史上最大的单日市值损失。投资者开始重估:如果训练大模型不需要买那么多 GPU,那英伟达的天价估值还合理吗?

DeepSeek 的聊天机器人迅速登顶美国 App Store 下载榜——一个中国 AI 应用在美国消费市场登顶,这本身就是一个标志性事件。

DeepSeek-R1 的核心意义:

  • 打破"中国 AI 落后美国 2-3 年"的叙事

  • 证明"低成本 + 开源"路线可行,动摇了 OpenAI 的闭源高成本模式

  • 催化了全球范围的开源推理模型浪潮

👤 公众感知:DeepSeek-R1 是全球性冲击。不只是科技圈——普通人也在讨论"中国 AI 超过美国了?"民族自豪感与全球震惊交织。


Agentic 编程的全面崛起

2025 年是"Agent"这个概念从口号变成产品的一年。

2 月,Andrej Karpathy 提出"Vibe Coding"(氛围编程)。

定义:"你完全放弃对代码的控制,只是描述你想要的,AI 生成一切。你不在乎代码长什么样——只要它能跑。"

Vibe Coding:
  用户:"帮我做一个笔记应用,要支持 Markdown 和标签分类"
  AI:  [生成完整的前后端代码] → [部署] → [返回链接]
  用户:用了觉得不错,"再加一个暗黑模式"
  AI:  [自动修改代码] → 搞定

Karpathy 的宣言引发了持久讨论:

  • 支持者:编程民主化了——不懂代码也能做软件

  • 质疑者:复杂的生产级应用不可能"vibe"出来

  • 务实派:原型和工具可以用 Vibe Coding,核心系统不行

2 月,Anthropic 发布 Claude Code(CLI 工具)。 开发者可以在终端直接用自然语言让 AI 完成编程任务——读代码、写代码、运行测试、修复 Bug、提交 PR。

Claude Code 的范式意义在于:AI 不再是"副驾驶"(Copilot),而是"可以独立完成任务的 Agent"。

$ claude "分析这个 repo 的性能瓶颈,优化后提交 PR"
Claude Code:
  → 自动搜索代码库
  → 定位热点函数
  → 生成优化方案
  → 执行修改
  → 运行基准测试
  → 提交 PR
  (全程自主,人只需要审查最终结果)

6 月,Karpathy 提出"Context Engineering"(上下文工程)。 核心洞察:影响 AI 产出的最关键因素不是提示词怎么措辞,而是 AI 在推理时"看到"了什么信息。

这标志着思维方式的转变:

Prompt Engineering: "怎么说" → 怎么措辞、怎么引导
Context Engineering:  "给什么" → 给哪些文件、什么规范、哪些历史信息

9 月,ChatGPT 支持 MCP(Model Context Protocol)。 MCP 是 Anthropic 提出的开放协议,定义了 AI Agent 如何与外部工具和数据源通信。ChatGPT 对 MCP 的支持意味着:AI 的"接口标准"正在形成。

如果有过 TCP/IP 协议统一了互联网通信的历史比较,MCP 可能有类似的潜力——让不同的 AI Agent、工具、数据源用同一种语言通信。

10 月,OpenAI 发布 ChatGPT Atlas(AI 浏览器)。 AI 公司下场做浏览器——不只是回答问题,而是控制用户的信息入口。浏览器大战 2.0 拉开序幕。

11 月,Karpathy 提出"Spec Coding"(规格编程)。 用规格(Specification)驱动 AI 编码:先定义清晰的需求规格、验收标准、约束条件,然后让 AI 根据规格自主生成代码。人从"执行者"变成"定义者和验收者"。

12 月,Anthropic 收购 Bun(JavaScript 运行时)。 一家 AI 公司为什么要收购 JS 运行时?因为 Claude Code 运行代码慢了,收购 Bun 可以让代码执行快 10 倍。AI 公司开始收购基础设施——这是 2000 年代 Google 自建数据中心的现代翻版。

2025 年末的格局:

  • OpenAI:最强闭源推理(o3),最强消费生态(9亿周活 ChatGPT)

  • Anthropic:最强编程 Agent(Claude Code),估值 $380B

  • Google:最强上下文窗口(Gemini),基础设施无敌(TPU)

  • DeepSeek:最强"性价比",开源路线旗帜

  • Meta:开源生态最大贡献者(LLaMA),自用(推荐系统)

🔬 能力突破:推理模型全面成熟、AI Agent 从概念走向产品、开源推理首次对标闭源最强
⚙️ 工程突破:Agentic Engineering 元年、MCP 标准确立、上下文工程取代提示词工程、复利工程方法论出现
👤 公众感知:DeepSeek-R1 带来民族自豪感+全球震惊;"Vibe Coding"让不懂编程的人也能做 App;"Agent"成为年度热词;AI 公司的天价估值成为日常


第七阶段:建制化(2026)

2026 年进入本文撰写的"现在"。大模型行业从"群雄逐鹿"进入"建制化"阶段。

2 月,Karpathy 提出"Agentic Engineering"(智能体工程)。 这是他对 AI 编程范式思考的集大成:

"不是你写代码,不是 AI 写代码,而是你指挥 AI 完成一系列有明确目标的任务——你负责架构决策和质量验收,AI 负责执行和实现。"

Agentic Engineering 的核心要素:

  • SPEC 驱动:每个任务都有明确的规格说明和验收标准

  • 多 Agent 协作:不同的子 Agent 负责不同环节(设计、编码、测试、审查)

  • 验收内建:每个步骤完成后自动验证,不符合标准则自动修复或人工介入

  • 知识沉淀:每次任务完成后将经验固化为可复用的 Skill

2 月,Anthropic 在超级碗投放 AI 广告。 超级碗广告是美国消费品的最高殿堂。Anthropic 的广告展示了 Claude 如何帮助普通人处理生活和工作中的问题。这意味着:AI 公司已经开始像可口可乐和耐克一样做品牌营销。

2 月,ChatGPT 周活跃用户达到 9 亿——接近全球互联网用户的 1/6。ChatGPT 已经成为基础设施。

3 月,Anthropic 成立 Anthropic Institute。 一个专门研究 AI 政策的智库。AI 公司从"做技术的"变成"定规则的"。

4 月,Deepseek 发布 V4 Pro(1.6T MoE,100 万上下文),V4 Flash(284B,100 万上下文,快速推理)。V4 与 GPT-5.5 发布仅间隔1天,DeepSeek 已经在和 OpenAI 正面对标。

3 月,Claude 推出手机 Agent。 用户可以通过手机发送指令,让 Claude 操作电脑上的程序。AI 开始具备跨设备的操作能力。

5 月,Anthropic 拒绝美国国防部要求。 国防部要求 Anthropic 移除合同中关于"禁止将 AI 用于国内监控和全自主武器"的限制。Anthropic 拒绝了。随后被国防部列入黑名单。AI 军事化的伦理冲突公开化。

5 月,Anthropic 与马斯克的 xAI 达成云合作。 使用 xAI 的"Colossus 1"数据中心来扩展模型训练能力。AI 基础设施的规模已经从"GB/核心"进入到"GW/平方公里"的级别。

⚙️ 工程突破:Agentic Engineering 标准化、AI 基础设施 GW 级、治理建制化
👤 公众感知:AI 超级碗广告——AI 已是主流消费品;AI 军事伦理成为公众讨论——"终结者"不再只是电影


隐藏脉络 · 三条线索深度分析

脉络一:模型能力跃迁路径

2017 ──────────→ 2020 ──────────→ 2022 ──────────→ 2024 ──────────→ 2025 ─────→ 2026
    │               │               │               │               │            │
Transformer    GPT-3 规模法则   RLHF + CoT      多模态原生融合   推理模型     多Agent
(架构基础)     (涌现能力)      (对齐+推理)     (全模态)        (System 2)   (协作)
    │               │               │               │               │            │
"能读懂"        "能生成"        "能对话"        "能看能听"       "能思考"     "能干活"

六大跃迁的详细拆解:

跃迁 1:2017 · Transformer("能读懂")

  • 从统计 n-gram 到自注意力 → 理解上下文

  • RNN 最大有效序列 ~100 词;Transformer 无理论上限

  • 训练从串行变并行 → 规模成为可能

跃迁 2:2020 · GPT-3 175B("能生成")

  • 规模越过临界点 → Few-Shot Learning 涌现

  • 不需要训练样本就能执行新任务

  • 生成的文本从"看得出是机器"到"难以分辨"

跃迁 3:2022 · RLHF + CoT("能对话")

  • RLHF:从能力强到"听话+强"

  • CoT:从"直接回答"到"一步步推理"

  • 对话式交互成为主要界面

跃迁 4:2024 · GPT-4o("能看能听")

  • 文本/语音/视觉不是三个模型拼接,而是一个模型原生理解

  • 实时对话延迟降至人类对话水平

  • 情感感知让交互更自然

跃迁 5:2024-2025 · o1/R1 推理模型("能思考")

  • System 2 思维:"多想想再回答"

  • 推理时计算取代训练时计算成为新 Scaling 维度

  • AI 第一次展现出"深思熟虑"而非"脱口而出"

跃迁 6:2025-2026 · Agent 化("能干活")

  • 从"回答问题"到"执行多步任务"

  • Computer Use:AI 能操作电脑

  • 多 Agent 协作:任务分解、并行执行、结果合并


脉络二:工程方法论的进化

大模型从"论文里的算法"到"生产环境的工程系统",经历了六代工程范式的演进:

2018: 预训练+微调(Pretrain → Fine-tune)
      "训一个通用模型,再用标记数据适配具体任务"
      代表人物:Jacob Devlin(BERT 一作)、Alec Radford(GPT-1/2 一作)
        ↓
2020: Prompt Engineering(提示词工程)
      "不需要微调,设计好 Prompt 就能让模型完成任意任务"
      代表人物:Tom B. Brown(GPT-3 一作)、Riley Goodside(首位"提示词工程师")
        ↓
2022: RLHF + RAG(对齐 + 知识外挂)
      "让模型听话 + 让模型访问外部知识库"
      代表人物:Long Ouyang(InstructGPT 一作)、Paul Christiano(RLHF 先驱)、Patrick Lewis(RAG 一作)、Harrison Chase(LangChain 创始人)
        ↓
2023: 平台化 + MoE 工程化
      "AI 作为 API/App Store + 用更少算力做更大模型"
      代表人物:Sam Altman、Arthur Mensch(Mistral CEO)、Noam Shazeer(MoE 论文一作)
        ↓
2024: 推理时计算 + 模型分层战略
      "多花时间推理比多花钱训练更划算 + 不同场景用不同模型"
      代表人物:Mark Chen(OpenAI 研究 SVP)、Dario Amodei、Mike Krieger
        ↓
2025: Agentic Engineering + MCP + 上下文工程 + 复利工程
      "AI 自主执行任务 + AI 之间的通信标准 + 上下文管理 + 每次开发沉淀知识"
      代表人物:Andrej Karpathy、Mike Krieger、Harrison Chase、梁文锋
        ↓
2026: 多 Agent 编排 + 基础设施化 + 建制化治理
      "多 Agent 协同工作 + GW 级算力 + AI 行业规则制定"
	  代表人物:Andrej Karpathy、梁文锋

Karpathy 的五阶段范式演进(这是一条非常有洞察力的思维主线):

时间

术语

核心问题

比喻

2023.01

"English is the hottest PL"

编程门槛被打破

自然语言编程

2025.02

Vibe Coding

放弃控制,自然语言描述意图

给 AI 下达命令

2025.06

Context Engineering

"AI 看到什么?"

给 AI 提供地图和路标

2025.11

Spec Coding

规格驱动编码,人是验收者

给 AI 设计图纸

2026.02

Agentic Engineering

多 Agent 编排,验收内建

指挥一个工程团队

三个工程层次(层层嵌套):

Harness Engineering(系统级:约束、验证、纠正)
    ⊃  Context Engineering(信息层:AI 看到什么)
        ⊃  Prompt Engineering(指令层:怎么问)
  • Prompt Engineering:你告诉马"往前走"、"停下来"——控制最基本的行为

  • Context Engineering:你给马看地图和路标,告诉它路线——它能理解更复杂的任务

  • Harness Engineering:你给马套上缰绳和马鞍,设定围栏——你可以可靠地驾驭它完成长途任务


脉络三:普通人的感知曲线

        感知强度
          ↑
    ┌─────┤                              ██  Agentic 日常化
    │     │                          ████
    │     │                      ████    DeepSeek 冲击
    │     │                  ████
    │     │              ████          GPT-4 震撼
    │     │          ████
    │     │      ████              ChatGPT 全民化
    │     │  ████
    │  ████                    GPT-2 危险论
    │██
    └─────┼──────┼──────┼──────┼──────┼──────┼──────→ 时间
        2017   2019   2020   2022   2023   2025   2026

各阶段公众心态的定性描述:

2017–2019:无感期

  • 普通人对大模型的存在完全无知

  • AI 仍然是"机器人"、"自动驾驶"这类实体 AI 的代名词

  • 媒体偶有报道(AlphaGo),但公众认为"离我很远"

  • 标志性话语:不存在——因为没人讨论

2020–2021:猎奇期

  • GPT-3 的 Demo 在科技媒体刷屏

  • "AI 能写诗"成为轻度谈资

  • Copilot 让程序员群体第一次接触 LLM

  • 大部分普通人仍然无感

  • 标志性话语:"AI 写的东西还挺像样子的"

2022.11 后:全民 AI 觉醒期

  • ChatGPT 两个月破亿——堪比 TikTok 的社会渗透

  • 每个行业都在讨论"AI 会取代我吗"

  • 学生用 ChatGPT 写作业引发教育系统震荡

  • 标志性话语:"你试过 ChatGPT 了吗?"

2023 年中:焦虑与兴奋交织期

  • "Prompt Engineer 年薪百万"的招聘信息刷屏

  • "AI 取代程序员"成为年度技术圈话题

  • ChatGPT 被中国封锁——加速国产替代

  • 标志性话语:"AI 会不会取代我的工作?"

2024:日常化期

  • AI 变成工作流中的工具,而非新闻话题

  • 程序员默认使用 Copilot/Cursor/Claude Code

  • o1 的推理让公众感受"AI 真的在思考"

  • 标志性话语:"用 AI 帮我想想这个方案"

2025 初:地缘政治冲击期

  • DeepSeek-R1 引爆全球——"中国 AI 超越美国"

  • 英伟达暴跌 17% 登上财经版头条

  • "Vibe Coding"让完全不懂编程的人开始做 App

  • 标志性话语:"DeepSeek 比 ChatGPT 还强?"

2025 中至今:理所当然期

  • Agent 成为日常——"让 AI 去处理"

  • AI 超级碗广告——AI 和可口可乐一个级别

  • ChatGPT 周活 9 亿——每 6 个网民里就有 1 个在用

  • 标志性话语:"这个让 Agent 去做就好了"


特别篇:中国大模型发展全景

如果说全球大模型的历史是一道主菜,中国大模型的发展就是其中最浓墨重彩的一章。从追随到并跑,再到在某些维度上实现超越——这段历史只有 3 年,却浓缩了技术追赶、地缘博弈、商业竞争的全部戏剧性。

概览:中国 AI 六小虎与巨头的牌桌

2023-2025 年,中国大模型产业形成了 "3 巨头 + 6 创业公司" 的格局:

┌──────────────────────────────────────────────────────┐
│                    中国大模型牌桌                       │
├──────────────────────────────────────────────────────┤
│                                                      │
│  三大巨头(有云、有场景、有资金):                       │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐              │
│  │ 百度     │  │ 阿里     │  │ 字节     │              │
│  │ 文心一言  │  │ 通义千问  │  │ 豆包     │              │
│  │ (ERNIE)  │  │ (Qwen)   │  │ (Seed)   │              │
│  └─────────┘  └─────────┘  └─────────┘              │
│                                                      │
│  六小虎(独立创业公司):                               │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐              │
│  │ 智谱 AI   │ │ 月之暗面 │ │ MiniMax  │              │
│  │ GLM/Z.ai │ │ Kimi     │ │ Hailuo   │              │
│  └──────────┘ └──────────┘ └──────────┘              │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐              │
│  │ 百川智能  │ │ 零一万物  │ │ DeepSeek │              │
│  │ Baichuan │ │ Yi/01.AI │ │ 深度求索  │              │
│  └──────────┘ └──────────┘ └──────────┘              │
│                                                      │
│  + 科大讯飞(星火)、商汤(日日新)、腾讯(混元)等       │
└──────────────────────────────────────────────────────┘

百度 · 文心一言

"起了大早,赶了晚集"的先行者。

百度是中国最早投入 AI 的互联网巨头。文心(ERNIE)系列模型的研发始于 2019 年,远早于 ChatGPT 的出现。ERNIE 的核心技术特色是"知识增强"——在预训练中融入知识图谱,让模型更好地理解中文语境中的实体关系。

关键节点:

  • 2023.03.16:文心一言发布(邀请测试)。发布会用了录播而非实时 Demo,导致百度港股当日暴跌 6%。Robin Li 后来承认:"如果早知道 ChatGPT 会这么火,我们一定会更早发布"

  • 2023.08.31:作为首批获批向公众开放的大模型,文心一言正式上线

  • 2023.10:发布 ERNIE 4.0,号称在中文理解上超越了 GPT-4

  • 2023.12:用户突破 1 亿

  • 2024.04:用户突破 2 亿;6 月突破 3 亿

  • 2024.09:中文名从"文心一言"改为"文小言",定位转向搜索助手

  • 2025.03:发布 ERNIE 4.5 和推理模型 ERNIE X1;4 月发布 Turbo 版(更快更便宜)

评价:百度拥有中国最扎实的 AI 技术积累(搜索引擎的 NLP 需求是天然的练兵场),但在产品化和用户心智上,被后来者(豆包、DeepSeek)反超。文心一言的困境折射出百度整体面临的挑战——有技术,无产品。


阿里巴巴 · 通义千问 Qwen

"开源战略的最佳实践者。"

阿里的通义千问(Qwen)系列走出了与众不同的路——以开源为核心战略,用生态包围商业。

关键节点:

  • 2023.04:通义千问 Beta 发布

  • 2023.09:正式向公众开放

  • 2023.12:开源 Qwen-72B 和 Qwen-1.8B

  • 2024.06:发布 Qwen2 系列,多尺寸覆盖(0.5B 到 72B),部分开源

  • 2024.11:发布 QwQ-32B-Preview(推理模型,对标 o1)——Apache 2.0 开源。这是全球首个开源推理模型,比 DeepSeek-R1 早了两个月

  • 2025.01:发布 Qwen2.5-VL(视觉语言模型),3B/7B/32B/72B 四个尺寸

  • 2025.03:发布 Qwen2.5-Omni-7B(全模态模型)——"一个模型搞定文本+图像+音频+视频"

  • 2025.04.28:发布 Qwen3 系列——全部 Apache 2.0 开源

  • 2026.02:发布 Qwen3.5 和 Qwen3.5-Plus

评价:Qwen 是开源社区中仅次于 LLaMA 的"第二选择",在某些中文和代码任务上甚至更优。阿里通过"顶级开源模型 + 云服务变现"的模式,在商业和社区之间找到了独特的平衡。Qwen 系列是阿里在 AI 时代最具战略价值的产品之一。


月之暗面 · Kimi

"长文本之王"到"推理猛兽"。

月之暗面(Moonshot AI)由清华系创业者杨植麟于 2023 年 3 月创立。杨植麟是 AI 领域的新星——Transformer-XL 和 XLNet 的作者之一。

Kimi 的差异化路线非常清晰:长上下文。

关键节点:

  • 2023.03:公司成立

  • 2023.10:发布 Kimi 聊天机器人,支持 20 万汉字上下文(当时全球最长)

  • 2024.02:阿里领投 10 亿美元,估值 $25 亿

  • 2024.03:上下文升级至 200 万汉字——一本《三体》全书可以一次塞进去

  • 2024.08:月活用户排名中国第三;腾讯投资,估值 $33 亿

  • 2025.06:月活排名下滑至第七——被豆包等竞品挤压

  • 2025.07:开源 Kimi K2(1 万亿总参数,MoE 架构),是全球参数最大的开源模型之一

  • 2025.09:发布 Kimi-K2-Instruct-0905,Agentic 编码能力大幅提升,上下文扩展至 256K

  • 2025.11:发布 Kimi K2 Thinking,开源推理模型

  • 2026.01:发布 Kimi K2.5(多模态升级),性能超越三款美国顶级模型

评价:Kimi 从"长文本"这个单点突破切入,建立了用户心智。K2 的开源策略(1 万亿参数级)标志着中国创业公司在大模型开源上的最高水准。杨植麟的学术背景让 Kimi 在技术深度上保持了独特的优势。


字节跳动 · 豆包

"用流量和低价碾压一切。"

豆包是字节跳动旗下的 AI 助手,底层模型来自字节的 AI 团队。豆包的策略是典型的字节风格:大规模投放 + 极低定价 + 场景全覆盖。

关键节点:

  • 2023.08:豆包作为首批获批应用向公众开放

  • 2024.05:字节大幅下调豆包 API 价格,引发中国大模型"价格战"——百万 token 输入仅需 0.8 元,远低于行业平均

  • 2024 下半年:豆包成为中国月活最高的 AI 应用,超越文心一言和 Kimi

  • 2025:豆包持续迭代,在代码、多模态、长文本等方向跟进

评价:豆包的成功体现了中国大模型市场的独特逻辑——流量和场景比技术更重要。 字节有抖音的流量池、有成熟的用户增长方法论、有做消费产品的基因。豆包的技术可能不是最强的,但用户量和商业变现可能是最多的。它的低价策略直接改变了中国大模型的定价体系,迫使所有玩家跟进。


智谱 AI · ChatGLM / GLM

"学院派的开源先锋。"

智谱 AI 脱胎于清华大学 KEG 实验室,2019 年成立,2025 年国际品牌更名为 Z.ai。核心产品是 GLM(General Language Model)系列。

智谱最大的差异化是技术路线:GLM 使用自研的"自回归填空"(Autoregressive Blank Infilling)训练算法,不同于纯粹的 Decoder-only 或 Encoder-only。

关键节点:

  • 2019:公司成立(清华孵化)

  • 2022.05:发表 GLM 训练算法论文

  • 2023:发布 ChatGLM 系列对话模型,迅速成为中文开源社区首选

  • 2024.03:宣布研发 Sora 级视频生成技术

  • 2024.05:沙特 Prosperity7 投资,估值 ~$30 亿

  • 2024.10:发布 GLM-4-Voice(端到端语音大模型)

  • 2025.01:被美国列入实体清单

  • 2025.04:全面转向 MIT 开源许可;启动 IPO 准备

  • 2025.07:发布 GLM-4.5 和 GLM-4.5 Air,国际品牌更名为 Z.ai

  • 2025.08:GLM 模型宣布兼容华为昇腾芯片

  • 2025.09:发布 GLM-4.6——使用纯国产芯片训练(寒武纪等)

  • 2026.01:在港交所上市

  • 2026.03:发布 GLM-5.1

评价:智谱是中国大模型公司中技术底色最纯粹的之一。它的 GLM 技术路线独立于 GPT 范式,体现了技术自信。被美国列入实体清单后,智谱加速了"去 NVIDIA 化"——GLM-4.6 用国产芯片训练是一个标志性事件。


DeepSeek · 深度求索

"硅谷最怕的中国公司。"

DeepSeek 的故事需要更多篇幅,因为它是 中国 最重要的 AI 故事——没有之一。

起源:量化交易的"意外之子"

DeepSeek 的母公司是幻方量化(High-Flyer),一家中国顶级对冲基金。创始人梁文锋(Liang Wenfeng)是 AI 技术的狂热信徒——幻方从 2016 年就开始用 GPU 集群做量化交易,到 2021 年 AI 已经驱动了其全部交易决策。

关键背景:

  • 2016:幻方量化成立,梁文锋开始用深度学习做交易

  • 2019:幻方建造第一个 GPU 集群"Fire-Flyer 1"——1,100 张 GPU,耗资 2 亿元

  • 2021:梁文锋开始大量购买 NVIDIA A100 GPU,在美国芯片禁令前囤积了约 10,000 张

  • 2021:"Fire-Flyer 2"开始建设——5,000 张 A100,625 个节点,预算 10 亿元

  • 2022:Fire-Flyer 2 的 GPU 使用率达 96%,年运行 5,674 万 GPU 小时

2023:DeepSeek 的诞生

  • 2023.04:幻方宣布成立 AGI 研究实验室

  • 2023.07:实验室独立为 DeepSeek 公司

  • 2023.11:发布 DeepSeek Coder 和 DeepSeek-LLM 系列

2024:快速迭代

  • 2024.01:发布 DeepSeek-MoE(MoE 架构)

  • 2024.05:发布 DeepSeek-V2(MoE 架构,236B 总参数,21B 激活)

  • 2024.06:DeepSeek-Coder V2

  • 2024.09:DeepSeek V2.5

  • 2024.11:DeepSeek-R1-Lite 预览版上线

  • 2024.12:发布 DeepSeek-V3(671B MoE 参数,37B 激活)

DeepSeek-V3 的训练成本震惊业界:仅 557 万。作为对比,GPT-4 的训练成本估计超 1 亿,Meta 的 LLaMA 3.1 估计数千万美元。

2025.01.20:全球震动——DeepSeek-R1

  • DeepSeek-R1 在数学、编程、科学推理上正面对标 OpenAI o1

  • 完全开源(MIT 许可证)

  • 训练成本仅为 OpenAI 的零头

  • 登顶美国 App Store 下载榜

  • 导致英伟达单日暴跌 17%(市值蒸发约 $5,890 亿)

2025:下半年

  • 2025.08.21:发布 DeepSeek V3.1(MIT 开源),引入混合架构——同一模型支持"思考模式"与"非思考模式"自由切换。在 SWE-bench 和 Terminal-bench 等基准上超越 V3 和 R1 达 40% 以上

  • 2025.09.22:V3.1-Terminus 更新

  • 2025.09.29:发布 V3.2-Exp,采用自研的 DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention),进一步降低推理成本

2026:V4——万亿参数时代的开源旗舰

  • 2026.04.24:发布 DeepSeek-V4 系列预览(MIT 开源)

    • DeepSeek-V4-Pro:1.6 万亿参数(MoE 架构),100 万 token 上下文窗口

    • DeepSeek-V4-Flash:2,840 亿参数,100 万 token 上下文窗口,快速推理

  • V4 被 华为和寒武纪(Cambricon) 等中国芯片厂商正式采用,成为国产芯片生态的基础模型

  • V4 发布与 OpenAI GPT-5.5(4 月 23 日)仅隔一天——时间节奏上 DeepSeek 已与 OpenAI 同步

  • 同期,DeepSeek 启动首次外部融资:约 3 亿美元,估值约 $100 亿

为什么 DeepSeek 能做到?

  1. 芯片囤积 + 禁令倒逼创新:在美国芯片禁令前囤积了大量 A100,禁令后倒逼出极致的效率优化。不能用最新 GPU?那就把软件写到极致

  2. MoE 架构的精妙应用:671B 总参数,每次只激活 37B——"大模型的脑子,小模型的消耗"

  3. MLA(Multi-head Latent Attention):自研的注意力机制优化,大幅降低推理成本和显存占用

  4. 蒸馏技术的战略使用:用大模型的知识蒸馏到小模型,保持高质量的同时降低成本

  5. 没有商业包袱:背靠量化基金,无需短期内商业化,可以纯粹追求技术极致

DeepSeek 的 CEO 梁文锋曾说:"我们不关心 ChatGPT 做了什么,我们关心用户需要什么,以及怎么用最少的资源做到最好。"这种工程师文化 + 量化交易的数学底蕴 + 芯片禁令的"创造性压力",三者的化学反应产生了 DeepSeek 这个"异类"。

评价:DeepSeek 的意义超越了技术。它证明了 "资源约束可以催生创新"——不一定需要最多的 GPU,用更聪明的算法也可以做出世界级模型。它动摇了"AI 是富国游戏"的叙事。它也是中国 AI 行业最响亮的一次回答:不是模仿,是超越。


其他重要玩家

除"六小虎+巨头"外,中国大模型生态中还有几个值得关注的名字:

科大讯飞 · 星火

  • 2023.05 发布,主打语音交互和教育场景

  • 讯飞在语音技术上有 20 年积累,星火在语音理解和生成上有独特优势

MiniMax

  • 2021.12 由商汤前员工创立

  • 产品路线独特:AI 伴侣 Talkie 在海外下载榜排名靠前;Hailuo AI 做文本/音乐/视频生成

  • 2024.03 阿里领投 25 亿

  • 2026.01 港交所上市

  • 2026.02 被 Anthropic 指控用虚假账户"蒸馏"Claude——引发了对中国 AI 公司训练数据来源的争议

百川智能

  • 2023.04 由王小川(前搜狗 CEO)创立

  • 2023 年快速迭代:7B(6 月)→ 13B(7 月)→ Baichuan2(9 月)

  • 2024.01 Baichuan3,2024.05 Baichuan4

零一万物(01.AI)

  • 2023.03 由李开复创立

  • 2023.11 估值破 $10 亿(独角兽)

  • Yi-34B 在开源社区口碑不错

  • 2024.05 发布万知(Wanzhi),对标 Copilot 的生产力助手

  • 2025.03 停止预训练大模型——转向基于 DeepSeek 模型的企业解决方案。这是一个意味深长的信号:"做基础模型"的门槛越来越高,资本正在向头部集中

腾讯 · 混元

  • 相对低调,主要服务于腾讯内部生态(微信、腾讯云、游戏)

  • 技术实力扎实但不追求声量

商汤 · 日日新

  • 视觉 AI 起家,在大模型时代继续聚焦多模态和视觉方向


中国大模型行业的独特逻辑

纵观中国大模型 3 年的发展,有几个独特的行业逻辑值得关注:

逻辑一:政策驱动——"备案"是第一关

中国的大模型应用需要向监管部门备案,获得批准后才能向公众开放。2023 年 8 月 31 日的首批备案是一个分水岭——获批的企业获得了先发优势。此后备案节奏成为影响竞争格局的重要因素。

逻辑二:价格战——中国特色的大模型竞争

2024 年 5 月,字节豆包大幅降价,触发行业价格战。中国大模型 API 的价格迅速降到美国同行的 1/10 甚至更低。这一方面降低了企业使用 AI 的门槛,另一方面也加速了中小玩家的出局——没有足够的资金支撑长期亏损,就只能退场。

逻辑三:"便宜+好用"取代"最强"成为用户选择标准

DeepSeek 和豆包的成功证明:对于大多数中国用户,"免费+够用"比"最强但贵"更有吸引力。这种用户偏好倒逼行业在成本优化上投入重注——DeepSeek 的极低训练成本是技术路线的胜利,也是市场需求的产物。

逻辑四:芯片禁令成了"反向激励"

美国对中国的芯片出口限制,本意是遏制中国的 AI 发展。但实际效果是:中国公司被迫在软件优化、架构创新、国产芯片适配等方面投入远超美国同行。DeepSeek 的极致效率、智谱的国产芯片训练、华为昇腾生态的加速——都是禁令"倒逼"的结果。

逻辑五:从"讲故事"到"看利润"——2025 年的资本变脸

2023 年,任何宣称做"中国版 ChatGPT"的公司都能融到钱。到 2025 年,投资人的问题从"你的模型参数多少"变成了"你的收入多少"。01.AI 停止预训练转向企业服务、多家公司裁员或合并——"百模大战"进入残酷的淘汰赛阶段。

中国大模型格局演变:

2023     群雄并起(100+ 家公司宣布做大模型)
            ↓
2024     牌桌形成(3巨头 + 6小虎 + 少量其他)
            ↓
2025     分化加速(DeepSeek/字节/阿里崛起,01.AI等退出基础模型竞争)
            ↓
2026     头部集中(3-5 家基础模型公司 + 大量应用层玩家)

附录:关键数字记忆

指标

数据

Transformer 论文发表

2017.06,Vaswani et al.,8 位作者

Scaling Law 论文

2020.01,Kaplan et al. (OpenAI)

RLHF 论文

2022.01,《Training language models to follow instructions》(InstructGPT)

Chain-of-Thought 论文

2022.01,Wei et al. (Google)

RAG 论文

2020,Lewis et al. (Facebook AI)

GPT-1 参数

1.17 亿(2018)

GPT-2 参数

15 亿(2019)

GPT-3 参数

1,750 亿(2020)

GPT-4 参数

未公开(估计 ~1.8T,MoE)

DeepSeek-V3 参数

671B 总参数,37B 激活(MoE)

Kimi K2 参数

1 万亿总参数(MoE)

ChatGPT 增长

5 天破 100 万,2 月破 1 亿(2022–2023)

ChatGPT 周活

9 亿(2026.02)

GPT-4 训练成本

估计 ~$1 亿+

DeepSeek-V3 训练成本

~$557 万

OpenAI 估值

$500B(2025.10)

Anthropic 估值

$380B(2026.02)

Gemini 1.5 Pro 上下文

100 万 token(2024.02)

Kimi 上下文(最高)

200 万汉字 ≈ 256K token

GPT-4 Turbo 上下文

128K token

中国大模型首次备案

2023.08.31(8 家)

豆包 API 价格战

2024.05,百万 token 输入 ¥0.8

Claude 宪法长度

2026 版 23,000 词(2023 版仅 2,700 词)

Anthropic 投资 xAI 算力

高达 100 万 TPU ≈ 1 GW+(2025.10)

OpenAI 员工数(政变时)

约 770 人(738 人签名要求董事会辞职)

DeepSeek 前身幻方 GPU 集群

Fire-Flyer 2:5,000 张 A100(2022)


写在最后

这份大模型发展史写于 2026 年 5 月。从 2017 年的《Attention Is All You Need》到今天,不过 9 年。9 年前,没有人能预测到:八位工程师在 NeurIPS 上发表的一篇论文,会引发一场席卷全球每一个行业的技术革命。

这场革命远未结束。如果说过去 9 年是"让 AI 变聪明",接下来 10 年将是"让 AI 做事"。Agent、MCP、Agentic Engineering……这些概念指向同一个方向:AI 从"工具"变成"伙伴"——不仅理解你的意图,还能帮你执行。

而对于每一个身处这场变革中的人来说,Karpathy 的一句话可能是最好的导航:

"Code is cheap. Show me your talk."(代码不值钱,亮出你的思考。)

在 AI 时代,你的价值不在于你写了多少代码,而在于你如何思考、如何定义问题、如何做出判断。AI 可以生成一切——除了方向。而方向,永远来自人。

成文说明

本文由 刘小平(Xiaoping Liu) 使用 Hermes Agent(deepseek-v4-pro 模型) 完成。以下是完整的成文过程:

一、框架设计

  • 阅读并分析用户提供的资料,从中提取 Karpathy 五阶段范式演进(Vibe Coding → Context Engineering → Spec Coding → Agentic Engineering)作为隐藏脉络的核心框架

  • 基于对 LLM 发展史的先验知识,拟定"时间序主线 + 三条隐藏脉络(模型能力、工程方法、公众感知)"的双层叙事结构

  • 产出《大模型发展历史·大纲》(存于同目录),经用户确认后进入写作

二、数据搜集

  • Wikipedia 检索:通过 curl​ 调用 Wikipedia API 的 action=query​ 端点,执行了 10+ 次结构化搜索——先用 list=search​ 定位相关页面,再用 prop=extracts​ 批量提取关键时间节点和背景信息。覆盖页面包括但不限于:ChatGPT、GPT-4、BERT、Claude、Gemini、DeepSeek、LLaMA、Ernie Bot、Qwen、Moonshot AI、Z.ai、MiniMax、01.AI、RLHF、Neural Scaling Law、RAG、OpenAI o1 等

  • 并行检索:使用 delegate_task​ 将中国大模型信息和技术关键论文的搜索任务拆分为两个独立子 Agent,并行执行以提高效率

  • 批量处理:用 execute_code​ 编写 Python 脚本批量调用 Wikipedia API、解析 JSON、提取日期关键句——将多次 API 调用的处理逻辑集中在一处执行,减少上下文往返

  • 用户文档:已将用户上传资料全文读取作为领域知识注入上下文

三、写作与工具使用

  • 大纲先行:先用 write_file​ 输出完整大纲(约 1,100 行 / 23KB),确立全局结构后再展开正文

  • 全文生成:一次性生成终稿(约 1,100 行 / 68KB),减少分批次修补导致的风格不一致

  • 结构化叙事:每个时间节点统一采用"事件描述 + 🔬⚙️👤 三维脉络标注"的格式;关键数据统一收入附录表格

  • ASCII 图表:使用文本框和 ASCII 流程图替代 Mermaid 等外部渲染,确保纯文本环境可读性

四、修订

  • 初稿完成后,根据用户要求使用 patch​ 精确修改三处:第七阶段补充 DeepSeek V4 内容、DeepSeek 章节扩展 V3.1/V3.2/V4 迭代时间线、附录新增 V4 参数数据

  • 修复脉络一能力跃迁图中因编辑导致的年份错位

五、数据可靠性说明

  • Wikipedia 在事件时间线、公司/产品背景、关键参数等事实性信息上具有较高的准确性和可核查性,但学术深度不及一手论文

  • 推论性判断(如"公众感知""评价""技术趋势""行业逻辑")由模型基于多方信息综合形成,仅供参考与讨论

  • 文中涉及的具体日期均已与 Wikipedia 交叉核对;参数数字(训练成本、参数规模、用户数等)以 Wikipedia 记录为准,部分为行业估计


评论