type
status
date
slug
summary
tags
category
icon
password
0. 前言:AI 进入“中场休息”
作者的核心断言:经过几十年方法与模型的狂飙,AI 已来到一个分水岭——“强化学习终于泛化了”,出现了可统一解决多任务的 通用配方;接下来焦点将从“能不能做”转为“该不该做、怎么证明有用”。
1. 上半场(The First Half):方法驱动的黄金时代
1.1 原文要点
现象 | 例举 | 结论 |
最具影响力的论文几乎全是方法/模型(Transformer、AlexNet、GPT-3…) | Stanford 224N 测验结果 | 方法 > Benchmark(ImageNet 引用量 < AlexNet 三分之一) |
方法能在多任务“爬分”,Benchmark 只能衡量单任务 | Transformer 横跨 NLP/CV/RL | 研究注意力集中在可复用的算法突破 |
1.2 对话补充
- 为什么方法优先?
- 方法更难、更可控、易发论文。
- 数据与算力不足时代,先验/环境难以系统化,算法成了唯一抓手。
- Citation 对比:Transformer >160 k vs. WMT’14 Workshop ≈1.3 k → 学界激励悬殊。
2. 通用配方(The Recipe):LLM × Scale × Reasoning-as-Action
2.1 配方三要素
要素 | 作用 | 关键词 |
大语言模型 (LLM) | 注入通用知识与语言先验 | GPT-3/4, Claude 3 |
规模化训练 (Scaling) | 利用海量数据+算力持续提升 | 参数 10B→1T+;Token 1e11→1e13;PF-days |
推理=行动 (ReAct 思想) | “思考”本身纳入 RL 动作空间,实现跨任务规划 | ReAct, 思维链 |
2.2 RL 三要素的重新排序
传统权重 | 新权重 (作者结论) |
算法 > 环境 ≫ 先验 | 先验 > 环境 > 算法 |
2.3 原文脉络
- OpenAI Gym → Universe:先把互联网变游戏环境,结果“迁移失败”。
- GPT-2/3 登场:发现缺的是“先验”;语言预训练让 WebGPT、ChatGPT 崛起。
- 推理:把“想一步”视作动作,借语言先验筛掉无用分支→泛化爆发。
- 反讽:几十年死磕算法,回头看优先级排错了。
2.4 对话补充
- “规模化训练”量级参考
- <10 B 参数 ⇒ 算不上“规模化”;
- 10 B-200 B ⇒ 主流大模型;
- 500 B+ + 万亿 token + 多模态 ⇒ GPT-4o、Gemini Ultra 级。
- 推理为何过去被视为“无用”?
- MDP 里奖励必须外显;推理不改状态 → 无奖励。
- 无先验时代 “多想”= 计算浪费;LLM 出现才让推理可监督、可用。
3. 下半场(The Second Half):评估与效用的时代
3.1 原文要点
- 旧循环被“配方”工业化
- 同样任务:新方法 +5%,下一代 o-series 模型“无刻意”+30%。
- 真正难题:benchmark 再难也会被快速打穿 → 必须质疑评估体系本身。
- 效用问题 (Utility Problem)
- AI 已在棋类、SAT、IOI 等超人,但 GDP/生产率无显著提升。
- 两大隐性假设导致评估脱钩现实
假设 | 实际差异 | 新动向 |
自动化一次性评分 | 现实需持续人机互动 | Chatbot Arena, tau-bench |
IID 测试集 | 现实任务串行、需记忆 | 长期记忆研究缺基准 |
- 下半场新循环
设计贴近现实效用的新评估/任务 → 用配方(或扩展)解决 → 再迭代。
3.2 对话补充
- “工业化 benchmark 攀升”含义
- LLM 工程流水线 + RLHF/SFT 套路 ⇒ 跑分变成产线作业。
- o-series:OpenAI 内部“o”代号的高能力模型(如 gpt-4o/omni)。
- 效用问题 ≠ 泛化停滞
- 泛化分数继续涨,但对现实价值边际递减 → “智能-效用”脱钩。
- 新评估 = 重新定义智能标准
- 目标:让“跑分”与现实问题重新对齐,而不是更难的考卷。
4. 重点概念速查
概念 | 一句话定义 |
通用配方 | LLM + Scale + Reasoning-as-Action,用于跨任务统一解法 |
效用问题 | 模型分数飙升但现实效益不增,智能与经济脱钩 |
推理动作空间 | 在策略中显式允许“思考”→ chain-of-thought / ReAct |
工业化攀分 | 跑 benchmark 流水线化,创新含量低,依赖大算力堆砌 |
新评估机制 | 引入人类交互、长期记忆、上下文依赖等真实世界要素 |
5. 结语
上半场:模型与算法赢得比赛;通用配方:让“爬分”成为工业流程;下半场:重新设计问题与评估,衡量真实效用。
只有打破旧假设、提出新评估,才能避免被“配方”碾压,做出真正改变世界的 AI 研究与产品。
上一篇
当一个AI 决定执行Deepresearch
下一篇
ARAG: Agentic Retrieval Augmented Generation for Personalized Recommendation
- Author:培风
- URL:http://preview.tangly1024.com/article/20da80cd-73cf-8063-9f18-fafa3c03e3b6
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!