Lazy loaded image
AI后半场
Words 936Read Time 3 min
2025-6-9
2025-6-18
type
status
date
slug
summary
tags
category
icon
password
💡
反刍系列,即对他人输出内容的理解
把那些匆忙剪藏的内容拿出来再嚼吧两下,或许能品尝到不同滋味

0. 前言:AI 进入“中场休息”

作者的核心断言:经过几十年方法与模型的狂飙,AI 已来到一个分水岭——“强化学习终于泛化了”,出现了可统一解决多任务的 通用配方;接下来焦点将从“能不能做”转为“该不该做、怎么证明有用”。

1. 上半场(The First Half):方法驱动的黄金时代

1.1 原文要点

现象
例举
结论
最具影响力的论文几乎全是方法/模型(Transformer、AlexNet、GPT-3…)
Stanford 224N 测验结果
方法 > Benchmark(ImageNet 引用量 < AlexNet 三分之一)
方法能在多任务“爬分”,Benchmark 只能衡量单任务
Transformer 横跨 NLP/CV/RL
研究注意力集中在可复用的算法突破

1.2 对话补充

  • 为什么方法优先?
      1. 方法更难、更可控、易发论文。
      1. 数据与算力不足时代,先验/环境难以系统化,算法成了唯一抓手。
  • Citation 对比:Transformer >160 k vs. WMT’14 Workshop ≈1.3 k → 学界激励悬殊。

2. 通用配方(The Recipe):LLM × Scale × Reasoning-as-Action

2.1 配方三要素

要素
作用
关键词
大语言模型 (LLM)
注入通用知识与语言先验
GPT-3/4, Claude 3
规模化训练 (Scaling)
利用海量数据+算力持续提升
参数 10B→1T+;Token 1e11→1e13;PF-days
推理=行动 (ReAct 思想)
“思考”本身纳入 RL 动作空间,实现跨任务规划
ReAct, 思维链

2.2 RL 三要素的重新排序

传统权重
新权重 (作者结论)
算法 > 环境 ≫ 先验
先验 > 环境 > 算法

2.3 原文脉络

  1. OpenAI Gym → Universe:先把互联网变游戏环境,结果“迁移失败”。
  1. GPT-2/3 登场:发现缺的是“先验”;语言预训练让 WebGPT、ChatGPT 崛起。
  1. 推理:把“想一步”视作动作,借语言先验筛掉无用分支→泛化爆发。
  1. 反讽:几十年死磕算法,回头看优先级排错了。

2.4 对话补充

  • “规模化训练”量级参考
    • <10 B 参数 ⇒ 算不上“规模化”;
    • 10 B-200 B ⇒ 主流大模型;
    • 500 B+ + 万亿 token + 多模态 ⇒ GPT-4o、Gemini Ultra 级。
  • 推理为何过去被视为“无用”?
    • MDP 里奖励必须外显;推理不改状态 → 无奖励。
    • 无先验时代 “多想”= 计算浪费;LLM 出现才让推理可监督、可用。

3. 下半场(The Second Half):评估与效用的时代

3.1 原文要点

  1. 旧循环被“配方”工业化
      • 同样任务:新方法 +5%,下一代 o-series 模型“无刻意”+30%。
  1. 真正难题:benchmark 再难也会被快速打穿 → 必须质疑评估体系本身
  1. 效用问题 (Utility Problem)
      • AI 已在棋类、SAT、IOI 等超人,但 GDP/生产率无显著提升。
  1. 两大隐性假设导致评估脱钩现实
    1. 假设
      实际差异
      新动向
      自动化一次性评分
      现实需持续人机互动
      Chatbot Arena, tau-bench
      IID 测试集
      现实任务串行、需记忆
      长期记忆研究缺基准
  1. 下半场新循环
    1. 设计贴近现实效用的新评估/任务 → 用配方(或扩展)解决 → 再迭代。

3.2 对话补充

  • “工业化 benchmark 攀升”含义
    • LLM 工程流水线 + RLHF/SFT 套路 ⇒ 跑分变成产线作业。
  • o-series:OpenAI 内部“o”代号的高能力模型(如 gpt-4o/omni)。
  • 效用问题 ≠ 泛化停滞
    • 泛化分数继续涨,但对现实价值边际递减 → “智能-效用”脱钩。
  • 新评估 = 重新定义智能标准
    • 目标:让“跑分”与现实问题重新对齐,而不是更难的考卷。

4. 重点概念速查

概念
一句话定义
通用配方
LLM + Scale + Reasoning-as-Action,用于跨任务统一解法
效用问题
模型分数飙升但现实效益不增,智能与经济脱钩
推理动作空间
在策略中显式允许“思考”→ chain-of-thought / ReAct
工业化攀分
跑 benchmark 流水线化,创新含量低,依赖大算力堆砌
新评估机制
引入人类交互、长期记忆、上下文依赖等真实世界要素

5. 结语

上半场:模型与算法赢得比赛;通用配方:让“爬分”成为工业流程;下半场:重新设计问题与评估,衡量真实效用。
只有打破旧假设、提出新评估,才能避免被“配方”碾压,做出真正改变世界的 AI 研究与产品。
 
上一篇
当一个AI 决定执行Deepresearch
下一篇
ARAG: Agentic Retrieval Augmented Generation for Personalized Recommendation