GPT-4o 的生图能力到底是怎么实现的，它和传统扩散模型有何本质区别

Mar 28, 2025

💡 反刍系列，即对他人输出内容的理解把那些匆忙剪藏的内容拿出来再嚼吧两下，或许能品尝到不同滋味
内容原链：https://m.okjike.com/originalPosts/67e54c4c7cb8c547e231119b

一、主流路线

大多采用扩散模型（DALL·E 2/Stable Diffusion/Midjourney）

本质：是在图像空间，添加噪声，学习如何从噪声中，“还原”图像，是一种概率反演过程。
痛点：推理慢（需多步反向去噪）；图文对齐弱；多轮修改难。

二、GPT4o的路线

自回归生成图像

不是在图像空间“修复”，而是在图像编码空间，逐“像素/patch地”生成图像。像语言模型，逐词生成句子一样。
核心逻辑：图像Token化（很可能用“类DALL·E 3的图像tokenizer”）；每次预测（一个/多个）图像token；按“先前token，预测后续 token”的方式递推，逐步拼出整张图像。
不是单纯的“文本->图像生成”，是多模态（图/文/对话）统一建模的结果。
1. **更高效的图文对齐：**通过joint training，在训练中学习，如何从语言语境中，预测图像token；
2. 下文一致的图像修改：自回归架构，天然支持“基于已有上下文，继续生成”。用户可连续，对图像进行“对话式修改”，无需重启生成。如：先生成一张沙滩图，再说“把天空换成晚霞”，能实现“局部可控重生成”。
缺点
1. 高分辨率图像，仍存在token爆炸问题；
2. 极端细节和艺术感，仍可能逊于SD类扩散模型。

三、个人思考

为什么GPT总是能选到不同的技术路线，并且还做出了业务成果？
可能未来图像模型也会进行分流，稳定性要求高的选择自回归模型；发散性要求高的选择扩散模型

>

CC BY-NC-SA 4.0 2021-PRESENT © 培风