Peifeng @ peifeng.me培风

GPT-4o 的生图能力到底是怎么实现的,它和传统扩散模型有何本质区别

Mar 28, 2025

💡 反刍系列,即对他人输出内容的理解 把那些匆忙剪藏的内容拿出来再嚼吧两下,或许能品尝到不同滋味

内容原链:https://m.okjike.com/originalPosts/67e54c4c7cb8c547e231119b


一、主流路线

大多采用扩散模型(DALL·E 2/Stable Diffusion/Midjourney)

  1. 本质:是在图像空间,添加噪声,学习如何从噪声中,“还原”图像,是一种概率反演过程。
  2. 痛点:推理慢(需多步反向去噪);图文对齐弱;多轮修改难。

二、GPT4o的路线

自回归生成图像

  1. 不是在图像空间“修复”,而是在图像编码空间,逐“像素/patch地”生成图像。像语言模型,逐词生成句子一样。

    核心逻辑:图像Token化(很可能用“类DALL·E 3的图像tokenizer”); 每次预测(一个/多个)图像token;按“先前token,预测后续 token”的方式递推,逐步拼出整张图像。

  2. 不是单纯的“文本->图像生成”,是多模态(图/文/对话)统一建模的结果。

    1. **更高效的图文对齐:**通过joint training,在训练中学习,如何从语言语境中,预测图像token;
    2. 下文一致的图像修改:自回归架构,天然支持“基于已有上下文,继续生成”。用户可连续,对图像进行“对话式修改”,无需重启生成。如:先生成一张沙滩图,再说“把天空换成晚霞”,能实现“局部可控重生成”。
  3. 缺点

    1. 高分辨率图像,仍存在token爆炸问题;
    2. 极端细节和艺术感,仍可能逊于SD类扩散模型

三、个人思考

  1. 为什么GPT总是能选到不同的技术路线,并且还做出了业务成果?
  2. 可能未来图像模型也会进行分流,稳定性要求高的选择自回归模型;发散性要求高的选择扩散模型

>