Lazy loaded image
GPT-4o 的生图能力到底是怎么实现的,它和传统扩散模型有何本质区别
Words 562Read Time 2 min
2025-3-28
2025-4-7
type
status
date
slug
summary
tags
category
icon
password
💡
反刍系列,即对他人输出内容的理解
把那些匆忙剪藏的内容拿出来再嚼吧两下,或许能品尝到不同滋味

一、主流路线

大多采用扩散模型(DALL·E 2/Stable Diffusion/Midjourney)
  1. 本质:是在图像空间,添加噪声,学习如何从噪声中,“还原”图像,是一种概率反演过程。
  1. 痛点:推理慢(需多步反向去噪);图文对齐弱;多轮修改难。

二、GPT4o的路线

自回归生成图像
  1. 不是在图像空间“修复”,而是在图像编码空间,逐“像素/patch地”生成图像。像语言模型,逐词生成句子一样。
    1. 核心逻辑:图像Token化(很可能用“类DALL·E 3的图像tokenizer”); 每次预测(一个/多个)图像token;按“先前token,预测后续 token”的方式递推,逐步拼出整张图像。
  1. 不是单纯的“文本->图像生成”,是多模态(图/文/对话)统一建模的结果。
    1. 更高效的图文对齐:通过joint training,在训练中学习,如何从语言语境中,预测图像token;
    2. 下文一致的图像修改:自回归架构,天然支持“基于已有上下文,继续生成”。用户可连续,对图像进行“对话式修改”,无需重启生成。如:先生成一张沙滩图,再说“把天空换成晚霞”,能实现“局部可控重生成”。
  1. 缺点
    1. 高分辨率图像,仍存在token爆炸问题;
    2. 极端细节和艺术感,仍可能逊于SD类扩散模型

三、个人思考

  1. 为什么GPT总是能选到不同的技术路线,并且还做出了业务成果?
  1. 可能未来图像模型也会进行分流,稳定性要求高的选择自回归模型;发散性要求高的选择扩散模型
 
 
上一篇
AI客服+知识库概述
下一篇
AI让垂直SaaS收入暴增10倍?最新商业模式曝光