type
status
date
slug
summary
tags
category
icon
password
反刍系列,即对他人输出内容的理解
把那些匆忙剪藏的内容拿出来再嚼吧两下,或许能品尝到不同滋味
一、主流路线
大多采用扩散模型(DALL·E 2/Stable Diffusion/Midjourney)
- 本质:是在图像空间,添加噪声,学习如何从噪声中,“还原”图像,是一种概率反演过程。
- 痛点:推理慢(需多步反向去噪);图文对齐弱;多轮修改难。
二、GPT4o的路线
自回归生成图像
- 不是在图像空间“修复”,而是在图像编码空间,逐“像素/patch地”生成图像。像语言模型,逐词生成句子一样。
核心逻辑:图像Token化(很可能用“类DALL·E 3的图像tokenizer”); 每次预测(一个/多个)图像token;按“先前token,预测后续 token”的方式递推,逐步拼出整张图像。
- 不是单纯的“文本->图像生成”,是多模态(图/文/对话)统一建模的结果。
- 更高效的图文对齐:通过joint training,在训练中学习,如何从语言语境中,预测图像token;
- 下文一致的图像修改:自回归架构,天然支持“基于已有上下文,继续生成”。用户可连续,对图像进行“对话式修改”,无需重启生成。如:先生成一张沙滩图,再说“把天空换成晚霞”,能实现“局部可控重生成”。
- 缺点
- 高分辨率图像,仍存在token爆炸问题;
- 极端细节和艺术感,仍可能逊于SD类扩散模型。
三、个人思考
- 为什么GPT总是能选到不同的技术路线,并且还做出了业务成果?
- 可能未来图像模型也会进行分流,稳定性要求高的选择自回归模型;发散性要求高的选择扩散模型
- Author:培风
- URL:http://preview.tangly1024.com/article/1c4a80cd-73cf-80cc-b2fc-ce9ff622d80b
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!