ai人工智能培训讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-6
2022-05-16 10:36:55
标签: ai讲师 计算机视觉 计算机视觉讲师 人工智能讲师 人工智能应用
接上一篇
P12-P13
BEiT
n
在BEiT的论文中,作者提出了一种名为遮盖图像建模(MIM)的预训练任务:图像有
2两种表示的形式:image patches和visual tokens。
n在预训练的过程中,它们分别被作为模型的输入和输出。
nBEIT的结构包含2部分,分别是:BEIT Encoder和dVAE:
nBEIT Encoder 类似于 Transformer Encoder,是对输入的 image
patches 进行编码的过程;
ndVAE 类似于 VAE,也是对输入的 image patches 进行编码的过程。
n
编辑
每个visual token是一个介于1~8192之间的数
VAE
n在code空间的两张图片的编码中间处取一点,然后将这一点交给解码器,希望新的生成图片是一张清晰的图片,但实际的结果是生成图片是模糊且无法辨认的乱码图。
n给编码器增添一些噪音,可以有效覆盖失真区域。
编辑
ai人工智能培训讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-6
接上一篇
P12-P13
BEiT
n 在BEiT的论文中,作者提出了一种名为遮盖图像建模(MIM)的预训练任务:图像有 2两种表示的形式:image patches和visual tokens。
n在预训练的过程中,它们分别被作为模型的输入和输出。
nBEIT的结构包含2部分,分别是:BEIT Encoder和dVAE:
nBEIT Encoder 类似于 Transformer Encoder,是对输入的 image patches 进行编码的过程;
ndVAE 类似于 VAE,也是对输入的 image patches 进行编码的过程。
n
编辑
每个visual token是一个介于1~8192之间的数
VAE
n在code空间的两张图片的编码中间处取一点,然后将这一点交给解码器,希望新的生成图片是一张清晰的图片,但实际的结果是生成图片是模糊且无法辨认的乱码图。
n给编码器增添一些噪音,可以有效覆盖失真区域。
编辑