ai人工智能培训讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-6

2022-05-16 10:36:55
标签: ai讲师 计算机视觉 计算机视觉讲师 人工智能讲师 人工智能应用

 接上一篇

P12-P13

BEiT

n 在BEiT的论文中,作者提出了一种名为遮盖图像建模(MIM)的预训练任务:图像有 2两种表示的形式:image patches和visual tokens。

n在预训练的过程中,它们分别被作为模型的输入和输出。

nBEIT的结构包含2部分,分别是:BEIT Encoder和dVAE:

nBEIT Encoder 类似于 Transformer Encoder,是对输入的 image patches 进行编码的过程;

ndVAE 类似于 VAE,也是对输入的 image patches 进行编码的过程。

n

编辑

每个visual token是一个介于1~8192之间的数

 

VAE

ncode空间的两张图片的编码中间处取一点,然后将这一点交给解码器,希望新的生成图片是一张清晰的图片,但实际的结果是生成图片是模糊且无法辨认的乱码图。

n给编码器增添一些噪音,可以有效覆盖失真区域。

编辑


阅读(0) 收藏(0) 转载(0) 举报/Report
相关阅读

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有