ai人工智能培训讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-7

2022-05-17 14:32:15
标签: ai讲师 计算机视觉 计算机视觉讲师 人工智能讲师 人工智能应用

接上一篇

P14-P16

VAE

n按苏剑林的说法:VAE本质上就是在常规自编码器的基础上,对 encoder 的结果(对应计算均值的网络)加上了“高斯噪声”,使得结果 decoder 能够对噪声有鲁棒性;

n另一个 encoder(对应计算方差的网络)的作用是用来动态调节噪声的强度的。

编辑

编辑

 dVAE

Gumbel-SoftmaxJang et al.,2017;Maddison et al.,2017)松弛法来训练模型参数。

编辑

n首先要训练了一个 discrete variational autoencoder (dVAE)。

ndVAE 的意思是“离散的 VAE”,它和 VAE 的本质是一样的:都是把一幅图像通过一些操作得到隐变量,再把隐变量通过一个生成器重建原图。

nVAE使用均值、方差拟合神经网络得到隐变量;使用生成器重建原图

dVAE使用Tokenizer得到隐变量;使用Decoder重建原图。

BEiT

编辑

nBEIT的目标是最小化计算预测的 token 与真实的 token 之间的差异。

编辑

n上式的含义就是:对盖住的每个 patches,BEIT 的 Encoder 在这个位置的输出,通过线性分类器之后得到预测的 visual token 与真实 patches 对应的 visual token 越接近越好。

未完,下一篇继续……


阅读(0) 收藏(0) 转载(0) 举报/Report
相关阅读

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有