ai人工智能培训讲师计算机视觉讲师叶梓：计算机视觉领域的自监督学习模型——MAE-7

2022-05-17 14:32:15

标签： ai讲师计算机视觉计算机视觉讲师人工智能讲师人工智能应用

接上一篇

P14-P16

VAE

n按苏剑林的说法：VAE本质上就是在常规自编码器的基础上，对 encoder 的结果（对应计算均值的网络）加上了“高斯噪声”，使得结果 decoder 能够对噪声有鲁棒性；

n另一个 encoder（对应计算方差的网络）的作用是用来动态调节噪声的强度的。

编辑

用Gumbel-Softmax（Jang et al.,2017;Maddison et al.,2017）松弛法来训练模型参数。

编辑

n首先要训练了一个 discrete variational autoencoder (dVAE)。

ndVAE 的意思是“离散的 VAE”，它和 VAE 的本质是一样的：都是把一幅图像通过一些操作得到隐变量，再把隐变量通过一个生成器重建原图。

nVAE使用均值、方差拟合神经网络得到隐变量；使用生成器重建原图

•dVAE使用Tokenizer得到隐变量；使用Decoder重建原图。

编辑

nBEIT的目标是最小化计算预测的 token 与真实的 token 之间的差异。

编辑

n上式的含义就是：对盖住的每个 patches，BEIT 的 Encoder 在这个位置的输出，通过线性分类器之后得到预测的 visual token 与真实 patches 对应的 visual token 越接近越好。

未完，下一篇继续……

阅读(0) 收藏(0) 转载(0) 举报/Report

前一篇: ai人工智能培训讲师计算机视觉讲师叶... 后一篇:ai人工智能培训讲师计算机视觉讲师叶...