人工智能老师叶梓:计算机视觉领域的自监督学习模型——MAE-5
标签:
计算机视觉讲师人工智能兼职讲师ai讲师人工智能讲师人工智能培训 |
分类: 大数据人工智能 |
接上一篇
P9 P11
ViT中的Tranformer编码器
nTranformer编码器由multi-head
self-attention(MSA)和MLP块的层组成。
n在每个块之前应用Layernorm(LN),在每个块之后应用残差连接。
nMLP包含具有GELU非线性的两全连接层。
Vision Transformer(ViT)
n模型变种:ViT的配置基于BERT所使用的配置,如下表,BERT采用了“Base”和“
Large”模型,并添加了较大的“Huge”模型。
n经过大数据集的预训练后,性能也超过了当前CNN的一些SOTA结果
经过大数据集的预训练后,性能也超过了当前CNN的一些SOTA结果如上
BEiT
n实验证明vision
Transformer需要远比CNN更多的数据来训练。为了解决需要大量数据来训练的这个问题,自监督式的预训练是一个很有前途的方式,它可以利用大规模的图像数据。
nBEiT的形式很接近BERT,只不过用了一个dVAE对patch进行离散化(就像NLP的token也是离散化的)。
ndVAE需要先在语料上训练出一个encoder和一个decoder,encoder用来当作tokenizer,把图像离散化(对应每一个patch),然后给Transformer输入patch,预测离散后的图像,再用decoder还原。
未完,下一篇继续……

加载中…