人工智能ai讲师叶梓:计算机视觉领域的自监督学习模型——MAE-4
标签:
ai讲师计算机视觉讲师人工智能兼职讲师人工智能培训人工智能讲师 |
分类: 大数据人工智能 |
接上一篇
P7 P8
Vision Transformer(ViT)
思路上借鉴了CNN的局部特征抽取
nViT将CV和NLP领域知识结合起来,对原始图片进行分块,展平成序列,输入进原始Transformer模型的编码器Encoder部分,最后接入一个全连接层对图片进行分类。
n在大型数据集上表现超过了当时的SOTA模型。
nViT尽可能地遵循原始的transformer。
Vision Transformer(ViT)
n 类似BERT的[class]
token,在可嵌入的Patch序列(00 Z_0^0 = xclass ) 之前准备了可学习的embedding向量,该序列在Transformer编码器的输出(
0 Z_L^0 )的状态用作图像表示y。
n 在预训练和微调期间,都将分类head连接到0 Z_L^0 。分类head是通过在预训练时具有一个隐藏层的MLP以及在微调时通过一个线性层的MLP来实现的。
n位置embedding会添加到patch
embedding中,以保留位置信息。对于position emb采用1-D
embedding,作者未发现用2-D位置emb会有显著性能提升。
未完,下一篇继续……

加载中…