加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

人工智能ai讲师叶梓:计算机视觉领域的自监督学习模型——MAE-4

(2022-05-10 14:48:57)
标签:

ai讲师

计算机视觉讲师

人工智能兼职讲师

人工智能培训

人工智能讲师

分类: 大数据人工智能

接上一篇

 

P7 P8

Vision Transformer(ViT)

https://img-blog.csdnimg.cn/753a74e817994df3856e492c0ad84e91.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5aSn5pWw5o2uQUnkurrlt6Xmmbrog73kuJPlrrbln7norq3orrLluIjlj7bmopPlm6LpmJ8=,size_20,color_FFFFFF,t_70,g_se,x_16人工智能ai讲师叶梓:计算机视觉领域的自监督学习模型——MAE-4

思路上借鉴了CNN的局部特征抽取

 

 

nViTCVNLP领域知识结合起来,对原始图片进行分块,展平成序列,输入进原始Transformer模型的编码器Encoder部分,最后接入一个全连接层对图片进行分类。
n在大型数据集上表现超过了当时的SOTA模型。
nViT尽可能地遵循原始的transformer

Vision Transformer(ViT)

https://img-blog.csdnimg.cn/e81c3b3c4b414549b60b3124c0066a12.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5aSn5pWw5o2uQUnkurrlt6Xmmbrog73kuJPlrrbln7norq3orrLluIjlj7bmopPlm6LpmJ8=,size_18,color_FFFFFF,t_70,g_se,x_16人工智能ai讲师叶梓:计算机视觉领域的自监督学习模型——MAE-4

n 类似BERT[class] token,在可嵌入的Patch序列(00 Z_0^0  = xclass )之前准备了可学习的embedding向量,该序列在Transformer编码器的输出( 0 Z_L^0  )的状态用作图像表示y
n 在预训练和微调期间,都将分类head连接到0 Z_L^0  。分类head是通过在预训练时具有一个隐藏层的MLP以及在微调时通过一个线性层的MLP来实现的。
n位置embedding会添加到patch embedding中,以保留位置信息。对于position emb采用1-D embedding,作者未发现用2-D位置emb会有显著性能提升。

未完,下一篇继续……  

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有