加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

人工智能老师叶梓:计算机视觉领域的自监督学习模型——MAE-5

(2022-05-12 11:42:27)
标签:

计算机视觉讲师

人工智能兼职讲师

ai讲师

人工智能讲师

人工智能培训

分类: 大数据人工智能

接上一篇

P9 P11

ViT中的Tranformer编码器

nTranformer编码器由multi-head self-attentionMSA)和MLP块的层组成。
n在每个块之前应用LayernormLN),在每个块之后应用残差连接。
nMLP包含具有GELU非线性的两全连接层。

Vision Transformer(ViT) 

n模型变种:ViT的配置基于BERT所使用的配置,如下表,BERT采用了“Base”和“ Large”模型,并添加了较大的“Huge”模型。
n经过大数据集的预训练后,性能也超过了当前CNN的一些SOTA结果
经过大数据集的预训练后,性能也超过了当前CNN的一些SOTA结果如上

BEiT

n实验证明vision Transformer需要远比CNN更多的数据来训练。为了解决需要大量数据来训练的这个问题,自监督式的预训练是一个很有前途的方式,它可以利用大规模的图像数据。
nBEiT的形式很接近BERT,只不过用了一个dVAEpatch进行离散化(就像NLPtoken也是离散化的)。
ndVAE需要先在语料上训练出一个encoder和一个decoderencoder用来当作tokenizer,把图像离散化(对应每一个patch),然后给Transformer输入patch,预测离散后的图像,再用decoder还原。

未完,下一篇继续……  

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有