VALSE论文速览第59期:FILIP:细粒度交互的语言-图像预训练
(2022-04-06 18:08:08)
标签:
it |
为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自华为诺亚方舟实验室,中山大学和香港科技大学等机构的多模态预训练方面的工作。该工作由徐航与梁小丹副教授指导,黄润辉同学录制。
论文题目:FILIP: FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING
作者列表:姚乐炜* (华为诺亚方舟实验室,香港科技大学),黄润辉* (中山大学),侯璐*
(华为诺亚方舟实验室),卢冠松 (华为诺亚方舟实验室),钮敏哲 (华为诺亚方舟实验室),徐航 (华为诺亚方舟实验室),梁小丹
(中山大学),李震国 (华为诺亚方舟实验室),许春景 (华为诺亚方舟实验室)
B站观看网址:
https://www.bilibili.com/video/BV1YL411w76r/
论文摘要:
大规模视觉语言预训练在各种各样的下游任务中展现出了良好的应用前景。现有的方法通常使用各模态的全局特征间的相似度进行建模,或者在视觉token和文本token中使用跨模态注意力机制或者自注意力机制实现细粒度模态交互。然而,使用注意力机制实现模态交互的方法在模型训练与模型推理的时候较为低效。在本文中,我们提出了一种大规模细粒度交互文本-图片预训练方法 (FILIP)。通过一种跨模态后期交互机制,FILIP实现了较为精细的图文对齐。这种跨模态后期交互机制通过最大化token级别的图文相似度来引导对比学习的训练目标进行训练。FILIP仅仅通过修改对比损失,成功地利用了图像块和文本单词之间的细粒度表达,同时获得了在推理时离线计算图像和文本特征的能力,保持了大规模训练和推理的效率。此外,我们构建了一个新的大规模图像文本对数据集FILIP300M用于预训练。实验表明FILIP在多个下游视觉-语言下游任务上达到了当前的最高性能,包括零样本图像分类和图像-文本检索。可视化结果表明FILIP可以学到有意义且带有定位能力的细粒度特征,并实现词级别和图像块级别的对齐。
论文信息:
[1]
论文链接:
[https://arxiv.org/abs/2111.07783]
Wukong中文数据集论文链接:
https://arxiv.org/abs/2202.06767
Wukong中文数据集主页:
https://wukong-dataset.github.io/wukong-dataset/
视频讲者简介:
黄润辉,中山大学研究生,研究方向为计算机视觉,目前专注于多模态预训练。
特别鸣谢本次论文速览主要组织者:
月度轮值AC:丁长兴 (华南理工大学)、彭春蕾 (西安电子科技大学)
季度责任AC:杨猛 (中山大学)
活动参与方式
1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!
直播地址:
https://live.bilibili.com/22300737;
历史视频观看地址:
https://space.bilibili.com/562085182/
2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat
*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。
3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。
4、您也可以通过访问VALSE主页:http://valser.org/