加载中…
个人资料
季宏语文
季宏语文 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:430,778
  • 关注人气:579
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
正文 字体大小:

微软统一预训练语言模型与机器阅读理解技术荣获“世界互联网领先科技成果”奖

(2019-10-23 22:11:03)
标签:

教育

未来阅读计划

学习型阅读

阅读方法

阅读技能

分类: 教育文摘

1020日,以智能互联 开放合作——携手共建网络空间命运共同体为主题的第六届世界互联网大会在浙江乌镇开幕。大会首日下午,重磅活动世界互联网领先科技成果发布活动评选出15项年度互联网科研成果,其中,微软以在 NLP 领域的研究和创新——统一预训练语言模型与机器阅读理解技术荣获世界互联网领先科技成果奖。

微软全球执行副总裁,微软人工智能及微软研究事业部负责人沈向洋博士出席了发布盛会并介绍了这一突破性研究成果。

统一预训练语言模型

近年来, 自然语言处理领域进入了一个新的研究和应用范式——预训练加微调,其基本思想是将训练大而深的端对端的神经网络模型分为两步。首先在大规模文本数据上通过无监督学习预训练大部分的参数,然后在具体的自然语言处理任务上添加与任务相关的神经网络(这些神经网络所包含的参数远远小于预训练模型的参数量),并根据下游具体任务的标注数据进行微调。由此,研究者就可以将通过预训练从大规模文本数据中学到的语言知识,迁移到下游的自然语言处理和生成任务模型的学习中。

2019年,微软亚洲研究院发布了最新的预训练语言模型的研究成果——统一预训练语言模型 UniLMUnified Language Model Pre-training),该模型涵盖两大关键性的技术创新。一是提出了统一的预训练框架,使得同一个模型可以同时支持自然语言理解和自然语言生成任务,而之前大部分的预训练模型都主要针对自然语言理解任务。第二大创新是提出了部分自回归预训练范式,从而可以更高效地训练更好的自然语言预训练模型。

统一预训练语言模型 UniLM 在一系列自然语言理解和生成任务中均取得了领先的实验结果,相关论文已被 NeurIPS 接收。后续我们将发布相关文章,对 UniLM 模型的技术细节进行详细介绍。

机器阅读理解能力超越人类水平

在自然语言处理领域中,机器阅读理解是一个经典且充满挑战的问题,在日常生活中也有着丰富的应用场景。近年来,机器阅读理解技术发展迅速,除了端对端的神经网络模型和预训练语言模型的突破外,大规模数据集也起到了非常重要的推动作用。

由斯坦福大学发布的机器阅读理解数据集 SQuAD (Stanford Question Answering Dataset) 和对话式问答数据集 CoQA (Conversational Question Answering Dataset) 是这一领域影响力最大的两个数据集。

SQuAD 的任务是给定一个文本段落和问题,机器阅读系统需要从中找到问题对应的答案,或是判断出没有对应的答案。CoQA 则可以看作 SQuAD 的多轮问答版本,即给定一个文本段落,机器阅读系统在回答完一个问题后,需要进一步回答后续的相关问题,因此在回答问题的同时还需要理解上下文。两大任务以国际评测挑战赛的形式进行,促进了端对端神经网络在机器阅读理解和自动问答方面的研究,也同时见证和推动了预训练模型的突破和进步。

微软亚洲研究院在 SQuAD CoQA 两大数据集上均取得了突破性领先的成绩,继20181月首次在机器阅读理解挑战赛SQuAD 中率先超越人类水平后,又于20193月首次在对话式问答挑战赛 CoQA 中使各项指标超越人类水准。

微软亚洲研究院的统一预训练语言模型和机器阅读理解技术相关的研究成果发表在了包括 NeurIPSACLEMNLPAAAIIJCAI 等在内的自然语言处理和人工智能领域顶级的国际学术会议上。同时,相关技术也已广泛转化入微软的产品中,比如,应用在必应(Bing)搜索中的问答服务、微软广告中的生成和排序任务,以及 Word 中的语法错误修正等。而这其中的不少工作都得益于微软亚洲研究院与微软研究院以及微软多个产品部门的紧密合作。

为了与学术界和产业界的伙伴们一起,进一步推动自然语言理解和生成的发展与创新,微软亚洲研究院已将统一预训练语言模型 UniLMv1)在 GitHub 上开源。


0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有