加载中…
个人资料
冯志伟文化博客
冯志伟文化博客
  • 博客等级:
  • 博客积分:0
  • 博客访问:723,504
  • 关注人气:1,291
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

生成词向量的三种方法

(2021-06-16 22:57:32)
标签:

人工智能

术语学

语言学

自然语言处理

生成词向量的三种方法


冯志伟新论文。《外语电化教学》2021年第1期。生成词向量的三种方法

黑龙江大学/语言文字应用研究所 冯志伟

摘要:在人工智能时代,神经网络已成为自然语言处理的一种重要工具。为了建立用于自然语言处理的神经网络系统,必须进行词向量的生成。本文讨论生成词向量的三种方法:连续跳元和连续词袋的方法、奇异值分解的方法、布劳恩聚类的方法。使用这些方法可以生成稠密的词向量,从而改进自然语言处理中神经网络的性能。这种稠密的词向量具有很多潜在优点。它们容易作为连续的实数值特征被纳入深度学习系统中,并在自然语言处理的神经网络系统中更好地发挥词嵌入的作用。
连续跳元和连续词袋的方法通过发现嵌入的方式来学习词嵌入,在这样的嵌入中,邻近的单词具有较高的点积,而噪声词则具有较低的点积。因而这种方法可以训练一个神经网络来预测邻近的单词。在语义上相似的单词在文本中出现时常常是彼此邻近的,所以,如果能够很好地预测邻近单词的词嵌入,就可以较好地表示单词之间的相似性。在计算词嵌入时,这种方法得到广泛的采用,而且是行之有效的。
奇异值分解是发现数据集合中最为重要的维度的方法。这种方法能够用于从完整的词项一词项矩阵或词项一文献矩阵中构建维度较低的词嵌入。
布劳恩聚类方法是推导词向量表示的一种聚类算法。这种方法根据前面单词和后面单词之间的关联特征来对单词进行聚类。其算法使用了基于类别的语言模型。布劳恩聚类可以用来给单词建立二进制符号的向量,使其具有句法表示的功能。
关键词:词向量;神经网络;连续跳元;连续词袋;奇异值分解;布劳恩聚类
请诸位指正!

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有