加载中…
  
博文
(2022-03-18 14:56)
分类: 专利分析
      昨天,新论文《A semantic main path analysis method to identify multiple developmental trajectories 》被Journal of Informetrics录用了。
       这篇论文去年7月份投稿,中间还因事找主编多给了一个月宽限期,今年3月份能被录用,速度算是非常快了,与之相比,另一篇文章《A deep learning based method benefiting from linguistic characteristics of patents for semantic relation classification》则完全是另一番景象,去年1月份投稿,目前还在修改中。这说明简单直观、效果显著的文章更容易得到审稿人的青睐,而一些复杂的模型方法则面临着更加严格和谨慎的审视。实际上,我在第二篇文章上花费的时间要远远多于第一篇文章,整个过程非常艰辛磨人,相反,第一篇文章是2019年过年时候在家没事,突发奇想随手调了下代码,发现效果很不错,一路顺风顺水就完成了。
       但不管怎么说,文章录用是一件非常高兴的事情,尤其Journal of Informetrics这种影响因子超过5的SCI一区期刊,以前从未中过,这是一个里程碑式的事情。回想自

一、Patstat数据库小结

来源为 DOCDB

之前使用关联规则建立起关系三元组之间的关联关系和关联强度,进而将关系样本连接起来,组成一张无向网,进而抽取关系三元组中的前项词向量和实体类型、后项词向量和实体类型(对于前项、后项是词组的情况,将词组中的词向量按照element wise连加,合并成一个词向量),将前项、后项的词向量和实体类型(one-hot方式编码)连接一下,作为无向网中节点的特征,最终使用图卷积神经网络进行节点分类。
图卷积神经网络直接使用图卷积神经网络作者提供的源代码:
https://github.com/squirrel1982/gcn
跑完后发现分类结果并不好,我的关系类型一共16种(包括noEdge),测试集共1万个样本,模型结果输出的混淆矩阵如下:

micro p/r/f1是0.868,macro p/r/f1是0.056,0.063,0.060
分类: 计算机技术

由于使用CNN抽取语义关系的效果始终出不来,线性模型效果更次,我打算重返BIGRU,先上一个小一点的数据集,正好看到下面代码,符合我的需要,只是数据用的是中文的,但这不打紧。

标签:

神经网络

lstm

分类: 计算机技术
1. 当前应用深度学习进行命名实体识别的主流手段是 CNN_BLSTM_CRF[1]。这到底是怎么回事?

(1) 首先使用CNN将一个词汇的字符级别信息编码到它的字符级别表示中去,然后我们将字符级别的表示和词汇级别的表示连接起来,将它们放到BLSTM中,对每个词汇的上下文信息建模;

分类: 计算机技术
第一次听到BRAT,是在16年南昌听社会媒体大会时候,当时北理工冯冲在边上,闲聊时候提到这个标引工具,不过后来一直没用(因为做标引的机会也少),直到这两个星期,我打算做一个2000篇文档规模的实体关系标引专利数据集,显然用我自己的txt标记法可能性为0,因为不仅文档数量多,而且我要组织一个5人小团队一起搞,使用工具是唯一可行的办法。

1.安装
我电脑是MBP,而且前面已经有现成的python,所以安装起来还算轻松,直接从官网下载安装包 http://brat.nlplab.org
解压缩后进入安装文件夹目录下使用命令,./install.sh 就自动安装了
中间需要初始化管理员账户 密码 和联系邮箱
安装完
标签:

主题模型

实现

汇总

分类: 计算机技术

 1.MALLET:实现语言,Java,实现模型,LDA,HLDA,Pachinko Allocation Model,此外,还实现了HMM,最大熵马尔科夫模型和条件随机场;

2.Shuyo的github代码:实现语言,Python,实现模型,LDA,Dirichlet Process Gaussian Mixture Model,online HDP,HDPLDA,Interactive Topic Model,Labeled LDA

地址:https://github.com/shuyo/iir/tree/master/lda

3.arongdari的github代码:实现语言,Python,实现模型,LDA,Correlated Topic Model,Relational topic model,Author-Topic model,HMM-LDA,Discrete Infinite logistic normal,Supervised Topic Model,Hierarchical Dirichlet process,Hierarchical Dirichlet scaling process

地址:https://github.com/arongdari/python-topic-model

4.Gensim:实现语言,Python,实现模型,LDA,Dynamic Topic Model,Dynamic Influence Model,HDP,LSI,Random Projections,深度学习的word2vec,paragraph2vec。

官网地址:

标签:

提升方法

机器学习

分类: 计算机技术

[译者按]:这篇文献主要翻译自参考文献[1],在oob部分,使用文献[2]稍作说明。

 

标签:

机器学习

特征选择

分类: 计算机技术

机器学习中,特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。

强烈推荐一篇博文,说如何进行特征选择的:

 

标签:

凸优化

机器学习

分类: 计算机技术

第一部分

保凸运算包括几种:

1.交集:这类正名一般都是用凸集的定义来正名的,而凸集的定义是:

http://s11/mw690/001oZrbjzy6RphtSW2S5a&690
其证明过程的思路是:

设两个凸集C1,C2,其交集是C3,现在任取C3的两点,由于这两点属于C1,所以这两点之间连线都在C1里面,同理这两点连线都在C2里面,也即这两点连线在C1和C2的交集,也即C3里面,得证。

2.仿射函数:函数f=Ax+b,称函数是仿射的,即线性函数加常数的形式

3.线性分式及透射函数:

ht

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有