加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[转载]CiteSpace重要问题整理

(2013-05-07 18:39:31)
标签:

杂谈

来源于:陈超美教授博客留言板

陈老师,您好,我在用citespace 3.0.R2的Run Batch Mode一气呵成的时候,生成的narrative summary中第一个图表中,TFIDF、LLR MI,分别表示什么意思,我查了好久没有查出来,您能告诉我一下吗?

博主回复(2011-12-19 11:57):tfidf = tf x idf = term frequency by inverted document frequency
LLR = log-likelihood ratio
MI = mutual information
详见:Chen, C., Ibekwe-SanJuan, F., & Hou, J. (2010) The structure and dynamics of co-citation clusters: A multiple-perspective co-citation analysis. Journal of the American Society for Information Science and Technology, 61(7), 1386-1409. 10.1002/asi.21309

陈老师,我想请问下“The most active citer to the cluster is 0.45 ISI:000086822800018 Mines, M (2000) ocular injuries sustained by survivors of the oklahoma city bombing.”里面的0.45指的是什么指标呀?看了一些资料没找到答案,谢谢老师啦~~

博主回复(2011-11-23 23:13):0.45=45%. Mines, M. 引用了该类中45%的文献。

陈老师好,步骤3中所提到的前沿的“脚印”,是不是就是说它们在当时的那个时间里是研究前沿,即曾经是研究前沿?非常谢谢老师详细的解答!

博主回复(2011-11-21 01:06):严谨地说,‘脚印’只是前沿所留下的线索,蛛丝马迹,并非其真面目。熊猫的脚印不等于熊猫。第5步才涉及到脚印到底是那个熊猫的。

陈老师好,我想请问下,一个图谱的研究前沿是怎么确定啊?我看的文章有的是直接把关键节点(有紫色外圈的)看做研究前沿,这样对吗?分析研究前沿时term type选择noun phrases还是burst terms?Node Type选择Cited reference,这样对吗?谢谢老师啦!

博主回复(2011-11-19 22:38):对错往往是相对的,主要取决于你要发现什麽问题。下面是一种方法:
1. Cited References
2.
生成网络
3. Citation Burst (需按2次)红色为被引burst, 是前沿的‘脚印’。Sigma最高的节点为重要地区留下的脚印。
4. 生成聚类。在Cluster Explorer里,选则右侧列表中脚印所在的聚类(参考#3)。这时中间列表所显视的论文可视为一组前沿文献。
5. Synthesize>Generate a Narrative中包括一写#4中提到的文献。

陈老师您好,我在运行citespace处理数据时有几点不明白:
1.在运行citespace时,选择Pruning里的"pathfinder"与"minimum spanning tree"有什么不同?在什么情况下该选择哪个呢?
2.silhouette值代表什么呢?值为多大合适?看见您的截图上这个值都比较大,我的也就才0.7476,对图的效果有影响吗?
3.在进行聚类分析的时候,分别选择"T"和"k"进行聚类,然后选择clustering->summarization of cluster显示聚类明细,发现有的聚类在T结果中比较好,有的结果在k结果中比较好,而且有的聚类silhouette值很小甚至为负数,不太明白是什么意思,请问对哪个进行聚类分析比较好呢?
期待老师的解答,谢谢。

博主回复(2011-11-19 05:54):有些问题一两句话说不完全,下面列出的论文中有具体的答案,请参考:
1。 参见: Chen, C. and Morris, S. (2003) Visualizing evolving networks: Minimum spanning trees versus Pathfinder networks. Proceedings of IEEE Symposium on Information Visualization, (Seattle, Washington, 2003), IEEE Computer Society Press, 67-74. http://www.pages.drexel.edu/~cc345/papers/infovis03.pdf
2 和 3。参见: Chen, C., Ibekwe-SanJuan, F., & Hou, J. (2010) The structure and dynamics of co-citation clusters: A multiple-perspective co-citation analysis. Journal of the American Society for Information Science and Technology, 61(7), 1386-1409. 10.1002/asi.21309
http://arxiv.org/abs/1002.1985

陈老师,您好,我刚刚使用您的citespace,还是个新手,我有问题向您请教,例如,使用keyword,c,cc,ccv为3.3.15;3.3.20;3.3.20。space 右边的数字317,主要是指关键词频次出现三次以上的数量(同一个关键词出现多次算作一次),不知道这样理解对不对,另外的左下角的Records in the dataset: 2918,Records within the chosen range: 2569,是指数据库中关键词的数量吗,还是其他?希望陈老师百忙之中解答。谢谢。

博主回复(2011-11-11 02:51):317是在其中一年中的keyword的个数。
2918 是总数,2569是在From-To年份之间的总数。

陈老师您好,请问article labeling 和term labeling 分别是指什么类别?在网上查不到精确的解释,不知道哪一个是正确的。谢谢您!

博主回复(2011-11-7 20:37):Node Type:
Term: Terms
Article: Authors, Cited References, Institutions, Countries, Keywords, etc.

陈老师您好!非常抱歉又麻烦您。但我在分析WOS数据时,遇到一些问题,还望老师能在百忙之中指点一二。1.在关键词可视化视图生成过程中,左边会出现相应的按词频排列的关键词排序,一些关键词会出现两次,这该怎么解释呐?而有些关键词只是单复数的区别,如library和libraries。在分析时应该将两者的频次相加,还是只取其中一个的数据呢?2.您的一篇博文中说“modularity大约在0.4~0.8时的图谱通常为符合要求的图谱”。但是modularity在哪里显示呢?我没找到。3.在生成有关reference的图谱后,点击DOI或google scholar,所得到文献总觉得与主题不相关呢?谢谢陈老师。

博主回复(2011-11-8 10:21):1. 在图中右键将要保留的词选为Alias Primary,再将另一词选为Alias secondary. 重新GO!一下, 会将二者合并。
2。在图的左上角有几行字,倒数第2行。
3。有具体例子吗?

陈老师您好!感谢你的CiteSpace,太牛了。用了很久了,但最近处理的数据集比较大,有些 问题向您请教。你在“如何增强CiteSpace处理数据的多少和快慢 ”一文中提到了数据集过大的处理办法,但我下载了还是会出现JVM不能创建不能运行的问题(could not create the Java Virtual Machine)啊,在我机器上修改为1500M以下有时候能够运行,有时候也不行。我在一个内存为8G的机器上试过,也是这样的情况,请问是什么原因呢?该如何解决?
还有其它几个问题向您请教:
1 您的新版本是不是去掉了按住Alt键拖动鼠标多选的功能啊?我用的这个功能好像只有2.8版本有。
2 关于可视化的聚类图每一年的颜色可以设置吗?我的数据较多,总是看不清楚。
3 可以根据节点的属性而不是勾选左侧的选定节点来决定是否显示该节点吗?
如蒙回复,不胜感激!谢谢!

博主回复(2011-9-20 20:58):JVM如果内存已被其他应用程序占用,就会有这种情况。抢先打开CiteSpace是一种办法。
1。好像是。近似的选法可用右键选择列出同一类里的成员。
2。 暂且没有这种界面。可试试增加每个时间区的长度,slice length=3, 5,10,等。
3。 没有。可在表中按列排序,然后逐个剔除。以后可以考虑加上类似功能。

陈老师,谢谢您的回复。还有两个问题:第一,在节点个数问题上,一般通过设置,最后多少节点是理想的?(我目前运行时得到节点关键词308个,连线2057条);第二,在进行时间线视图时(timeline),每一个聚类后面的名称是依据什么来标注的?(通过运行,发现有的聚类名称和研究领域联系不大)

博主回复(2011-9-10 23:00):1. 这个问题可参考我以前的博客。主要考虑是网络结构是否能回答在比节点本身更高抽象层次上的一些问题。
2。是由引用各聚类的论文决定的,具体词组可选自论文的标题,摘要,和索引词,再由3种办法之一度量。如“联系不大”,可解释为施引/被引之间的“距离”较大,参照silhouette值。详件:
Chen, C., Ibekwe-SanJuan, F., & Hou, J. (2010) The structure and dynamics of co-citation clusters: A multiple-perspective co-citation analysis. Journal of the American Society for Information Science and Technology, 61(7), 1386-1409. 10.1002/asi.21309

陈老师,您好。我想请问下关于CITESPACE怎么保存图谱,我是做教育经济的,图点很散,怎么样吧图点聚集起来输出,看起来一目了然

博主回复(2011-9-6 04:59):可以存成.viz格式,以后可以直接用CiteSpace打开使用:
File>Save Visualization
也可以:
File>Save PNG
如能增加更多联接,也许能把整体集中一些: 增加time slice的长度,增加topN, topN%等。

陈老师,您好,我想请教您一个问题,我下载CNKI或者万方的数据格式,应该如何进行转换,谢谢。

博主回复(2011-8-2 21:50):试试CiteSpace>Data>Import/Export>CNKI

陈老师,再次请教你一个问题,这个问题一直迷惑着我,我在您的有关文献里看到citespace的操作步骤1、2、3(extract noun phrase term from title,abstract,descriptors,identifiers of citing articles in the dataset)4----,关于步骤3我在实际操作的过程中并没有执行,而是直接分析共被引等内容,这样的话结果会有影响吗?如果我在分析了共被引等后,然后想作前沿词的探测的话会对结果有影响吗?另外关于提取名词的操作步骤是这样的对面,选择了time scling ,term source,然后在term type里选择noun phrase,然后点go对吗?如果我想探测突现词,必须先进行名词短语的提取然后选择burst term--detect bursts吗?可是这样只能在窗口里显示了几个探测词,我往往再选择go,才能出现相应谱图?

博主回复(2011-7-27 09:04):CiteSpace中的burst detection 有两种用法:1。名词短语 和 2。单词。
1需要事先提取。2则不用。
如果后面的分析不涉及名词短语,结果不会受影响。
最后几个问题:对;是;应该如此。

陈老师,您好!我想问下老师:如何用基于CSSCI的数据绘制“研究前沿突变术语”的图谱?(burst来源为名词短语)

博主回复(2011-7-26 00:13):1. 抽取名词短语
选需要的年份
选Noun Phrases
等左边窗口出现回应后,GO. 等到提示visualize, save, cancel,选cancel.
以上这步只需做一次
2。 选burst, 用名词短语
3. Node Type 选Cited References 和 Terms.
4。 GO.

陈老师您好,我的疑问与33楼得clover6相同。在阀值的选择上,如果阀值设的太低的话,会有太多的节点,分析起来可能太复杂,但是设的太高的话,又怕没有可信度。在阀值的设置上,怎么样才能更为科学呢?

博主回复(2011-7-18 02:49):建议你先读一下这两篇:
如何选取CiteSpace中的各项参数
http://blog.sciencenet.cn/home.php?mod=space&uid=496649&do=blog&id=378974

如何在CiteSpace中控制节点的取舍
http://blog.sciencenet.cn/home.php?mod=space&uid=496649&do=blog&id=394695

陈老师,您好!关于citespace我有几个问题想请教:
1、在聚类簇图形中右键选择list citing papers to the cluster,结果页面中
1)Citing Titles显示的是什么内容?那个圆括号中的数字代表什么含义?
2)bibliographic details显示的又是什么内容呢?那个方括号中的数字代表什么含义?
2、在citespace中如何查看某个聚类簇的主要施引文献及其施引频次呢?
谢谢!祝工作愉快!

博主回复(2011-7-16 19:51):下个版本中会包括一个Cluster Explorer的介面,可以用于交互式分析。
目前版本中,在project目录下有一个叫clusters的子目录,文件以相应聚类号命名。文件内包括施引文献。

陈老师,你好,在选择“节点类型”的问题上有一点不明白。我想做共词分析的图谱,选择keyword那一项就可以了吗,感觉这样画出的图谱好像没有体现出共词的关系呐。学生要做共词分析的图谱,还需要如何设置呢?

博主回复(2011-6-29 02:45):Term和Keyword都可生成co-word网络。
Keyword是Web of Science记录中KeywordPlus字段里的词。

陈老师,您好!非常感谢您能回答我的问题。在做作者或机构或国家合作网络知识图谱时,Freq 指的是被引频次呢,还是发文数量?

博主回复(2011-6-15 23:29):这时Freq为发文数量。

陈老师您好!在操作过程中经常会遇到有的文献被引频次很高,但是中心度却很低,而有的文献被引频次很低,中心度却很高,对于这样的现象我该怎样去理解?这两类文献中那一种才是关键文献或重要文献?为什么会出现这样的情况。另外,阈值设定中:top N per slice或者Threshold(c,cc,ccv)数值大小,选用Pathfinder或者Minimum Spanning Tree,即使小小的变化,软件选择出的被引文献或者关键词其中心度变化很大。如果选择了其中的一组数据进行分析,自己都无法解释选择为什么要选择这组数据?我应该依据什么去选择分析?因为自己正在学习过程中,希望得到陈老师的帮助。

博主回复(2011-5-15 00:41):被引频次和中心度是两种不同的度量。中心度是定义在网络结构上的。至于什么是关键文献或重要文献,取决于你要研究什么问题。如果波动很大说明你选的top N还不够大。

陈老师请教一个问题,同样的阈值设定,用Pathfinder或者Minimum Spanning Tree,软件选择出的文献其中心度是不同的,如果中心度高的节点可以将其看成是关键节点,我现在无从下手了,不知道该选择那些文献来进行分析?以Pathfinder为准。见 Chen, C. and Morris, S. (2003) Visualizing evolving networks: Minimum spanning trees versus Pathfinder networks. Proceedings of IEEE Symposium on Information Visualization, (Seattle, Washington, 2003), IEEE Computer Society Press, 67-74. http://www.pages.drexel.edu/~cc345/papers/infovis03.pdf

陈老师您好!我想请教您一个问题。在citespace里进行被引文献或被引作者分析时,聚类的依据是什么?根据什么标记聚类的?在被引作者分析过程中,是将每个作者被引的所有文章进行统计然后得出Freq吗?还是只分析作者的其中一篇文章?
在被引作者分析中,Freq最高的作者对应这某一个年份和期刊,是否表示该分析过程只研究该作者的某一篇文章?但是在被引文献分析中,该作者的文章Freq不是第一,而且该作者对应的文章显示的年份也不同,为什么?
真心希望得到老师的解答,谢谢您!

博主回复(2011-4-12 10:49):聚类相关的技术细节读一下这篇论文:Chen, C., Ibekwe-SanJuan, F., & Hou, J. (2010) The structure and dynamics of co-citation clusters: A multiple-perspective co-citation analysis. Journal of the American Society for Information Science and Technology, 61(7), 1386-1409.
被引作者分析:Freq是按每个作者的所有文章的被引情况计算的。这时只有作者字段有意义,其他字段如期刊名称等没有意义。陈老师,再次打扰您了。我最近在谢我的博士论文,现在正整理文献,突然有个想法,就是可不可以把文献综述写成知识图谱呢?

博主回复(2011-4-4 21:45):对了解学科发展历史和现状来说,知识图谱和文献综述异曲同工。这确实是CiteSpace所针对的几个核心问题之一. 还有就是,C、CC和CCV阈值的选择有没有什么标准呢?问题较多,因为最近遇到了这些实际问题,麻烦陈老师了!

博主回复(2011-2-24 11:03):TopN 和TopN% 更直接,建议你用这两项。c,cc,ccv的选择灵活但较为复杂,参考2004年我的PNAS文章。从前,c有选5次以上的,ccv有选25%以上等等在文献中都可见到。阈值低的覆盖面会稍微广一些。考虑到文献数据本身的误差,以及大部分人的注意力往往集中在最有代表性的工作,所以阈值的选择总是相对的。WOS并不包括所有的文献。另外,信息和噪音比也是一个考虑因素。
有个新的问题问您,我用知识图谱写了一篇文章,现在导师提出一点疑问,我也有些疑惑,特向您请教。
就是利用中心度分析某些关键词的时候,选取的阈值,如C、CC和CCV,会不是对中心度的值有影响呢?选取不同阈值会得到的不同膨胀词,那么我如何说明哪组阈值选择的更加合理呢?我导师问我为什么那么选择阈值,我该怎么回答呢?学生孤陋寡闻,希望得到陈老师的指教!

博主回复(2011-2-24 11:21):会有影响。实际上,绝大多数的网络模型都会受到这类参数的影响,只是大部分条件下用户没有给与选择的机会而已。我在我的数篇文章中反复强调这是个探索性的分析过程,不要望“图”生意,想当然,而是要以图为线索找到确凿证据。

查看原文:http://www.kuizi.com/?p=2013

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有