|
标签:休闲 |
药物治疗往往在没有完全掌握其核心机制的情形下依然有效,我们尝试运用基于文献的知识发现范式来探索这些机制,并提出了一种从Medline记录中抽取语义预设的发现模式。语义预设和发现模式的使用为发现以往没有注意到的药理学和生物活性物质与疾病之间的相关关系提供了途径。本文着重探讨了利用抗精神病药物治疗癌症的机理。我们的方法获得了把抗精神失常药物和癌症联系起来的5种生物分子:脑源性神经营养因子,CYP2D6,糖皮质激素受体,PRL和TNF。
构建出基于医学文献的基因相互作用网络是文本挖掘在生物信息学中最为重要的应用。从生物医学文献中抽取潜在的基因关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。最近,基于奇异值分解(singular value decomposition)的潜在语义标引(latent semantic indexing)已经应用于基因检索上。然而,用于降低秩矩阵的因子K的取值仍然是一个悬而未解的问题。
本文介绍了一种将基因关系的先验知识加入到LSI/SVD中来确定因子数的方法。我们还探讨了利用非负矩阵因子分解(non-negative matrix factorization NMF)通过利用已知的基因关系从生物医学文献中抽取未能识别的基因关系。基于NMF和LSI/SVD的基因检索方法现实出较好的性能。
结论
使用某个特定基因的已知的基因关系,我们确定了用于减少矩阵秩的因子数,并且采用LSI/SVD或者GR/NMF方法检索到与该基因相关的未识别的基
A workflow for mutation extraction and structure annotation.
J Bioinform Comput Biol. 2007 Dec;5(6):1319-37
Authors: Kanagasabai R, Choo KH, Ranganathan S, Baker CJ
在不同结构的数据资源中贮存着丰富的有关点突变研究的信息。本文介绍一种从生物医学全文中运用自然语言处理技术挖掘突变注释,并且将其结果重新应用于蛋白质结构注释和可视化之中的自动化工作流程。该系统称作mSTRAP (突变抽取与结构注释线程),用于信息汇集和随后的突变注释,便于将来自不同文本挖掘和序列分析步骤的语义相关信息调整成为正规的OWL-DL 本体。该本体用于支持面向应用的对序列、结构及文献注释的数据管理,这些可以作为对象的实例和数据类型属性加以操控。该本体及其可视化工具可在http://datam.i2r.a-star.edu.sg/mstrap.获取。
PMID: 18172931 [PubMed - in process]
Corpus annotation for mining biomedical events from literature
用于文献中挖掘生物医学事件的语料库标注
高级文本挖掘技术(如论文的语义充实、事件或者关系抽取以及智能回答提问等)已经越来越引起生物医学领域的关注。为了达到这一目标,从生物学的角度对文本进行注释就成为不可或缺的任务。然而,由于这个任务的复杂性,除了一些相对简单的术语标注之外一直,没有大范围地进行语义注释的研究。
我们完成了一种新型的语义注释:事件标注,是对GENIA语料库中现有标注的补充。该语料库已经标注了词性(POS)、句法树以及术语等。新的标注的一半是由GENIA语料库组成,包括1000条Medline文摘。包括9372个句子,其中确认出了36114个事件。事件注释中最困难的事情是:(1)设计出符合文本标注特殊要求的标注格式;(2)完成能够反映生物学家对文本解释的生物学标注;(3)保证各个标注者标注质量的一致性。为了解决这些问题,我们提出了单面标注和语义分型的新概念,这些理念一起保证了大范围标注的成功完成。
结论:生成的事件标注语料是同类标注工作中最大也是质量最好的一个,我们希望这个语料库可以成为生物医学领域以自然语言处理为背景:文本挖掘已经用于把生物医学概念(如基因或者生物学过程)连接起来,以便于注释或者产生新的假说。很多作者使用向量空间模型把两个概念互相联系起来,因为向量可以进行有效和明显的比较。使用这种模型,可以用一系列的相关概念勾勒出某个概念的特征,并且用权重表示这些关联的强度。向量中相互关联的概念及其权重产生于一组与感兴趣概念相关的文献集合。这种方法的一个重要问题是如何确定相关概念的权重。确定权重的方案很多,但是没有对这些不同方案的比较研究。这里我们在大型分类试验中比较了不同的加权方法。
方法
评价了三种方法:(1)经验算法,以平均为基础的加权;(2)对数相似率,以试验为基础的测量;(3)不确定系数,以信息理论为基础的测量。加权方案应用于一个采用基因本体(GO)编码注释基因的系统中。我们使用GO注释项目提供的注释作为金标准。应用受试者作业特征曲线(ROC)中的曲线下部区域来测量分类表现。
结果与讨论
所有的方法表现均好,AUC评分中位数大于0.84,要比没有加权的方法要高。特别是对于一些比较特殊的基因本体编码表现尤为出色。如果从整个试验上看,各方法之间的差异很小,但是发现与概
对于具有创新意识的医学图书馆员和信息专家来说,如果想把自己的角色扩展成为搜索专家的话,他就需要了解生物学上发生的深刻变化和文本挖掘的发展趋势。近年来,出现了概念生物学这门实验生物学的补充学科。其中部分原因就是大量的数字化资源(如NCBI为分子生物学专家开发的数据库网络)的出现。以数学家兼信息科学家Swanson的早期工作为基础开发的文本挖掘和假说发现系统的发展也与概念生物学的出现相呼应。没有人介绍这些新趋势给生物医学数字图书馆员。本文介绍了数据挖掘和文本挖掘的背景,以及数据库中知识发现和文本知识发现,然后简要回归了Swanson的思想,讨论近来假说发现和检验的方法。在文本挖掘研究中,“检验”部分上指的是在文献中发现证据以支持假设的关系的自动化方法。结束部分主要阐述:(a)目前评价假说发现系统方法上的局限性;(b)与实验研究相比较,以文献为基础的发现的作用。还提到了一个信息论驱动的关于系统性红斑狼疮生物标记物的文献综述的报告。Swanson对科学文献(广而言之,对生物医学数字数据库)中隐藏的价值的看法对于信息科学家、生物学家和医生来讲,依然是具有强大的生命力的。
由于对疾病病理和分子功能的研究不断产生大量有关蛋白质、基因和小分子(PGSM)相互作用的数据,目前急需将这些结果捕获存储在结构化的格式,以利于计算分析。为了开发存储这些计算机可读信息的数据库,人们花费了大量的精力,然而这些资源的推广普及需要人工处理来解释和抽取来自生物研究文献中的相互作用关系。为了能够有效和准确地从非结构化的文本中自动抽取相互作用信息,需要大力改进这些数据库的内容,同时找到一套应对发表文献持续增长的方法。结果:本文介绍了一个从非结构化文本中抽取PGSM相互作用的系统。利用句法分析器和“上下文无关文法”(context-free grammar,CGF),我们证明能够建出来具有较高的查全率和查准率的从自然语言中抽取这些关系的有效切分器(parsers)。我们的研究结果表明,该技术在识别PGSM名称上的查全率达到83.5%,查准率达到93.1%,在抽取这些条目之间相互作用上查全率达到63.9%,查准率达到70.2%。与其他已经发表的技术相比较,通过只关注具有领域特异性的结构,而不关心某一种语言的语义学分析,这种利用CFG明显减少了自然语言处理的复杂程度。此外,我们的方法还为抽取PGSM之外的其他类型生物学关
Predicting Cancer Interaction Networks Using Text-Mining and Structure Understanding
Christopher M. Topinka, Chi-Ren Shyu, Ph.D.
Department of Computer Science, University of Missouri - Columbia, MO 65211
AMIA Annu Symp Proc. 2006;:1123.
摘要:通过对来自不同数据源的蛋白质间相互作用的计算预测,可以建立起扩展的生物分子结合与相互作用的网络。为了建立关于癌症研究的网络,我们将特定领域的自然语言处理与以结构为基础的蛋白质间相互作用预测结合起来的方法,其中的自然语言处理方法利用了生物医学文献数据库的文本挖掘方法,预测方法则采用了亚细胞定位和演变信息。利用以前开发的知识发现新方法[3]完成对结构查询的快速检索。
PMID: 17238742
[3] Shyu CR, Chi PH, Scott G, Xu D. ProteinDBS: a real-time retrieval system for protein