相似性方面论文范文检索 与引文相似性测量模型有关论文范例

此文是一篇相似性论文范文,为你的毕业论文写作提供有价值的参考。

引文相似性测量模型

【摘 要】CSLN 是引文语义链网络.传统相似度计算不能准确的测量CSLN 中引文间的相似性.本文在对引文的特征进行分析后,提出了引文相似性测量模型,该模型能够提高引文相似性测量的准确性.

【关键词】引文;CSLN;相似性

1. 引言

引文网络是指被引文献与引用文献之间因引用关系而形成的一种网络.语义链网络(SLN)是一个用于管理Web 资源的语义数据模型[1].一个典型的语义链网络包含语义节点,语义链以及语义链推理规则.其中,语义节点可以是任意类型的资源、抽象概念或者是另外一个语义链网络.语义链是对超链接的扩展,并为之添加语义关系.语义链继承了超链接的易用性,使之具有推理能力,并且具有语义自组织性:任意节点可以连接到其他语义相关的节点.利用语义链推理规则可以推导出更多的语义链[2].

在这篇文章中,我们首先介绍了传统相似度计算模型,接着对引文的特征进行深入的分析后,最后提出引文相似性测量模型,该模型能够提高引文相似性测量的准确性.

2. 传统相似度计算模型

当我们进行引文相似度计算时,最常用的方法是采用数学工具把引文表示成一个数学模型,然后在这个模型上进行引文相似度运算.传统的相似度计算模型有向量空间模型和集合运算模型等.

2. 1 向量空间模型

向量空间模型V 是六十年代末由Salton 等人提出来的.V 是一种代数的模型,目前已经被广泛的应用于信息检索等领域而且已经取得了很好的效果.V 的表示方法是它最与众不同的优点,V 是通过把文本以向量的形式定义到实数域来对自然语言的文本进行表示.这种对自然语言文本的表示方法极大的提高了文本的可操作性和可计算性.而模式识别和其它领域中的计算方法也采用了V 这种对文本的表示方法[3].

向量空间模型V 的基本思想是:我们用向量来表示文档,并且假设词与词之间是不相关的,这样就可以简化文档中关键词之间的复杂关系,从而使得向量空间模型V 具备了可计算性.而在向量空间模型V 中,把文档看成是由相互独立的词条组 (T1,T2,T3,……,Tn) 所构成,并且对于每一个词条Ti 根据这个词条在文档中的重要程度赋以该词条一定的权值Wi.如果将这些相互独立的词条组(T1,T2,T3,……,Tn) 看作是一个n 维坐标系中的坐标轴,那么这些词条的权重(W1 ,W2,W3,……,Wn) 就这些坐标轴所对应的坐标值.所以由这些词条组(T1,T2,T3,……,Tn) 分解得到的正交词条矢量组就构成了一个文档向量空间.

2. 2 集合运算模型

集合运算模型中用的最多的是Jaccard 系数方法:

3. 引文相似性测量模型

一篇引文是由标题、关键字、正文等多个部分组成.因为引文的各个部分的重要程度不一样,所以在计算两个引文之间的相似性时我们应当把引文的各个部分分开当作多个对象来分析,而不能把一篇引文当作一个对象来分析.例如,引文的正文部分有大量的文字而且关键词很分散,所以我们应当采用统计词频的方法来计算两个引文之间的相似程度.而对于标题和关键字,因为关键字是整个文章中非常重要的一部分,所占权重也非常大,因此这一部分我们必须要重点考虑.所以我们在计算引文相似性时应该对关键字这一部分进行单独处理.

通过上述分析,本文提出了引文相似性测量模型,我们首先把一篇引文的各个部分分开来进行相似性测量,然后再把各个部分综合起来以此来计算两篇引文之间的相似性.本文采用的相似性计算方法如下:

A. 正文

引文的正文部分文字量通常都很大,所以我们在计算两篇引文之间相似性时,首先将引文分解成一系列的句子序列,然后统计出两篇引文中相同句子的数量和两篇引文有的句子数量,最后用以下公式计算两篇引文之间的相似性,引文相似度计算公式如下所示:

B. 关键词

一般来说,引文中都会有关键词,关键字是对引文内容的高度概括,是整篇引文最重要的部分.我们通常可以通过计算两个引文的关键词集合来求出两个引文之间的相似程度.假设引文d1和引文d2 的关键词集合分别是S(d1) 和S(d2),其中S(d1) 等于 (t1,t2, ……,tm),S(d2) 等于 (t1,t2, ……, tn),那么两篇引文之间相似度计算公式如下:

C. 引文相似性测量模型

因为引文的重点内容分布在引文的不同部分,所以我们首先分别对这些部分进行单独的相似度计算,然后在这些相似度计算的基础上得出引文相似性测量模型.

引文相似性测量模型如下:

4. 总结

计算两个引文之间的相似性有多种方法,因为CSLN 中的引文是许多对象的集合.单个对象的相似度计算显然不能准确的测量引文间的相似性.因此,有必要针对引文的不同部分使用不同的相似度计算方法.本文首先介绍了传统相似度计算模型,然后在对引文各部分的特点进行深入分析后,提出了引文相似性测量模型,该模型能够提高引文相似性测量的准确性.

参考文献:

[1]H. Zhuge, Y. Sun, and J. Zhang, “Schema theory for semanticlink network,” in Proc. Fourth Int. Conf. Semantics, Knowledge andGrid SKG ’08, 2008, pp. 189-196.

[2]H. Zhuge, “Communities and emerging semantics in semanticlink network: Discovery and learning,” IEEE Trans. Knowl. Data Eng.,vol. 21, no. 6, pp. 785-799, 2009.

[3] 侯海燕. 基于知识图谱的科学计量学进展研究[ 博士学位论文]. 大连: 大连理工大学,2006.

相似性论文范文结:

关于对写作相似性论文范文与课题研究的大学硕士、相关本科毕业论文相似性论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。