关于分析方法论文怎么写 和基于语义相似度的共词分析方法有关毕业论文题目范文

本论文主要论述了分析方法论文范文相关的参考文献,对您的论文写作有参考作用。

基于语义相似度的共词分析方法

(东北大学图书馆,辽宁沈阳110819)

[摘 要]针对共词分析方法中的高频孤立词问题,共现词对的“同量不同质”问题等,提出了一种基于语义相似度的共词分析方法.该方法在考虑主题词共现情况的基础上,将主题词之间的语义关系纳入构建共词矩阵的范畴,主要是通过《知网》来计算主题词之间的语义相似度,进而提高共词分析方法的有效性.最后,通过实例聚类分析,验证了该方法的科学性和有效性.

[关键词]共词分析语义相似度知网

[分类号]G350

共词分析方法是一种内容分析法,自1983 年Callon等研究人员[1]提出以来,学者们对其进行了持续的研究和探讨,其主要是通过统计词汇的共现情况来分析某一学科内各主题概念之间的相互关系,进而得出学科结构关系或发现隐含概念关系等.目前,共词分析广泛运用于课题热点追踪[2-4],学科结构分析[5]和知识发现[6]等领域.尽管如此,共词分析方法在应用中仍存在一些需要解决的问题,如高频孤立词问题、共现词对的“同量不同质”问题等[7],这些问题降低了共词分析方法结论的科学性和准确性.笔者在分析上述问题的基础上,提出一种基于语义相似度的共词分析方法,该方法利用《知网》计算词汇之间的语义相似度,在统计词汇共现情况的同时,考虑到词汇之间的语义关系,进而提高共词分析方法的有效性.

1 共词分析法问题分析

1.1 高频孤立词问题

当一个出现次数较高的主题词和多个出现次数较低的主题词相关时,如果只有该高频主题词被选中进行分析,而这个高频主题词又和其它被选中的主题词不相关,在主题词聚类时,由于所有选中的词汇都会被分到某一类下,该高频词就会孤零零的出现在某一个不相关的类目下,影响共词分析结果的准确性.

1.2 共现词对的“同量不同质”问题

一篇文章内,我们可以提取出多个共现词对,词对与词对之间会出现共现的次数相同,但词对内主题词之间的相关度却不一样的情况.一般情况下,主题词之间具有直接相关关系的词对其相关度要大一些.然而,共词分析方法在分析词对相关度时只考虑了主题词共同出现的频度,并没有考虑词对内部主题词之间的关联性.针对上述问题,笔者在共词分析中引入主题词语义相似度计算,将主题词语义相似度作为计算词对相关性的一种因素,以期能提高共词分析方法的有效性.

2 基于语义相似度的共词分析方法

目前,词汇语义相似度的计算有基于大规模语料库的[8],有基于本体的[9],也有基于某种语义词典的[10].笔者基于《知网》(HowNet)来计算主题词之间的语义相似度.《知网》是借助计算机逻辑推理建立的一种知识系统,含有丰富的词汇语义知识和世界知识[11].由于《知网》是一个搭建起来的较完善的语义知识系统,利用《知网》计算词汇语义相似度并运用于共词分析,相比其他语义技术更具可行性.基于《知网》语义相似度的共词分析方法流程如图1所示.

图1中,当确定好需要研究的课题领域后,就可以开始在该课题领域涉及的文献集合中抽取主题词,并进行主题词选择、主题词语义相似度计算以及共词相关矩阵构建等工作.

2.1 主题词提取

一般情况下,我们可以从文献的重要字段如题名、关键词中提取主题词,也可以从文摘或全文中提取.由于中英文书写习惯不同,中文文档词与词之间没有明显的界限(英文中词与词有空格分开),所以中文文档需要进行分词处理,并去掉一些没有实际含义的词汇、停用词等.目前,中文已经有效果较好的分词工具,如ICTCLAS.经过主题词预处理,我们可以从文献集合中提取到一些含有实际意义的名词或动词等,并从这些词汇中选择出高频主题词.

2.2 基于共现统计的高频主题词选择

为了克服共词分析中的高频孤立词问题,作者基于主题词共现强度指标选择高频主题词.如果某个词对出现的频次较高,则选择这个词对里的两个主题词作为高频词.然而,词对共现频次的高低受词对内各个主题词各自出现次数的影响,因此,需要做归一化处理.作者选择Salton指数[12]作为主题词共现强度指标,具体如公式1所示.

公式1中,I(m,n)表示主题词m和n之间的共现强度,A(m,n)表示主题词m和n共同出现的次数,A(m)表示主题词m单独出现的次数,A(n)表示主题词n单独出现的次数.通过计算主题词对之间的共现强度,将共现强度较高的主题词对选出来,可以设置一个阈值,即将共现强度大于某一个阈值的共现词对中的主题词都选出来作为高频词汇.

传统的共词分析方法会基于共现强度得出共词矩阵[13],在研究中,笔者除了考虑主题词共现情况外,还将主题词之间的语义关系纳入构建共词矩阵的范畴,主要是通过《知网》来计算主题词之间的语义相似度,并结合主题词共现强度,得出共词相关矩阵.

2.3 基于《知网》的主题词语义相似度计算在《知网》中,词汇语义可以用概念描述,而概念又可以用义原描述,义原是按照一定方法抽取出的描述一个概念的最小意义单元.主题词的语义相似度,本质上是主题词概念之间的语义相似度.笔者在计算主题词语义相似度时,采用刘群的方法,即将主题词中所含概念之间相似度的最大值作为主题词之间的语义相似度[14],具体如公式2.

公式2 中,Sim(W1,W2)表示主题词W1 和W2的语义相似度,C1i 表示主题词W1 的第i项概念,C2j是W2 的第j项概念.

2.3.1 概念相似度的计算

《知网》中,主题词概念描述由首义原描述、其他基本义原描述、关系义原描述和关系符号描述4个部分组成.概念的相似度可以从分别计算4个部分相似度开始.

首义原描述:概念描述一般都有首义原,相对于其他描述,首义原更重要些.将首义原描述的相似度记为Sim1 (DEF1,DEF2).

其他基本义原描述:概念描述式中,除首义原描述的其他基本义原描述,将其它基本义原描述的相似度记为Sim2 (DEF1,DEF2).由于其它基本义原不止一个,而其对概念的描述可以认为处在同等重要的位置,由此,可以将其它基本义原描述中所涉及的义原看做一个集合.在计算其他基本义原描述的相似度时,一般是将描述式DEF1 和描述式DEF2 中所有的义原两两求相似度,并将相似度最大的义原组成一对,其他依次按相似度由大到小组对,并给每一对义原赋予相同的权值求出Sim2 (DEF1,DEF2).

关系义原描述和关系符号描述:概念描述式中, 这两种描述属于一种特征结构,对关系义原描述和关系符号计算相似度,一般先将描述中的相同属性对应起来分别计算相似度,不同属性可以赋予相同的权值.笔者将关系义原描述的相似度记为Sim3 (DEF1,DEF2),将关系符号描述相似度记为Sim4 (DEF1,DEF2).

得出概念描述各个部分的相似度后,可以采用加权方法得出整体概念的相似度,如公式3所示.

公式3中,βi 为可变参数,由于Sim1 反映的是首义原相似度,所以β1 的取值最大,一般可以取0.5,β2 、β3 和β4 以此递减,且β1 + β2 + β3 + β4 等于1.2.3.2 义原相似度的计算

义原相似度为计算概念相似度的基础.《知网》中,义原之间存在上下位关系、同义关系和对义关系等多种关系;其中,最重要的是义原之间的上下位关系.所有的义原按照上下位关系分布在10颗不同的语义树上,有实体类、动作类和属性类语义树等.一般情况下,义原之间的相似度可以转化为义原和义原之间在语义树上距离(路径长度)的函数,距离越大,义原之间的相似度越低.不同树之间的义原距离可以看做为无穷大.义原之间的语义相似度除受语义距离的影响外,还受义原在语义树上的深度(层数)影响,在同等条件下,两个义原在语义树上所处的深度越大,其相似度越高.由此,本文采用一种考虑义原深度的义原相似度计算方法,如公式4所示.

公式4中,α 是可变参数,dep ths1 表示义原在语义树上的深度,D(S1,S2)表示义原之间的距离.

在计算主题词之间相似度时,可以先转化为计算主题词概念之间的相似度,并转换为计算概念之间所有义原的加权相似度,由公式(4)计算出义原之间的相似度,即可得出主题词之间的相似度.由此,作者在《知网》的基础上计算出了《知网》中所含主题词之间的相似度;而对于《知网》中并没有收录的词汇,作者采用字词组合方法转换为《知网》中已有的字词计算相似度.具体为:将未收录主题词按最大匹配原则分为词和字的集合,然后两两计算相似度,并按相似度从大到小以此选出词对或字对,并给每一个词对或字对赋予相同的权值,加权计算主题词之间的相似度.

2.4 共现词对语义相关性分析

在传统的共词分析方法中,共现词对的相关性主要考虑主题词的共现情况,在共现分析中的词对会存在“同量不同质”的问题.为此,作者在计算共现词对相关性时,在主题词共现情况的基础上加入基于《知网》的主题词语义相似度指标,具体如公式5所示.

公式5中,R(m,n)表示词汇m和n之间的语义相关性;I(m,n)为公式1中的主题词m和n的共现强度;Sim(Wm,Wn)为公式2中主题词m和n的语义相似度.具有共现强度的主题词之间会存在语义相似度较小的情况,经过测算,笔者取一个较小的极限值0.2,即默认在计算共现词对相关性时,所有的主题词语义相似度最小取值为0.2.

2.5 共词相关矩阵构建

得出共现主题词对之间的相关性后,即可以构建共现词对之间的相关性矩阵.具体步骤为:①将选择出的高频主题词作为共词相关矩阵的行和列;②选择相关矩阵行和列对应的词汇组成主题词对(m,n);③计算共现主题词对语义相关性R(m,n),作为矩阵中主题词对共现相关性指标,并将R(m,n)作为共词相关矩阵相应行列的数值,完成构建过程.

2.6 数据分析

基于构建的共词相关矩阵进行数据分析,按分析目标可以采用聚类分析、战略坐标分析和多维尺度分析等方法.

3 实验及结果分析

3.1 数据来源

为检验基于语义相似度的共词分析方法的有效性,笔者以国内“语义网”方面的相关研究为对象,在国内常用数据库检索平台CNKI上采用检索式(SU等于语义网or语义web or semantic web)进行检索.由于语义网在2000年底由Berners-Lee正式提出,所以笔者在检索时间上限定为2001年到2016年4月20日,检索共得到相关文献5657篇.

3.2 实验结果

有了相关文献集合后,即可以借助中文分词工具ICTCLAS抽取出主题词,并选出高频主题词.由于检索所得相关文献较多,笔者在计算共现强度指标时选择Liwen Vaughan 提出的网页共词分析方法[15],即将检索工具中(如CNKI)单独检索某一关键词m的所得记录数量作为A(m),将同时检索两个关键词m和n所得记录数量记为A(m,n).

根据词汇共现强度指标A(m,n),选出的高频主题词(如表1所示)

为便于比较,笔者会在高频主题词基础上列出基于语义相似度的共词相关矩阵(如表2所示)和只基于共现强度指标的一般共词矩阵(如表3所示).

由表2和表3的共词矩阵数据,利用SPSS统计分析,将共词相关矩阵和一般共词矩阵数据分别输入进行聚类分析,选择Ward’s Method(离差平方和)聚类方法,其聚类结果分别如图2和图3所示.

3.3 聚类结果分析

由图2和图3可知,基于语义相似度的共词分析方法和只基于共现强度指标的一般共词分析方法所得相应共词矩阵数据在采用相同聚类方法时聚类结果是不相同的,笔者将详细分析.

(1)类团个数分析.当刻度轴取值20时,基于语义相似度的共词分析方法中高频主题词划分为7个类团,多于一般共词分析方法划分的6 个类团.这主要是由于基于语义相似度的共词分析方法考虑了主题词之间的语义因素,在考虑词汇共现情况时,也能对主题词类别在语义层面做进一步细分,由此聚分出的各类团内高频主题词的相关性更好,类团所代表的主题内容也更加明晰,进而提高共词分析方法分析结果的准确性.

(2)各类团主题词分析.基于语义相似度的共词分析方法和一般共词分析方法所划分出的类团中,有两个类团所含主题词是相同的,即类团WEB服务组合、服务匹配、服务发现和类团领域本体、本体构建、本体映射,而其他类团就各有差异.

首先,从图3中可以看出,一般共词分析方法聚类结果的类团1中含有5个主题词,其中主题词DB?pedia和主题词RDA相关性较小;DBpedia是一种语义网应用范例,是从维基百科的词条中挖掘出结构化的数据并语义关联化的应用服务,而RDA属于一种主要用于图书馆的新版编目规则,两者出现在一个类团中属于不合理现象.而在基于语义相似度的共词分析方法聚类结果中,“RDA”和“图书馆”等聚为一个类团,“DBpedia”和“语义网”等聚为一个类团,聚分效果更好.

其次,一般共词分析方法聚类结果中“知识组织”“搜索引擎”和“信息检索”属于一个类团,而相应的基于语义相似度的共词分析方法聚类结果中“搜索引擎”“信息检索”和“语义检索”属于一个类团.相对来说,“搜索引擎”“信息检索”和“语义检索”3个主题词语义上更密切,相关度更高.

再次,一般共词分析方法聚类结果类团3中有8个主题词.其中,“语义网”“关联数据”“RDF”和“WEB3.0”4个主题词相关度较高;“图书馆”和“元数据”两个主题词相关度较高;“描述逻辑”“关系数据库”与两类主题词相关度都较低,他们出现在一个类团中,较难确定该类团所表达的课题方向.而在基于语义相似度的共词分析方法聚类结果中,“语义网”“关联数据”等和“图书馆”“元数据”分别出现在不同的类团中,聚分结果更合理,类团所代表的课题方向也更明确.

最后,一般共词分析方法聚类结果类团4中有7个主题词,也存在难确定类团所表达课题方向的问题,因为各个主题词是单纯的按照共现情况聚类排序的,而本文考虑了主题词语义关系的共词聚类结果类团主题较明确,聚分更为科学合理.

由聚类结果类团分析可以看出,基于语义相似度的共词分析方法由于考虑了主题词之间的语义相关性,较好地解决了共词分析中的“同量不同质”问题,在聚类结果上更趋合理,在做主题分析时也能取得更好的分析结果.

4 结语

笔者针对共词分析方法中的高频孤立词问题,共现词对的“同量不同质”问题等,提出了一种基于语义相似度的共词分析方法,该方法利用较完善的语义知识系统《知网》计算词汇语义相似度并运用于共词分析,相比其他语义技术更具可行性.最后,通过实例聚类分析,验证了该方法的科学性和有效性.

参考文献:

[1] CALLON M,COURTIAL J P,TURNER W A,etal. From translations to problematic Net- works:An introduction to co- word analysis[J]. Socialscience information,1983,22(2):191-235.

[2] 李武,董伟.国内开放存取的研究热点:基于共词分析的文献计量研究[J].中国图书馆学报,2010(6):105-115.

[3] 王连喜,李霞.国内微博研究热点分析及主题挖掘—以计算机和图书情报学科为研究对象[J].情报杂志,2015(4):127-132.

[4] 李泽霞,刘小平.基于共词分析的固态照明近年研发领域分析[J].图书情报工作,2014(S2):199-203,208.

[5] 张刚要.基于共词分析的教育技术学学科结构可视化研究[J].中国电化教育,2013(2):6-11.

[6] 曹志杰,冷伏海.共词分析法用于文献隐性关联知识发现研究[J].情报理论与实践,2009(10):99-103.

[7] WANG ZY,LI G,LI CY,et al. Research onthe semantic-based co-word analysis[J].Sciento?metrics,2012(3):855-875.

[8] ISLAM A,INKPEN D. Semantic text similarityusing corpus- based word similarity and stringsimilarity. ACM transactions on knowledge dis?covery from data,2008(2):1-25.

[9] 张沪寅,等.改进的基于本体的语义相似度计算[J].计算机工程与设计,2015(8):2206-2210.

[10] 吴思颖,吴扬扬.基于中文WordNet 的中英文词语相似度计算[J].郑州大学学报:理学版,2010(2):66-69.

[11] 董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007(4):3-9.

[12] CALLON M,COURTIAL J P,Lille F,et al.Co-word analysis for basic and technological re?search[J].Scientmetrics,1991(2):155-205.

[13] 钟伟金,李佳.共词分析法研究(一)—共词分析的过程与方式[J].情报杂志,2008(5):70-72.[14] 刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会论文集.台北:[出版者不详],2002:59-76.

[15] VAUGHAN L,YANG R,CHEN C,et al. Extend?ing web co-link analysis to web co-word analy?sis for competitive intelligence[EB/OL].[2015-5-21].http://www.cais- acsi.ca/proceedings/2010/CAIS007_Vaughan_Final.pdf.

孙战彪男,1984年生.硕士,馆员.

张红军男,1971年生.硕士,副研究馆员.

(收稿日期:2016-12-02;责编:杨新宽.)

分析方法论文范文结:

适合不知如何写分析方法方面的相关专业大学硕士和本科毕业论文以及关于分析方法论文开题报告范文和相关职称论文写作参考文献资料下载。

1、论文采用方法

2、写论文方法

3、论文分析方法有哪些

4、国家级期刊的查询方法

5、论文调查方法

6、论文方法有哪些