上海代写论文网专业提供论文代写、论文发表服务
您现在的位置:代写本科论文 > 计算机论文 > 计算机专业毕业论文 > 汉越双语新闻文本分布相似度计算方法探讨
汉越双语新闻文本分布相似度计算方法探讨
发布时间:2017-05-18

摘要

  1、概述

  双语话题分析与发现是当前国内外的研究热点,对信息页面深层次的语义分析并实时发现在线新闻话题是舆情分析的核心技术,它通过监控新闻报道、评论或论坛等,发现感兴趣的话题。越南作为我国的邻邦,其对我国国内各种事件的反应和越南本国发生的突发性事件等都应该有及时准确的把握。准确及时的热点话题发现与追踪可以有效地帮助我国分析越南舆论走向,实现面向越南的事件舆情分析,为政府进行事件舆情监控及决策提供重要的依据,从而实现对重大事件的预警和防范。

  本文基于双语主题分布相似度计算方法对汉越双语新闻文本相似度进行计算。由于每个新闻文本的主题是与该文本的主题分布高度密切相关的,如果2 个新闻文本的主题分布相似,就认为这 2 个新闻文本是相似的,很可能描述的是同一件事情。本文将多个新闻文本集合表征为与语言无关的文档主题分布,采用聚类算法进行文本聚类,从而实现在忽略文本实际语言的情况下,对不同语言表示的文本进行聚类。它可以在不考虑源语言和目标语言的情况下提供新闻报道的结构化表示,并根据新闻文本的特点,融合新闻文本中标题、时间和实体等要素,构建文本相似度矩阵,对汉越双语新闻文本采用自适应 K 均值聚类算法进行新闻文本聚类,分析汉越双语新闻话题。

  2、新闻话题特点

  在线话题发现通常被看作是融合时间序列信息的文档聚类问题,其中每个类别表示一个话题。在单语话题发现研究方面,已有多种聚类算法被用于话题发现研究,如文献[1]采用凝聚层次聚类算法发现新话题,文献[2]通过融合多种聚类算法实现在线话题发现与追踪,取得了较好的效果。文献[3]通过融合进化聚类算法和主题模型实现在线话题发现与追踪,在互联网新闻话题发现与追踪方面取得了较好效果。在双语话题发现研究方面,主要有机器翻译的方法[4-5]和基于统计策略的方法[6-7]。前者将多语言翻译为统一语言后,通过单语言方法完成话题发现,该类方法忽略了源语言所具备的结构、上下文特征; 后者利用特征上下文蕴含的源语言信息,融合双语语言知识计算话题的相关度,实现双语在线话题发现与追踪。特征的上下文虽然蕴含了源语言语义信息,但也引入了大量不相关的噪声。在双语在线话题发现研究方面已有一些可借鉴的成果,但针对特定双语文本的话题分析与发现,并没有考虑特定文本本身的特征,最终导致话题分析效果不理想。在汉越双语新闻话题分析研究方面目前还没有较成熟的解决方案,尚需开展深入研究。

  新闻话题的突发性和延续性是新闻话题发现的重要特点。并且,双语新闻话题具有跨语言主题相关的特点。针对同一话题的新闻事件往往存在新闻标题相似、发布时间相近、实体共现、关键词相同、事件要素跨语言共现等特征。这些特征对双语新闻话题发现与分析具有重要作用。

  跨语言新闻话题分析需要不同语言的新闻要素来表达同一个新闻。而由于新闻具有动态不断变化的实时性,不能单独在源语言或目标语言上使用单语线 性 判 别 分 析 ( Linear Discriminant Analysis,LDA) 模型[8]。

  3、新闻文本特征提取

  对于处理过的汉越双语新闻文本,提取里面的新闻要素。根据互联网中新闻文本的特点,提取了7 类特征,即跨语言新闻文本相似度、新闻所属类别、新闻报到的标题、新闻的时间要素、实体要素、关键词以及新闻标题中带引号的信息词。

  3. 1、跨语言新闻文本相似度

  在单语言环境下对话题分析的建模方法有统计语言模型、向量空间模型和潜在语义模型等。统计语言模型与向量空间模型并没有考虑新闻文本中语义的特性,不能很好地捕获到新闻文本中的话题; 而潜在语义模型由于在模型生成过程中存在缺陷,导致模型无法处理动态变化的数据。而由于新闻具有实时动态和不断变化的特点,因此不能分别在源语言和目标语言上使用 LDA 模型,因为在各自语言上的主题信息没有明显的对齐,所以使用文献[9-10]中的跨语言 ML-LDA 模型,它可以在不考虑源语言和目标语言的情况下提供新闻报道的结构化表示。通过从维基百科抽取的双语文档产生双语主题模型,然后使用得到的主题词预测新文档的主题分布,并将主题分布的相似度作为 2 个文本的相似度。

  3. 2、新闻所属类别

  目前网站发布新闻都是分门别类发布的,比如网页新闻页面有军事、科技、综艺等栏目导航,网站对新闻的分类是新闻编辑者人工对新闻所属类别的判定,是一项很准确的信息。在话题发现过程中同一个话题往往属于同一个类别,类别的确定在语料的爬取中根据网站中新闻的分类确定。

  3. 3、新闻报道的标题

  新闻的标题是一篇新闻报道的重要组成部分,是对整篇新闻的一个高度概括,《现代汉语辞典》解释标题的意思是“标明文章、作品等内容的简短语句。”新闻标题由新闻报道者根据自己对新闻事件的理解总结出来,让读者通过标题就能知道新闻报道的大概内容。标题的相关性对双语话题分析具有重要支撑作用。

  3. 4、新闻的时间要素

  正式的新闻报道都含有时间要素。目前网络中的新闻报道都有精确的发布时间,发布时间的格式大多例如“2015-02-25 19: 20: 53”,也有的新闻报道的发布时间没有精确到时分秒,只有日期信息。对于这类时间要素,保存时把时间信息记为“2015-02-25 00: 00: 00 ”的形式。新闻报道有时间相近的特点,比如同一篇新闻报道的发布时间可能仅仅是日期相同,而具体到小时则不太一样。还有对重大事件的跟踪报道,这样发布时间中的日期也不相同。

  在新闻时间要素的提取上,除了考虑网页中发布时间这一个信息,通过分词工具的命名实体识别和正则匹配的方法可以识别出部分新闻文本中的其他时间信息,这些信息也作为新闻报道的时间要素。还有一些新闻报道中含有一些相对时间的信息,比如说“昨日”,这种说法是相对发布时间来说的,这种相对的时间信息很少,在新闻文本处理的时候把这些信息也转换成相应的时间格式保存。

  3. 5、新闻报道中的实体要素

  在同一事件的不同报道中,一般都会有实体共现特征。比如“马航失联”事件,在不同的报道中,即使是不同语言都会出现“马来西亚”、“马来西亚航空”等实体信息。新闻报道中的实体信息是聚类过程中的重要特征。在文本预处理的时候利用分词工具,提取新闻文本中的实体信息。

  3. 6、新闻报道的关键词

  在很多网站的新闻报道中都含有关键词属性,有的网站称之为标签。这些信息是比标题更为简练的对整篇新闻的总结,如果新闻报道中含有关键词信息,在基于模板的爬取中能准确地获取,保存在数据库中,在聚类过程中是重要的参考信息。

  3. 7、标题中的引号词信息

  某些新闻标题中含有用引号引起来的词语,这些词语一般是特定情况下的新词,比如在“马航失去联系”一事中,大多的新闻报道在标题上把“失去联系”简写成“失联”,可以认为“失联”是关于“马航事件”的独有的词。在最新的报道中使用了“失联”,则后续的报道或者其他媒体的转载中也会使用“失联”这个词,所以可以认为,时间相近的报道中只要标题或者新闻正文中出现了“失联”一词,该篇报道是关于“马航失去联系”的几率就非常大。也有的标题中含有引号词不是简写,而是一些词的组合,这些词一般是 2 个或者多个词语连用,在要报道的新闻中有其特定的含义。比如说网上有篇新闻的标题是: “云南‘慈善妈妈’被举报骗政府项目敛财数千万”。标题中的“慈善妈妈”就是由 2 个词语组合而成,在这里是反义的意思,在这篇新闻报道中多次出现“慈善妈妈”,一般这 2 个词很少同时出现,在正常情况下即使同时出现,也会表达其原有的意思,而用引号引起来的报道,在时间相近的报道中可以认定是同一事件的报道。

  4、融合新闻特征的文本相似度矩阵

  使用基于双语主题分布词的汉越文本相似度计算方法计算汉越新闻的文本相似度; 对于新闻中的要素特征,分别计算出不同的特征值,以不同的权重融合到文本相似度中。特征权重是根据人们日常对新闻中各项特征的认知经验以及新闻文本自身的特点进行设定的。例如标题是新闻文本中最重要的组成部分,把新闻标题的权重设定得较大; 而针对新闻中的关键词,并不是所有的新闻都会提供关键词,把关键词的权重设置为一个较小值。在计算特征值时,利用维基百科中的“其他语言列表”对词语和实体进行翻译,维基百科中没有或者有歧义的借助Google 翻译。特征值计算方法及权重定义如表 1所示。

表 1 特征值计算方法及权重定义
表 1 特征值计算方法及权重定义 

  对于特征 2,对处理过的越南语新闻标题,先把越南语词翻译成汉语词,然后计算 2 个标题的余弦相似度[12-13],计算结果为小数,所以该特征值权重记为 1; 对于特征 3,时间要素包括发布时间和新闻报道中提到的时间,对于这两类时间分别计数。例如:

  发布时间属同一天则记为 1,报道中若出现属于同一天的时间,则累加 1。对于特征 5,新闻报道中若含有关键字信息,统计关键字相同的个数,不相同的剩余项,对关键字进行词语语义相关度计算,对于相关度高于某一阈值的也算关键字共现。

  5、自适应 K 均值聚类

  采用 K 均值[14-15]的聚类划分方法,对从互联网上爬取的新闻数据进行聚类,进而使聚类后不同话题的新闻聚成不同的簇,相同话题的新闻聚到同一个簇。对于在大量新闻文本中分析话题的任务,聚类的数目往往是不确定的,因此在对新闻文本聚类时首先确定最佳聚类数目。

  5. 1、聚类数的确定

  本文使用 F 统计量估计聚类数。针对类与类间的距离以及类内数据对象之间的距离,如果存在有类内各数据对象间的距离越小但类间的距离越大时,那么 F 统计量也就越大,表明聚类的效果就越好。因此,在 K 均值算法中加入了 F 统计量自适应地选择最佳的聚类数目让聚类效果达到较好。

  5. 2、自适应 K 均值聚类算法

  算法在初始时,在新闻文本中选择距离最大的2 个新闻文本点作为初始聚类中心,形成两个初始的簇,计算其他新闻文本点分别到两个初始聚类中心的距离,然后通过最大最小距离算法的思想选择下一个聚类中心,进行重新聚类。在聚类过程中通过计算 F 统计量确定选择该聚类中心后,聚类结果是否优于上次聚类结果,若优于上次聚类的结果,则选择该聚类中心,聚类数 k 加 1。重复上述步骤继续选择下一个聚类中心,当 F 统计量的值不再增大时,算法终止,最佳聚类数就为 k。

  6、实验结果与分析

  实验主要集中在评价本文提出的融合新闻要素及主题的文本相似度计算上以及采用聚类方法的不同对汉越双语新闻话题分析的影响。

  6. 1、实验数据

  针对需要的实验数据,采用基于模板的网络爬虫技术从中文和越南文主流媒体网站爬取新闻。针对不同的网站用 HtmlUnit 编写不同的模板,爬取的数据存到 MongoDB 数据库中。用 HtmlUnit 的方式爬取新闻数据能更准确地获取到新闻网页中的结构化数据,比如新闻标题、发布时间、正文、类别和关键字等信息。在爬取到的数据中选取政治、科技、体育、军事和教育这 5 类新闻作为汉越双语的实验数据,因为这些类别更具有跨国报道的可能性。另外,话题存在时间相近的特点,所以在进行聚类实验时只选取近十天的新闻数据进行实验。根据发布时间选出的近十天的新闻中,各类新闻数如表 2 所示。

表 2 实验数据集数量
表 2 实验数据集数量 

  对于爬取到的新闻数据要做预处理,在处理过程中使用到了汉语和越南语的分词工具,其中中文分词工具用的是中科院的分词工具 ICTCLAS50,越南语用的分词工具是 vnTagger ( version 4. 2. 0) 。

  具体预处理及过程为: ( 1) 对爬取到的汉越新闻标题进行分词、去停用词处理,得到标题中的关键词;如果标题中含有被引号引起来的词语,提取出这些词语。( 2) 对汉越新闻正文进行命名实体识别,获取新闻正文中的实体信息,包括时间、地点。利用维基百科中的“其他语言列表”将实体信息进行汉越互译。

  6. 2、评价方法

  要评价一个聚类算法的效果,不仅考虑聚类结果的准确性,而且还要考虑聚类算法的可靠性、时间复杂度和空间复杂度。目前来看,对于聚类效果的评价大多使用 F 值( F-measure) 。F 值是对算法准确率( P) 和召回率( R) 的调和平均。

  6. 3、实验对比

  利用得到的文本相似度矩阵为依据,分别在5 个类别的新闻数据进行基于改进的自适应 K 均值聚类实验。设计了加入不同新闻特征的对比实验和不同聚类方法的实验,具体结果与分析如下。

  实验 1 加入不同新闻特征的对比实验为了验证本文提出的加入不同新闻特征后的有效性,分别对只有文本相似度特征和融入了新闻要素特征的情况进行文本聚类,实验对比数据如表 3所示。

表 3 加入不同新闻特征的对比实验结果
表 3 加入不同新闻特征的对比实验结果 

  从表 3 中可以看出,融合了本文提出的各项新闻特征后,话题发现的效果要优于只有文本特征相似度特征的话题发现效果。在每个类别中 F 值平均高出了 2 个百分点。

  实验 2 不同聚类方法的实验为了验证基于自适应 K 均值聚类方法的有效性,设定在使用相同数据集上,采用 K 均值聚类方法进行对比实验。选取 F 统计量确定最优聚类数。对比这 2 组实验,实验结果如表 4 所示。

表 4 不同聚类方法的实验结果
表 4 不同聚类方法的实验结果 

  分析表 4 可知,基于自适应 K 均值聚类的话题发现要比 K 均值聚类的方法实验结果的各项指标都高,基于自适应 K 均值聚类的话题发现方法更有效;实验结果显示,不管是 K 均值聚类还是自适应 K 均值聚类结果 F 值都在 75% 以上,证明了对于双语新闻文本,融合其新闻要素和主题信息进行汉越双语的新闻话题发现是有效的。

  7、结束语

  本文在从网络爬取的双语新闻文本上,融合要素及主题的汉越双语新闻话题分析,在基于双语主题分布词计算文本相似度的基础上,采用双语新闻文本中时间、地点等实体共现信息,通过自适应 K 均值聚类算法对双语新闻文本聚类,分析汉越双语新闻中隐含的话题信息,设计了 2 个实验,验证了融合要素及主题信息的汉越双语新闻话题发现方法的有效性。对于已经产生的话题,其后续发展也是舆情分析的重点,下一步将在已发现双语新闻话题的基础上,展开话题追踪相关工作,跟踪话题的后续发展情况,分析话题的发展路线。

版权所有:上海论文网专业权威的论文代写、论文发表的网站,秉承信誉至上、用户为首的服务理念,服务好每一位客户
本站部分论文收集于网络,如有不慎侵犯您的权益,请您及时致电或写信告知,我们将第一时间处理,邮箱:gs@shlunwen.com