大学本科毕业论文(设计)开题报告
学院:计算机科学与技术学院 专业班级:2008级计算机科学与技术1班
课题名称 基于百度百科的中文文本分类
1、 本课题的研究目的和意义:
网络上存在海量的中文文本资源,其稀疏性与不规范性令以词组统计方式来进行训练和分类的传统分类方法效果不佳.为克服这些难题我们提出了基于百度百科的中文文本分类。
百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本分类方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再通过对文本语义主题的统计规律性来计算相似度,进而完成文本分类. 有效地避开穷举词条的统计方式,解决现有文本分类算法需要大量训练数据和无法应对网络词汇和新生词汇的这两大难题。
2、 文献综述(国内外研究情况及其发展):
到目前为止,文本自动分类在国外大致经历了三个发展阶段:第一阶段(1958-1964)主要进行自动分类的可行性研究。第二阶段(1965-1974)进行自动分类的试验研究。第三阶段(1975-至今)进行实用化阶段,并在邮件分类、电子会议、信息过滤等方面取得较为广泛的应用。
我国文本分类的研究工作始于20世纪80年代,大体经历了可行性探讨、辅助分类系统、自动分类系统三个阶段
……(新文秘网https://www.wm114.cn省略915字,正式会员可完整阅读)……
文本分类;郭玉琴等改进了传统关联文本方法,提出一种基于模糊分类规则树的文本分类方法。
这些方法对表达规范的文本都能取得较好的效果。但是如前所述中文网络上存在大量稀疏与不规范文本,这些文本组织灵活,表达随意.上述的这些方法说大多是在对词组的识别统计的基础上来完成训练与分类,因而在面对表述不规范的网络文本数据时,其效果就不甚理想。
3、 本课题的主要研究内容(提纲)和成果形式:
1、 主题抽取
对于一段网络文本,可以找出一段网络文本所有的候选词条ts,把所有候选词条的开放分类全部作为这段文本的语义主题侯选项,对每一个侯选语义主题都进行统计记。
我们可以把所有的候选语义主题看作是一张有向图的顶点。对于顶点e来说Te是它的权重。顶点e1与顶点e2之间是否有通路以及顶点之间的距离,由m步主题关系决定。如果e1到e2在m步主题关系矩阵中有对应的值q,则两个顶点这间有通路,相关度为q。我们把这种图称之为文本T的主题语义图ADTopicG(T)。
对于无向图ADTopicG(T)来说,按图的连通性原理,可以将其切分成若干连通区域Reg1Reg2…Regn,同一个区域的两个顶点有通路,不同区域的顶点之间则无通路。我们认为同一个区域内的所有顶点在语义上有相关性,不同的区域之间语义上相关性差,或者没有相关性。因而本文把一个连通区域作为一个整体来对文本T做语义抽取,将该区域内频率最高的前几个顶点作为该区域的主题,因为这些顶点可以看成是该区域内的语义汇聚中心点。
对于ADTopicG(T)中的任意一个连通区域,把其当作一个整体统计它在整个图中的权重,某个区域的权重越大说明它对文本的语义贡献越大。
2、 分类
为进行有效的语义主题发现,本文按以下步骤来实现:
首先,令E={e1,e2…en }为网络文本的语义主题空间,其中,ei表示第i 个主题,即第i个开放类;
第二步,找出一段网络文本所有的候选词条ts,把所有候选词条的开放分类全部作为这段文本的语义主题侯选项;
第三步,对于一个侯选语义主题e而言,用其在短文本T中的统计量来表示e成为T的语义主题可能性,记为p(e|T);
第四步,按本文分类思想的观点,含义表达相似的网络短文本,其语义主题具有相似的统计性。所以,本文找出同属一类的网络文本集合,再对这个集合中所有文本进行训练,统计出这类文本的所有侯选语义主题出现次数。
相似度计算按统计主题数据采用余弦法进行计算。
分类选取:那么对于一个未知分类文本T,本文取与其语义相似度最大的类别作为其分类。
3、成果形式
以java应用程序的形式,实现基于百度百科的文本分类。
4、拟解决的关键问题:
文本类别之间相关性较大时,基于百度百科的文本分类的表现不是太好,可以通过类别主题权重向量的正交化来改善.另外,百科词条的质量和网络文本的简写方式对该方法的影响也较大,这些困难还一时难于克服。
5、研究思路、方法和步骤:
我们认为可以利用百度百科知识关系来把一段文本从外延词条集合映射到能体现其内涵的语义主题空间中,再通过对文本语义主题的统计规律性来计算文本与文本、文本与类别之间的相似度,进而完成文本分类.这可以有效地避开穷举词条的统计方式,解决传统文本分类算法需要大量训练数据和无法应对网络词汇和新生词汇的难题,从而可以用来对表述不规范的网络文本做分类。
因而,本文提出基于百度百科的网络文本分类方法,该方法不需要大量的训练数据,不仅对表述不规范的短文本有效,而且在表述规范的长文本上的也达到很好的分类效果.其主要过程有以下几步:
(1)建立一个百科词库前缀关系;
(2)对于一段未知文本T,利用百科词库前缀关系,进行快速词条发现,找出所有可能涉及的词条;
(3)统计所有发现的百科词条的开放分类,用来作为文本的侯选语义主题,并形成主题权重向量;
(4)对训练数据中的每一个类别,分别计算该类别的主题权重向量并正交化,以避免类别之间相互交叉
影响;
(5)按向量相似度算法计算T 与已知类别的相似度和T 的语义离散度,根据语义离散度值选取相似度最高的前N 个分类作为T 的分类。
6、本课题的进度安排:
(1) 数据收集:
分别从网易上下载有关:足球、音乐、电影、政治、军事、股票、手机、汽车。各类2000篇以上
以足球数据为例:下载所有 西甲 英超 意甲 滚动新闻,将html内容转换成t*t,所有文件以该新闻标题命名。并各自形成一个目录。下载地址:西甲http://sports.163.com/special/00051F1O/more*jnews.html、英超http://sports.163.com/special/m/00051F15 ……(未完,全文共7321字,当前仅显示2571字,请阅读下面提示信息。
收藏《论文开题:基于百度百科的中文文本分类》)