您的位置:新文秘网>>毕业论文/文教论文/>>正文

学位论文开题报告:关键字提取

发表时间:2013/5/11 13:22:31
目录/提纲:……
目录一、论文研究的目的及意义3
二、国内外研究历史以及现状4
三、研究内容及拟采用的解决方案5
四、毕业设计进度安排7
五、参考资料7
一、对提供的数据文件进行预处理,提取出需要的文本
三、对得到的词进行词频计算,然后取出前25%作为候选关键字
四、然后建立邻接矩阵
六、邻接矩阵最后建立后,再利用上述节点删除方法确认关键字
……
毕业论文开题报告
关键字提取
专 业:计算机科学与技术
班 级:计算机B班
2012年02月


目录
一、 论文研究的目的及意义 3
二、 国内外研究历史以及现状 4
三、 研究内容及拟采用的解决方案 5
四、 毕业设计进度安排 7
五、 参考资料 7

一. 论文研究的目的与意义
随着信息技术的普遍应用,人类获得数据的能力不断增强;据有关统计,在全世界的业务管理、政府管理、科学与工程管理和其他应用领域存在大量数据,并且其数量和规模不断地增加和扩大。然而,如何利用这些海量数据,如何从数据中提取有用的信息,是经营管理者面临的一个共同难题。为解决这个难题,有关人员提出一系列技术和方法,这些技术和方法就是数据库知识发现,又称为数据挖掘技术,目的就是智能化和自动化地发现隐藏的信息和知识,发现先前未知的模式,能从历史数据中预测未来发展趋势。它是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学。
数据挖掘的研究对象主要是针对结构化
……(新文秘网https://www.wm114.cn省略722字,正式会员可完整阅读)…… 
字提取策略
该类算法将关键字提取视为分类问题,通过将文档中出现的词语划分到关键字类或非关键字类,从关键字类中选择若干个词语作为关键字。该类算法由Peter.D.Turney首次提出,采用C4.5决策树作为分类器,稍后IanH.Witten等人采用Naïve Bayes作为分类器。该类算法都是基于已有关键字的训练集,选取适当的属性表述文档中的词语,由分类算法构造分类模型,在利用分类模型提取关键字,该类算法提取效果取决于所选训练集、分类算法和描述属性。
2. 不需要训练集的关键字提取策略
2.1基于统计的算法
该类算法,如频率统计(TF,term frequency),统计文档中每个词语出现的频率(停用词除外),选取频率超过一定阈值的词语为关键字。该类算法简单快速,能够提取高频词语,却易忽略对文档具有重要意义但出现频率不高的词语,因此提议结果具有片面性。
2.2基于词共现图的算法
该类算法,如KeyGraph,建立在词频统计基础上,将词语及其语义关系映射到词共现图,n个顶点的词共现图只能包含n-1条边。利用该图计算每个顶点的Key值;Key值的大小代表顶点的重要性,选取若干个重要顶点,即为该文档的关键字,该类算法旨在找出出现频率不高但对中心内容贡献大的词语,但算法需要设定的参数过多,如顶点数、边数等,因而常造成边界上的取舍问题,影响算法的确定性和精度。
2.3基于SWN(small world network)的算法
该类算法,如Keyworld,建立在词频统计基础上,将词语及其语义关系映射到文档结构图(若边代表文档中词语之间的共现关系,则可称为文档共现图),又称为词语网络,通过研究发现该结构图具有小世界特征,该类算法认为文档关键字是对该文档结构图的小世界特征起关键作用的词语,小世界特征的标准时网络平均路径长度。
2.4基于词语网络的算法
这类算法,如基于BC指标的词语网络关键字提取算法,建立在词频统计基础上,将词语映射为顶点,将其语义关系映射为边,包含n个顶点的无向词语网络,其边数的取值范围为[0,n(n+1)/2].利用节点重要性的度量指标量化节点重要程度,如中介性指标(BC,betweeness centrality),提取若干个重要的顶点,即为文档关键字。
三. 研究内容及拟采用的解决方案
随着复杂网络的不断发展,规模越来越大,如何从网络中选出能反映网络主要特征的顶点,如何确保网络a全,如何识别这些重大安全隐患的顶点,成为社会网络分析领域和系统科学研究领域的一个热点问题。
为此提出许多度量网络的顶点重要性的方法,这些方法可归纳为两类:第一类,网络分析方法,该类方法利用某种指标度量顶点的重要程度,已经提出的度量指标有_性和声望,其中以研究网络顶点的_度为主;另一类,节点删除的研究方法,将顶点的重要性等价为该顶点被删除后对网络的破坏程度,实际上考虑的是定点删除前后图连通状况的改变。
我主要采取的是节点删除研究方法,下面主要介绍节点删除指标:
该方法在已有节点删除方法的基础上,为更好的度量出不同顶点在网络结构和位置上的差异,加入对连通分支大小和形状的考虑。考虑网络中顶点被删除后网络的整体连通状况必然造成两方面的破坏:一方面,被删除顶点不能再与剩余顶点相连通;另一方面,剩余的部分之间因被节点删除而丧失连通性;前者被称为直接损失,后者称为间接损失,直接损失和间接损失之和称为总损失,总损失表示顶点删除后对整个网络连通状况的破坏程度。为考虑连通分支的大小和形状,用顶点删除后所有不连通顶点对距离(最短路径)的倒数和量化该指标,这种做法的隐含假设是:破坏近距离的、相对直接的联系导致的破坏性大于破坏远距离的,相对间接的联系所造成的破坏 ……(未完,全文共4016字,当前仅显示2029字,请阅读下面提示信息。收藏《学位论文开题报告:关键字提取》
文章搜索