大学本科毕业论文(设计)开题报告
学院:计算机科学与技术 专业班级:08软件工程A班
课题名称 基于百度百科的网络文本检索
1、本课题的的研究目的和意义:
网络上存在海量的中文文本资源,其稀疏性与不规范性令以词组统计方式来进行训练和分类的传统分类方法效果不佳.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本分类方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再通过对文本语义主题的统计规律性来计算相似度,进而完成文本分类. 有效地避开穷举词条的统计方式,解决现有文本分类算法需要大量训练数据和无法应对网络词汇和新生词汇的这两大难题.
2、 文献综述(国内外研究情况及其发展):
在中文领域,很多学者致力于文本分类的研究,并产生了一些应用系统,如清华大学的汉语语料自动分类系统;上海交大朱的中文科技文献分类系统;东北大学的新闻语料汉语文本自动分类模型.在分类算法方面有:朱靖波等提出一种基于知识的文本分类方,将领域知识引入文本分类,利用领域知识提取文本特征;李荣陆等使用最大熵模型进行中文文本的分类;陈晓云等利用带词频的频繁模式挖掘分类规则并应用于文本分类;张博锋等为了
……(新文秘网https://www.wm114.cn省略887字,正式会员可完整阅读)……
型,将这个模型应用于未切分的测试集样本,完成整个自动切分的过程.自2003 年国际中文分词评测活动Bakeoff开展以来,有了统一的训练与测试语料,回避了“词”的定义这样一个棘手的问题.通过“分词规范+词表+分词语料库”的方法,使词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础.
4、 拟解决的关键问题:
[1] 须从百度百科上下载数量两百多万的词条,会花费不少时间,并且大数量的词条,带来的是处理时间的负担。所以,必须找到最优的处理方法,尽量节省时间,提高效率。
[2]对于语义主题的判断必须具备较高的准确度,在处理规范文本和不规范文本时要统筹兼顾,尽力提高识别的准确度。
5、研究思路、方法和步骤:
1. 从百度百科上下载所有词条, 从 http://baike.baidu.com/view/1.html 开始,扫描到最后,对每个页面抽取出词条id、词条名和开放分类。其中开放分类可能有多个,如’百度百科’ 分类有‘百度,百度百科,网络,百科全书,百科词典’。
2. 把每个词条存进数据库(MySQL),建立一个表叫’baikewords’并按名字建立索引,包括id, 词条名 和开放分类.有些词条的开放分类之间并非以’,’相隔,存进数据库时需要处理成以英文符号’,’分隔,再存进数据库。
3. 把表’baikewords’中 所有即是词条,又是开放分类的词条找出,存进语义主题表‘topics’,字段包括 ‘id 和 topic’ ,topic字段就是词条名,id为该词条在百度百科中的id。 把 topic当作语义主题。
4. 写一段算法,把一段文本中所有潜在词条,都查找出来。如‘南京市长江大桥在大胜关’,所有潜在词条有如下:南京 南京市 市长 长江 长江大桥 江大(长江大学) 大桥 大胜关 。
5. 把所有划分为同一类的文本,如‘电影’类的所有文本当作一个类文本。
6. 找出类文本中所有侯选词条,并把这些候选词条的开放分类全部作为该类别的语义主题侯选项,对每一个侯选语义主题都进行统计,并归一化为语义主题权重:
其中, 取值为1或0,取1时表示第j个词条和 语义相关, 反之值取0, 表示T的所有侯选词条总数,k为语义主题总数,即表’topics’中的所有主题个数。
6、本课题的进度安排:
2月:彩票类型相关新闻数据采集与代码采集,写脚本下载2000篇彩票类型文章。
3月:百科数据收集及代码,以及百篇计算机主题和百篇股票主题的判断。
4月:主题提出算法。
5月:
论文撰写。
7、参考文献:
[1] Kim H, Howland P, Park H. Dimension reduction in te*t classification with support vector machines. Journal of Machine Learning Research, 2005,6(1):37-53.
[2] Kazama J, Tsujii J. Ma*imum entropy models with inequality constraints: A case study on te*t categorization. Machine Learning,2005,60(1-3):159-194.
[3] Liu WY, Song N. A fuzzy approach to classification of te*t documents. Journal of Computer Science and Technology, 2003,18(5):640-647.
[4] Bigi B. Using Kullback-Leibler distance for te*t categorization. In: Sebastiani F, ed. Proc. of the 25th European Conf. on Information Retrieval (ECIR-03). Pisa: Springer-Verlag, 2003. 305-319.
[5] Nunzio GMD. A bidimensional view of documents for te*t categorisation. In: McDonald S, Tai ……(未完,全文共4933字,当前仅显示2492字,请阅读下面提示信息。
收藏《论文开题报告:基于百度百科的网络文本检索》)