您的位置:新文秘网>>毕业论文/文教论文/通信/>>正文

论文开题:网络热点话题的获取与分析

发表时间:2013/9/21 19:39:28


论文开题:网络热点话题的获取与分析

毕业论文开题报告
专 业:计算机科学与技术
班 级:08计算机2班

一、 题目的来源、目标和意义
根据中国互联网络信息中心2010年1月发布的《中国互联网发展状况统计报告》数据显示,自2003年开始,中国的网页规模保持成倍地增长,2009年网页数量年增长率超过100%达到336亿个。网络新闻使用率为80.1%,覆盖八成以上的网民_,较2008年提高了1.6%;用户规模达3.1亿人,年增长7369万人,年增幅31.5%。如何对互联网信息进行监管,已成为亟待解决的问题。但是互联网网页每天都以指数级的方式增长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采用计算机自动处理技术,使其自动地对网络热点话题进行分析、整理,才能建立起全面、有效、快速的热点话题监测预警机制,使互联网得以健康、快速的发展。因此,对网络热点话题的获取与分析技术的研究已成为一项紧迫而又重要的课题。
网络热点话题的获取与分析离不开文本挖掘技术。文本挖掘是以半结构化( 如Web 网页) 或者无结构( 如纯文本) 的自然语言文本为对象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的规律的过程。在互联网时代大部分信息是存储在文本数据库中的,对于这种半结构或无结构化数据,能够获取特定内容信息的手段
……(新文秘网https://www.wm114.cn省略935字,正式会员可完整阅读)…… 
联规则挖掘问题,并深入分析几个对挖掘效率产生重要影响的算法。
一、研究现状
国外对自然语言处理方面的研究起步比较早,相继有一些相关学者和专家都在自然语言处理中的语法、句法及语义分析方面提出了一系列较为有效的理论和方法。序列模式挖掘问题是由Agrawal和Srikant最先提出的: 给定一个序列集, 其中每个序列由项集构成,然后由用户给定最小支持度阈值,序列模式挖掘就是去发现所有的频繁子序列(即: 这些子序列的出现频率不小于给定的最小支持度阈值)。前人提出的大多数序列模式挖掘算法都是基于Ap riori的宽度优先算法, 即基于Ap riori性质(频繁项集的所有非空子集都一定也是频繁的, 或一个非频繁项集的任何超集一定非频繁)。直接基于Ap riori的宽度优先算法在发现长度为k的项集时, 要计算这个k项集的所有 个子集, 运算量很大, 因此很多有用的长序列不能被有效地发现。近来, 深度优先遍历方法的优点逐渐得到了大家的认同。
大多数早期序列模式挖掘算法都是基于Agrawal提出的关联规则挖掘算法Apriori,它的特性是频繁模式的任何子模式都是频繁的。基于这个启发,研究者提出一系列类Ap riori算法,如Ap rioriAll、Ap rioriSome、DynamicSome。Srikant等人提出了GSP ( generalized sequential pattern)方法。Zaki提出了SPADE方法。这两个方法同样是基于Ap riori的。随后学者们又提出了一系列基于数据投影的算法,它们包括Pei在2001 年提出的Prefi*Span。Han于2004年提出了一种结合了图模式生长和频繁计数,形成了结构模式挖掘的算法gSpan。L in和Lee于2002年提出的MEM ISP算法则是基于内存索引的。Garofalakis等人通过利用正则表达式约束方法提出了SPIRIT算法。
单维挖掘序列模式只关心一个带有时间戳的属性,多维序列模式的挖掘目的则是寻找不同维度属性具有更多信息的有用模式。三种挖掘多维序列模式的常见方法,分别是Seq2Dim、Dim2Seq以及UniSeq算法。UniSeq算法将多维信息融入到序列中形成新的序列数据库,然后按照Prefi*Span方法对新的序列数据库进行挖掘。Seq2Dim算法首先挖掘原始序列的序列模式,然后对序列投影下的数据库多维信息的模式进行挖掘。Dim2Seq则是首先挖掘多维信息的模式,然后再挖掘多维信息投影下的数据库序列模式。由于通常多维序列模式的长度较短,投影数据库仅包含那些带频繁序列模式的元组,多维序列模式挖掘更加高效多产。实验结果表明,多数情况Seq2Dim有着良好的性能;当维数较低时多维模式也较短,UniSeq较其他两种方法高效; Dim2Seq在挖掘过程中许多模式并未形成多维序列模式,因此效率较低。
现实世界中序列数据集往往是实时更新的。相应地,有趣模式在多次挖掘时也会随时间呈现出某种变化,已有的规则可能不再有效,而新的有趣模式还有待进一步发现。通常有两种维护规则的方式:第一种方法是强更新,重新进行挖掘,用新的规则来替换所有旧的规则;第二种是弱更新,仅重新计算与增量有关的数据,替换不适用的旧规则。考虑到序列模式挖掘的复杂性,更加倾向于采用弱更新的方式。增量式序列模式挖掘关注于当数据持续增加或减少时来维护序列模式。增量式序列模式挖掘常被定义为:给定序列数据库,通过插入或删除序列形成新的序列数据库,在新的序列数据库中寻找所有的最大频繁序列模式。
二、存在的问题
在过去的10年里,提出了许多算法来解决频繁项集挖掘的效率问题。只有很少的研究者提供他们算法的源代码,这使得比较这些算法变得很困难。不仅如此,即便是同一个算法的不同实现,在性能上也有相当大的差异。此外,不同的实验数据库,不同的最小支持度闽值,不同的数据结构,不同的数据库表示表示方式,不同的实验平台,都会造成算法性能和评价上的差异。在真实数据集和合成数据集上这些算法表现出非常不同的性能,在真实数据集上,最小支持度的阈值是影响算法性能的关键。然而,支持度的最小阈值并没有一个普遍适用的指导性的确定方法。
三、研究方法和算法设计
挖掘最大频繁项集是关联规则挖掘中一个重要的研究内容,但这方面的研究工作尚不够充分。有代表性的相关工作有Roberto J.提出Ma*Miner算法,Doug Burdick等人提出的MAFIA,Dimitrios Gunopulos等人提出的随机算法,Dao-I Lin等人提出的Pincer-search算法。
此次,本文设计的算法是基于Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法:Apriori algorithm。关联规则的目的就是在一个数据集中找出项与项之间的关系, ……(未完,全文共7481字,当前仅显示2627字,请阅读下面提示信息。收藏《论文开题:网络热点话题的获取与分析》