论文:数据挖掘技术在图书馆工作中的应用
摘要:
数据挖掘是一门新兴的数据分析技术。本文介绍数据挖掘在数字图书馆实现的流程和方法,并对其在图书馆应用作出科学分析。使现代图书馆服务领域得以扩宽,从传统查询服务扩展到基于WEB信息空间或自动化管理系统的知识服务。
关键词:数据挖掘 数字图书馆
Key word: Data mining Digital Library
引言
随着IT技术的的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。作为信息集中的载体,图书馆在数字化进程中也面临着同样的问题。怎样帮助读者从茫茫的信息海洋中获取有用的知识?数字图书馆白皮书指出: 数字图书馆系统的建设必须使用高新技术做支持。[1] 目前的数据库系统可以高效地实现数据的录入、查询、统计等
……(新文秘网https://www.wm114.cn省略659字,正式会员可完整阅读)……
,检查数据的完整性及数据
的一致性,消除噪声或不一致数据。
(4)数据挖掘算法:使用智能方法提供挖掘的知识。这些知识可以用一种特定的方式
表示或使用一些常用的表示方式。
(5)知识评估:根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。
(6)知识发现:使用可视化和知识表示技术,向用户提供挖掘的知识。
2.数据挖掘主要的功能:
目前数据挖掘技术很多,从功能上主要有关联分析、序列模式分析、分类分析、聚类模式分析等方法[4]。
基于关联的分析:关联是指两个或者多个变量的取值之间存在某种规律性,例如一个
模式的出现意味着另一个模式的出现。它是数据库中存在的一类重要的可被发现的知识,目的是为了挖掘隐藏在数据间的相互关系,包括简单关联、时序关联和因果关联等。通常关联规则需要找出的是支持度和置信度分别大于或等于用户指定的最小支持度和置信度。在图书馆应用中可用来分析读者的兴趣。
关联分析包含两种客观度量。一种客观度量是规则的支持度S%(support),即满足规则的样本百分比,表示同时包含*和Y的事务概率。另一种客观度量是置信度C%(confidence),表示既包含*的事务也包含Y的概率。用公式表示为:Support(*Y)=P(*Y),Confidence(*Y)=P(*/Y) 。
2)基于序列的分析。重点在于分析数据间的前后或因果关系。如时间序列模式是根据数据随时间的变化趋势预测将来的值,要考虑到时间的特殊性质,比如一些周期性的时间定义,不同的日期,如节假日可能造成的影响,时间前后的相关性(过去事情对将来的影响力等)。在图书馆中可以用来预测读者下一阶段最可能借的书。以同一读者为标准,在两个Item间保持时间顺序关系,则可以得出一个简单的序列规则。表示读者在借了A书后,接下来必定也会借B书,其支持度为*%,置信度为y%。分析结果可指导管理人员排架工作,方便读者查找。
3)分类分析。分类是数据挖掘的一种非常重要的方法,是按照分析对象的属性、特征,建立不同的组类来描述事物。分类分析的输入集是一组记录集合和几种标记,标记是指一组具有不同特征的类别。首先为每一个记录赋予一个标记,然后检查这些标定的记录,描述出这些记录的特征。例如对读者行为进行分析,提取读者一段时间内的借阅量,按借书频率来划分读者的级别,将读者分为:一般、初级、中级、高级四类。用分类分析方法检查这些记录,然后给出读者级别描述:“高级读者是指那些年借阅量在*册以上,年龄在y岁之间。”通过分析结果了解读者借阅习惯, 确定书目的复本数量,使馆藏资源得到充分利用。
4)聚类分析。数据库中的记录可被划分为一系列有意义的子集,这个过程被称为聚类。它与分类和预测不同,聚类分析只是分析数据对象,而不考虑已知的类标记。聚类前并不知道将要划分的组的数量和类型,也不知道根据哪一个数据项来定义组。把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。将观察到的内容组织成类分层结构,把类似的事件组织在一起。由此可以导出规则。它与分类分析法是互逆的过程。对于类型、数值及文本数据都可以处理。在图书馆应用中可以对读者数据进行聚类,方便分类编制,以识别读者的同类子群。
一般要使得到的分析结果更科学更真实,可综合使用几种挖掘技术。
3.数据挖掘在图书馆中的应用。
目前,数据挖掘技术广泛在
银行、电信、保险、交通、 ……(未完,全文共5274字,当前仅显示1852字,请阅读下面提示信息。
收藏《论文:数据挖掘技术在图书馆工作中的应用》)