您的位置:新文秘网>>县域/信息/规章制度/调研报告/毕业论文/>>正文

基于粗糙集的县域经济信息关联规则挖掘研究

发表时间:2015/4/12 8:19:20

基于粗糙集的县域经济信息关联规则挖掘研究

摘要:县域经济作是中国一个重要的经济组成部分。目前国家大力倡导发展县域经济,而且以前对县域经的研究,多停留在定性研究。一些计算模型方法的应用和研究也很少,而对于县域经济信息的挖掘则更少。本文应用粗糙集理论,以广西各县域经济单元做为样本,选取了9个评价指标,应用粗糙集软件,提取了17条的县域经济信息关联规则。文章旨在一个初步探讨,将粗糙集技术引入县域经济评价中来。
关键词:县域经济;粗糙集;关联规则
The association rule data mining study of county economy information based on rough set
LiaoWei-Hua
(Department Of Mathematics And Infomation,Guang*i University Nanning 530004,China)
……(新文秘网https://www.wm114.cn省略649字,正式会员可完整阅读)…… 
technology and theory into county territory economy application.
Key words: County territory economy;Rough set; Association rule
1 引言
县域经济是以县级行政区划为地理空间,以县级_为调控主体,以市场为导向,优化配置资源,具有地域特色和功能完备的区域经济。县域经济在我国国民经济中的重要性至少有两大方面:首先:从经济总量看,整个国家的GDP有相当大的比重是由县和县以下的经济活动创造的,其次,全国县域范围内居住的人口总计约为10.8亿人以上,占我国总人口的85%强。因此,目前国家大力提倡发展县域经济。而在经济的发展过程中,有大量的经济、社会统计数据,如何有效利用这些数据,挖掘这些数据的有用信息,更好的为中国县域经济服务,就成为一个值得研究的课题。数据挖掘是从数据库中发现经济知识模式的有效工具,应当把数据挖掘的方法技术引入和应用到实证经济分析中去,以促进经济学的现代化、科学化,提高经济决策水平[1]。
随着各科研院所县域经济的研究的开展,计量经济方法和社会统计方法也逐渐被运用于县域经济研究,各种定量化的方法和计量模型开始对县域经济进行研究探讨。这些研究促进了对县域经济进行定量研究的深度,充实了县域经济的研究内容。这类定量研究文章主要包括,县域经济竞争力(或实力)评价、县域经济发展差距(包括省域内差距和区域差距)、县域内组织(经济组织和政府机构)对县域经济的影响作用等。而纵观国内外的研究,很少研究会注重县域经济内部知识的挖掘,提取有效的规则,形成知识,从而为中国县域经济的发展提供有效的参考。本文将从粗糙集技术出发,探讨粗糙集在县域经济数据挖掘的中的应用。
2、基本理论
本次研究采用波兰数学家Z.Pawlak提出的粗糙集理论。粗糙集以等价关系(不可分辨关系)为基础,用于分类问题。它用上、下近似两个集合来逼近任意一个集合,该集合的边界线区域被定义为上近似集和下近似集之差集。目前,粗糙集理论用在数据库中的知识发现主要体现在:
(1)利用等价关系对数据库进行属性约简。
(2)利用集合的上、下近似关系获取分类规则。
关联规则(association rule)挖掘是发现大量数据库中项集之间的关联关系。随着大量数据的增加和存储,大量事物中发现有趣的关联关系,可以帮助许多决策的制定,如分类等。目前,关联规则挖掘已经成为数据挖掘领域重要的研究方向。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法,下面属于关联规则的定义。

定义1 设是项的集合,项集是的子集,即, ,这里等均为项编号(, ,)。设是的子集,则表示成。为了简单起见,一个项集也写成。
定义2 一笔交易定义为,这里是交易号,是项集。当且仅当时,一笔交易包含。
定义3 交易数据库是具有个交易的集合,在中包含项集的交易数目称为的支持数,表示为;而交易中包含的百分数称为支持度。给定支持数阈值(),如果,则项集是频繁的。
频繁模式挖掘实际上就是根据其最小支持度(或支持数)在给定的交易数据库中发现频繁模式的完全项集。
定义 4 设频繁项集={},则规则的支持度和置信度定义如下:


定义5 设最小支持度阈值()和最小置信度(),则当,并且,称为强规 ……(未完,全文共5193字,当前仅显示1824字,请阅读下面提示信息。收藏《基于粗糙集的县域经济信息关联规则挖掘研究》