您的位置:新文秘网>>县域/信息/规章制度/调研报告/毕业论文/>>正文

基于粗糙集的县域经济信息关联规则挖掘研究

发表时间:2015-4-12 8:19:20

基于粗糙集的县域经济信息关联规则挖掘研究

摘要:县域经济作是中国一个重要的经济组成部分。目前国家大力倡导发展县域经济,而且以前对县域经的研究,多停留在定性研究。一些计算模型方法的应用和研究也很少,而对于县域经济信息的挖掘则更少。本文应用粗糙集理论,以广西各县域经济单元做为样本,选取了9个评价指标,应用粗糙集软件,提取了17条的县域经济信息关联规则。文章旨在一个初步探讨,将粗糙集技术引入县域经济评价中来。
关键词:县域经济;粗糙集;关联规则
The association rule data mining study of county economy information based on rough set
LiaoWei-Hua
(Department Of Mathematics And Infomation,Guangxi University Nanning 530004,China)

Abstract: County territory economy is an important component of Chinese economy.China vigorously develop county territory economy at present.But the study of county territory economy most stays in qualit
……(新文秘网http://www.wm114.cn省略974字,正式会员可完整阅读)…… 
型开始对县域经济进行研究探讨。这些研究促进了对县域经济进行定量研究的深度,充实了县域经济的研究内容。这类定量研究文章主要包括,县域经济竞争力(或实力)评价、县域经济发展差距(包括省域内差距和区域差距)、县域内组织(经济组织和政府机构)对县域经济的影响作用等。而纵观国内外的研究,很少研究会注重县域经济内部知识的挖掘,提取有效的规则,形成知识,从而为中国县域经济的发展提供有效的参考。本文将从粗糙集技术出发,探讨粗糙集在县域经济数据挖掘的中的应用。
2、基本理论
本次研究采用波兰数学家Z.Pawlak提出的粗糙集理论。粗糙集以等价关系(不可分辨关系)为基础,用于分类问题。它用上、下近似两个集合来逼近任意一个集合,该集合的边界线区域被定义为上近似集和下近似集之差集。目前,粗糙集理论用在数据库中的知识发现主要体现在:
(1)利用等价关系对数据库进行属性约简。
(2)利用集合的上、下近似关系获取分类规则。
关联规则(association rule)挖掘是发现大量数据库中项集之间的关联关系。随着大量数据的增加和存储,大量事物中发现有趣的关联关系,可以帮助许多决策的制定,如分类等。目前,关联规则挖掘已经成为数据挖掘领域重要的研究方向。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法,下面属于关联规则的定义。

定义1 设是项的集合,项集是的子集,即, ,这里等均为项编号(, ,)。设是的子集,则表示成。为了简单起见,一个项集也写成。
定义2 一笔交易定义为,这里是交易号,是项集。当且仅当时,一笔交易包含。
定义3 交易数据库是具有个交易的集合,在中包含项集的交易数目称为的支持数,表示为;而交易中包含的百分数称为支持度。给定支持数阈值(),如果,则项集是频繁的。
频繁模式挖掘实际上就是根据其最小支持度(或支持数)在给定的交易数据库中发现频繁模式的完全项集。
定义 4 设频繁项集={},则规则的支持度和置信度定义如下:


定义5 设最小支持度阈值()和最小置信度(),则当,并且,称为强规则。
一个完整的基于粗糙集理论的经济信息数据挖掘过程包括3个概念层:
(1)数据准备层包括目标确定、确认数据源、数据收集、数据筛选.目的是从数据源中抽取出正确可靠的统一格式的数据。
(2)数据预处理层包括连续属性值离散化、数据过滤、数据完备化.目的是将数据源里提取的数据转化为完备信息系统表。
(3)挖掘评价层是整个挖掘过程的核心层,包括属性约简、规则提取和结果评价。
3 应用实例
本次研究选取广西壮族自治区作为研究对象。广西位于中国西南部出海大通道,随着中国-东盟博览会在广西南宁的成功落户,广西各县域经济单元都迎来的发展的契机。本次研究选择的广西2005统计年鉴全部89个县域经济单元的数据(2005年邕宁县并入南宁市,所以现有县域经济单元为88个)。本次评价采用了人均耕地、人口密度、人均财政收入、万人互联网用户、乡村从业人数、人均固定资产投资、公路密度、铁路密度、人均GDP共9个评价指标。
3.1 数据处理
本次研究所需数据均采用统计部门的统计年鉴数据,由于各个指标都是连续型数据,因此使用前,需要将这些数据进行离散化。按照广西各县域单元内部关系,将条件属性离散化成高、中、低三种取值方式。将决策属性人均 GDP按照至多低、至多中、至少中、至少高四种决策属性,各个决策类的等价类各含有如表1的近似精度。

表1 决策属性各等价类
决策等价类 下近似 上近似 边界域 近似精度
至多低 48 52 4 0.92
至多中 82 84 2 0.98
至少中 37 41 4 0.9
至少高 5 7 2 0.71
3.2 规则挖掘
将数据离散化后,采用Institute of Computing Science Pozan University of Technology Poznan的4eMka2软件。计算共得到593条规则,所有规则置信度都为100%,将规则最小支持度设为11.23%,这样得到17条如下决策关联规则。
1、 (人均固定资产投资=低) => (人均GDP至多中) [46.07%]
2、 (万人互联网用户=低) & (铁路密度=低) => (人均GDP至多中) [33.7%]
3、 (人口密度=高) => (人均GDP至多中) [33.7%]
4、 (人均固定资产投资=中) => (人均GDP至多中) [30.33%]
5、(乡村从业人数=高) => (人均GDP至多中) [28.09%]
6、 (人均财政收入=低) & (乡村从业人数=中) => (人均GDP至多中) [23.6%]
7、(人均耕地=低) & (万人互联网用户=低) => (人均GDP至多中) [22.47%]
8、 (万人互联网用户=中) => (人均GDP至多中) [22.47%]
9、(公路密度=中) & (铁路密度=低) => (人均GDP至多中) [21.35%]
10、(人均耕地=低) & ……(未完,全文共5192字,当前仅显示2735字,请阅读下面提示信息。收藏《基于粗糙集的县域经济信息关联规则挖掘研究》
文章搜索