HUAQIAO UNIVERSITY
本 科 毕 业 论 文
题目:基于SQL SERVER 2005 及VS 2005的数据仓库设计
学院:数 学 科 学 学 院
专业:信 息 与 计 算 科 学 专 业
目 录
摘 要 - 2 -
ABSTRACT - 3 -
第一章 数据仓库概述 - 4 -
1.1 数据仓库技术与应用 - 4 -
1.2 本文的主要研究内容 - 5 -
第二章 数据仓库相关理论简介 - 6 -
2.1 数据仓库的定义和特征 - 7 -
2.1.1 数据仓库的定义 - 7 -
2.1.2 数据仓库的主要特性 - 7 -
2.2 数据仓库系统的组成 - 9 -
2.2.1 信息源 - 9 -
2.2.2 数据预处理系统 - 9 -
2.2.3 数据仓库分析工具 - 9 -
2.2.4 查询报表系统 - 9 -
2.3 数据仓库的数据组织结构 - 9 -
2.4 数据预处理技术(ETL) - 11 -
2.5 数据仓库的开发方法 - 11 -
2.5.1 开发数据仓库的方法论 - 11 -
2.5.2 数据仓库的开发策略 - 13 -
2.5.3 数据仓库设计的方法 - 13 -
第三章 数据仓库的实际设计过程 - 16 -
3.1 系统背景 - 16 -
3.2 国侨办文宣司赠送教材信息管理系统 - 17 -
3.2.1 概念模型设计 - 17 -
3.2.2 逻辑模型的设计 - 19 -
3.2.3 物理模型设计 - 23 -
3.2.4 数据仓库开发工具简介 - 24 -
3.2.5 利用SQL SERVER 2005 和 VISUAL STUDIO 2005 进行数据仓库的构建 - 24 -
3.2.6 数据仓库的ETL过程。 - 27 -
3.3 国侨办文宣司合作办营管理信息系统 - 36 -
3.3.1 需求分析及系统边界划分 - 36 -
3.3.2 确定主题域 - 36 -
3.3.3 各主题的关系模式 - 37 -
3.3.4 各主题的事实表及维表: - 37 -
3.4 国侨办文宣司华教中心人员工资管理信息系统 - 39 -
3.4.1.需求分析及系统边界划分 - 39 -
3.4.2.确定主题 - 39 -
3.4.3 各主题关系模式 - 40 -
3.4.4 各主题事实表及维表 - 40 -
3.5 国侨办文宣司夏令营管理信息系统 - 42 -
3.5.1 需求分析及系统边界划分 - 42 -
3.5.2 主题的确定 - 43 -
3.5.3 各主题关系模式 - 43 -
3.5.4 各主题事实表及维表 - 44 -
结 束 语 - 48 -
参 考 文 献 - 49 -
……(新文秘网https://www.wm114.cn省略1984字,正式会员可完整阅读)……
第一章 数据仓库概述
1.1 数据仓库技术与应用
数据仓库是以关系数据库、并行处理与分布式处理技术,以及联机分析处理等技术的发展为基础,为解决当前企业和组织中虽然拥有大量数据但信息贫乏(难以利用)的现状而提出的,是一种对不同系统数据实现集成和共享的综合性解决方案。
从普通数据库与数据仓库的关系来看,人们把普通数据库技术称为传统的数据库技术。传统的数据库往往是以单一的数据资源(即以数据库为中心)进行事务处理、批处理、决策分析等各种数据处理工作。数据处理模式主要划分为两大类:操作型处理和分析型处理(或者信息型处理)。操作型处理也叫事务处理,是指对数据库联机的日常操作,它通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,基本上满足了响应时间、数据的安全性和完整性的需要;分析型处理则用于管理人员的决策分析,往往是大规模、批量的计算作用,经常要访问大量的历史数据、也就是说,传统的数据库系统能够完成企业的日常事务处理工作,但很难达到实现数据分析处理的要求,也无法满足数据处理多样化的要求。随着用户需求的发展,操作性处理和分析型处理的分离就成为必然。
近年来,随着信息化的发展和技术的进步,信息已成为人类社会不可或缺的重要资源。社会的信息化使得信息量的急剧增长。面对数据量的急剧增长和应对要求的不断提升,数据库技术的应用和发展也有了更高的作用和价值。数据库技术一直力图使自己能胜任当前的发展变化,完成从事务处理、批处理到分析处理的各种类型的信息处理任务。虽然业务扩充了,但还是要在统一数据格式、统一数据模型下来实现业务操作的数据处理。对于决策分析,在业务操作层面上进行分析判断还存在着很大的局限性。于是,人们尝试对来自操作型处理数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析,这就形成了数据仓库(Data Warehousing,简称DW)的数据仓库系统包括数据仓库技术、联机分析处理技术(On_Line Analytical Processing,简称OLAP)、数据挖掘技术。[2]
数据仓库弥补了原有数据库的不足,将原来的以单一数据库为中心的数据环境发展为一种新的体系环境。它具有一种新的数据处理结构体系,能够将不同环境、不同系统的数据统一起来,以形成综合的中央数据仓库。
1.2 本文的主要研究内容
第一章绪论部分提出了
论文选题的背景和研究的内容;第二章对数据仓库系统基本理论进行了研究,澄清了各相关概念之间的界限和联系,为数据仓库的进一步研究提供理论上的支持; 分析了数据仓库系统关键技术的原理。第三章基于SQL Server2005构建数据仓库;对国务院侨办文宣司的相关信息管理模块的需求做了分析,并根据需求分析对国务院侨办文宣司的相关信息管理模块需要的信息,建立相应的维度、多维数据集等做了相应的介绍。主要针对国侨办文宣司的赠送教材信息管理系统做了比较系统的数据仓库设计,其他的三个模块只是做了一个简单的模型设计。第四章结束语:对论文所做工作的
总结及后续工作的展望。
第二章 数据仓库相关理论简介
2.1 数据仓库的定义和特征
2.1.1 数据仓库的定义
数据仓库的英文是“Data Warehouse”,“Warehouse”一词的含义为:“货仓、栈房”,二者合起来的含义则是“存储数据的仓库”,在我国一般译为数据仓库。目前数据仓库的定义是不统一的。公认的数据仓库之父W.Hinmon将其定义为:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。” [3]
本文提出的数据仓库的定义如下:数据仓库是将来自不同信息源的数据(操作型数据)经预处理之后,按面向主题的方式,以不同的粒度组织在一起,并进行阶段性更新,为复杂的数据分析和决策过程提供信息依据的数据集合。这个定义更全面和清晰地概括了数据仓库的基本特征,指出了数据仓库建立的基础、作用和目的。
2.1.2 数据仓库的主要特性[5]
2.1.2.1.组织数据的方式是面向主题的
主题是一个抽象的概念,是在较高层次上将信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它对应企业中某一宏观分析领域的分析对象。一般按分析的要求(即决策者或者管理者所关心的)来进行主题的抽取。面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域,即主题域。这样组织的数据更有利于分析时的提取。如某个超市的销售系统的业务,如果按主题划分为:顾客主题、供应商主题、商品主题。
2.1.2.2.数据仓库中的数据是集成的
数据仓库中的集成有两方面的含义:一是指把不同来源和格式的数据转换为统一的形式,以便于管理。数据仓库的数据来自于不同方面,如原有的数据库系统、联机的数据库、数据库以外的非结构化的数据和信息等,这些数据在进入数据仓库前要进行提取、净化、转化、合成、装载等预处理后才可装入数据仓库。这在SQL Server 2005中实际上是通过SSIS来完成的,但在数据库设计阶段也需要把数据的集成方案设计出来,而具体的操作则主要体现在对SSIS的操作上。二是指在数据仓库中要将细节数据按要求合并为综合数据以适应快速进行大量数据分析的需要,这一过程是具体数据向综合数据合并的过程,也称之为集成。
2.1.2.3 稳定的
业务系统一般只需要当前数据,在数据库中一般也存储短期数据,因此在数据库系统中数据是不稳定的,它记录的是系统中每一个变化的瞬态。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析是难以把握企业的发展趋势的,因此,数据仓库对数据在空间和时间的广度上都有了更高的要求。在数据仓库中,数据一旦被写入就不再变化了。数据仓库可以看成是一个虚拟的只读数据库系统。在数据集成性中已经说明了数据仓库在数据存储方面是分批进行的,定期执行提取过程为数据仓库增加记录,但是这些记录一旦加入,就不再从系统中删除。正是由于数据仓库的这个显著特点,使得数据仓库不需要在并发读写控制上投入过多的精力,因为所有的用户只是以只读的方式访问数据仓库。
2.1.2.4.数据仓库中的数据是有粒度区别的
粒度是对数据仓库中数据的综合程度高低的一个度量。粒度越大,综合程度越高;粒度越小,细节程度越高。数据仓库要能支持不同综合程度的查询,进行大量数据分析的需要,这一过程是具体数据向综合数据合并的过程,也称之为集成。
2.1.2.5.数据仓库中的数据是阶段性更新的
数据仓库中存贮的数据既有当前数据,也有历史数据,既有细节数据,也有综合数据,为了满足分析的要求,这些数据具有相对的稳定性,一般不进行即时的修改。但它们又都是与时间有关的,要按数据生存周期的长短(一般为5.10年)删去旧的内容,据实际数据库中数据的变化增加新的内容,综合数据也要根据新加的内容进行重新组合。所以说,数据仓库中的数据具有相对的稳定性,是阶段性更新的。
数据仓库所具有的这些特点都是为了更好地完成分析的任务,也可以说,数据仓库建立的目的决定了它本身的特征。
2.2 数据仓库系统的组成[11]
2.2.1 信息源
信息源包括存贮与决策分析有关数据或信息的数据库和其它物理构件,其中包含的数据可分为三类:驻留在不同平台的操作数据:操作系统的外部数据,即相关的非结构化数据;行业外部数据,指来源于社会其它方面的相关数据和信息,包括HTML文档、网络信息、行业状况、国家政策形式变化等。这些原始的数据和信息在进入数据仓库之前要经过一系列处理,才能真正成为数据仓库的组成部分。
2.2.2 数据预处理系统
可见为了支持分析处理,数据仓库涵盖了大量的类型各异的数据和信息,为将它们统一管理,必须有功能强大的数据转换工具,要完成的主要任务有:数据的提取(E*traction )、净化(Cleaning )、转化(Transformation )、合成( Integration)和装载(Loading ) 。
2.2.3 数据仓库分析工具
数据仓库分析工具是整个系统发挥作用的关键,它们可分为两类,验证型和发现型工具。验证型工具主要指OLAP工具,发现型工具主要指数据挖掘工具。在实际应用中,要根据不同的需求和系统的整体建设来选择不同的工具。在进行查询分析、数据报表及对事物进行多方面考察时,用分析型工具。数据挖掘工具主要用于研究和发现潜在的事物之间的联系。
2.2.4 查询报表系统
数据仓库系统中的查询和报表系统是实现用户和分析系统交流的应用程序,当前这种工具正向直观化和智能化方向发展。
2.3 数据仓库的数据组织结构
2.3.1.粒度
数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。
各业务系统的源数据经过ETL处理整合后,成为当前细节级数据,当前细
节级数据根据业务需求需要进行进一步的综合,从而变成轻度综合级乃至高度综合级数据。基于存储空间及访问效率的考虑,早期的当前细节级数据需要备份到设备上从而变成早期细节级数据。
数据的不同综合程度对应的是粒度这个概念。粒度是指数据仓库的数据单元保存数据的细化或综合级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度是数据仓库设计过程中所需要考虑的一个重要问题,它不但影响着存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。而这两个方面是相互矛盾的,存储的数据量大,所能回答的查询类型就多,但查询效率比较低;存储数据量小,所能回答的查询类型就少,但查询效率较高。因此在确定数据粒度是就需要在这两者之间进行权衡。数据仓库的结构如图2.2所示:
图2.2 数据仓库结构
2.3.2 元数据
整个数据仓库系统的结构由元数据(Meta Data )来组织。元数据是关于数据的数据,它对数据仓库中的数据进行解释和管理。元数据好比是图书馆的卡片分类系统,它的建立使数据的组织和查询非常方便。元数据主要有三类:
一类是为完成数据从操作型环境向数据仓库环境转换而建立的,包含所有源数据项名、数据属性及其转换过程的记录。
第二类是指导数据由细节级 ……(未完,全文共30975字,当前仅显示5571字,请阅读下面提示信息。
收藏《毕业论文:基于SQL SERVER 2005及VS 2005的数据仓库设计》)