写作指导 | 首页登陆 | 会员注册 | 欢迎投稿 | 本站帮助 | 站内搜索 | 保存桌面 | 浏览足迹 | 会员增值  
到新文秘网首页
您的位置:新文秘网>>毕业相关/毕业论文/文教论文/科技/调研报告/>>正文

毕业论文:分布式存储相关技术的研究

本文4积分 word文档下载 发表时间:2013/9/15 19:47:00 收藏此页 换稿提现 


毕业设计(论文)
题目:分布式存储相关技术的研究
学 院:计算机科学与技术学院
专 业:网络工程

摘要:分布式存储技术因其能为用户提供安全、海量、随时随地的数据存储功能而得到了迅速的发展。本文首先介绍了有关分布式存储系统的一些概念及发展现状,其次介绍了有关云计算和云存储的有关知识,并详细介绍了云存储的结构,优势,发展现状以及涉及的关键技术等,让大家对云存储有大致的了解。接着介绍了Hadoop架构的一些知识,目的是对于这一开源项目有一定的了解并在hadoop的基础上设计实现一个分布式云存储,通过统计单词出现频率的实验,让我们更加了解分布式存储的计算过程,对分布式存储有一个更加清晰的了解。
关键词:分布式存储 云存储 分布式文件存储系统


Abstract:Because able to provide users with safety and mass data storage function, Distributed storage technology developed very rapidly in recent years. This paper first introduced some concepts and development status of the distributed storage system. Followed by introduction of the related knowledge about the cloud computing and cloud storage, and gave details of cloud storage structure, advantage, development status and key technologies involved, so that we have a general understanding of the cloud storage. And then introduces some knowledge about the Hadoop architecture, the purpose is that we can have a certain understanding about the open source projects and design and implement a distributed cloud storage on the base of Hadoop. Through the statistics of word frequency e*periment, we know more abo
……(新文秘网https://www.wm114.cn省略1826字,正式会员可完整阅读)……
看全文方法:付费极速开通 投稿换积分(积分可提现) 注册 登陆 用订单找账号 
利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
1.2 分布式存储目前的两个研究热点
一是基于P2P的分布式存储。基于P2P的分布式存储系统是一种基于对等网络技术的数据存储系统,它可以提供高效率、可扩展、鲁棒和负载平衡的数据存取功能。对于存储系统,用户关心数据的吞吐量以及定位、搜索和路由的效率。传统的集中方式无法满足大规模数据存取的要求,就需要采用新的体系来管理系统中的数据。基于P2P的分布式存储系统可以利用大量节点的计算和带宽资源用于数据存取,具有弱结构化、没有单一故障点、可靠性好、易于扩展、数据吞吐率高等优点。不过,基于P2P的分布式存储系统仍有很多技术问题需要解决。
二是集群存储。服务器集群技术已经非常成熟,应用也非常广泛,效果也非常显著。应用集群技术,不仅可以有效提升数据中心服务器系统的稳定性、可用性及可管理性,同时,允许用户使用价格相对低廉的配置(如刀片)捆绑来替代昂贵的单块集成电路的高端服务器,在不影响性能的情况下节约了存储成本。在传统的集群系统中,每一个节点服务器都有自己的本地存储,这些存储资源并没有被统一利用,在节点之间也没有一致的视图。如果能够将集群中除了计算资源外的存储资源也利用起来,既可以提高存储资源利用率,又可以互为容错与备份,这是集群存储的内在要求。目前市面上出售的存储集群产品主要分为两大类:一类是集群文件系统,一类是建立在集群的架构之上的独立硬件设备。不过,集群存储效率有待提高。
1.3 分布式存储发展现状
国外的信息产业起步早于国内,人均计算资源占有率也远远高于国内,云计算的概念和运营由国外企业率先发起,现在几乎所有的一线IT企业都有参与到了国际云计算领域中,各公司依据自己传统的技术领域和市场策略都提出了自己的云计算架构,从各个方向进军云计算。云计算是一个综合性的技术,现在的国际企业由于都有很好的技术背景,他们通过深挖技术基础把大量以前的产品和技术的云计算特征挖掘出来,由于各个企业定位不同,基础各异,所提出的云计算以及相应的云服务有一定差别。云存储作为云计算的重要组成部分,目前已有许多的云存储服务供应商,他们主要将应用技术、搜索和存储相结合,构建云存储给企业和个人提供一系列的存储服务。
在国外,在云存储方面比较有代表性的企业和服务主要有Amazon(亚马逊)的S3(简单存储服务),S3 提供的Web Services 为开发者提供了开发接口,并允许第三方工具例如S3 Backup、Duplictiy、S3 Solutions 等等在AmazonS3 上开发;Google(谷歌)在2009 年正式对外提供云存储服务,以GFS[10]作为基础;云存储初创厂商 Zetta 发布了 Enterprise Cloud Storage Service这种存储服务;EMC 携手AT&T 发布了云存储服务Synaptic Storage as aService;赛门铁克的一款用于云存储环境的集群文件系统 FileStore,它可用来为 900 万用户提供总共 40PB 的在线存储空间。IBM 的Blue Cloud(蓝云)以开源的HDFS 用来作为大规模数据存储与处理的基础,并对外提供了云存储解决方案 IBM Smart Business Storage 等等。
在国内,云存储服务业也引起了广泛的关注,世纪互联 CloudE* 云存储为企业和个人提供安全、可靠云存储服务。华为赛门铁克科技有限公司根据云存储业务特性,推出了业界第一款可实现S3 休眠模式的 OceanStor T3000 存储节点设备,该设备具有高效节能、开放、简化管理等特点。
从发展的趋势来看,云存储是云计算大规模推广的第一步,它承接了网络存储的基础,融合了新的服务理念,因此不论是从技术上,还是从用户使用习惯上,云存储都比较贴近人们生活,成为了云计算应用的前驱,也逐步成为云计算研究和应用的入手点【1】。
第二章 理论基础
作为未来存储的主要技术之一,分布式存储越来越受到各个企业的重视。作为分布式存储的一种,云存储也得到了快速的发展。目前各企业对于存储的主要要求是低成本、高性能、高安全性、高效率等,而传统的存储方式已不能满足企业对存储的要求,这就提出了分布式存储的概念以及对相关技术的研究。
2.1 存储历程
在计算机科学和信息技术的不断发展过程中,信息的处理需求越来越大促使了技术的不断进步,信息的存储容量从最早期的KB(千字节)级别发展到MB(百万字节)、GB(十亿字节)级别,直到现在的TB(万亿字节)级别,甚至对PB(千万亿字节)级别也提出了需求。与对存储容量不断增长的需求相适应,存储结构也在不断的发生变化,从磁盘到磁盘阵列,从单点到多点再到网络存储,而现在,存储技术和结构还在不断发生变化。
随着网络技术的发展和计算机处理能力的不管提高,早期的传统单机数据处理方式逐渐被以网络数据为中心的处理方式所取代,在成熟的网络存储结构中,比较有代表性结构主要有以下三种方式,分别是直接附加存储(Direct AttachedStorage ,DAS),网络附加存储(Network Attached Storage, NAS),和存储区域网络(Storage Area Network ,SAN)。
在直接附加存储这种结构中,将存储设备通过SCSI 接口或者光纤通道直接和主机相连,通过总线来访问存储设备,数据不能在不同主机之间共享。DAS 主要应用在网络资源不足、数据库或应用服务器程序需要直接访问存储设备的时候,传统的邮件服务器就是比较典型的代表。由于在DAS中,文件服务器需要参与所有的数据请求和传送,在大规模的数据访问时,文件服务器将成为制约整体性能的瓶颈;此外在需要多节点共享数据的情况下,DAS结构也不适合,因此高性能计算环境也不适用DAS 结构。
网络附加存储(Network Attached Storage, NAS)是一种文件网络存储结构,它通过以太网及其他标准的网络拓扑结构将存储设备连接到许多计算机上,建立专用于数据存储的存储内部网络。应用程序通过网络访问文件系统,具有结构简单,跨平台数据共享的优点,但是其性能受限,不能提供应用程序需要的带宽;
存储区域网络使用专用存储网络代替总线,通过使用光纤通道连接到一群计算机上来建立专用于数据存储的区域网络。SAN 把存储功能剥离出来,实现了存储设备和主机相分离,存储设备在应用程序之间共享,它能在更低层次的数据块级提供数据共享,能够为集群系统提供更高的 I/O 性能,此外,使用光纤结构使得物理跨度达到了10 公里的连接长度,这使得物理上分离的存储变得简单,但是成本代价高,用于系统的一致性维护和数据同步的代价开销很大。
2.2 云存储的提出以及涉及的技术
作为未来存取数据和配置软件及服务的基础架构,现在“云计算”已经越来越流行的被人所谈论。这并不奇怪,这种模糊性的概念被遮盖在一个范围广泛,不同架构之下的保护伞中,范围从高度集成和集中(例如,软件作为一个服务产品,如Salesfrce.com)或分解和抽象(例如,亚马逊的使用计算EC2/S3)。原频谱结束之前,在一个非常具体的数据中心,复杂的逻辑和抽象的资源捆绑在一起以提供一种高度特殊的服务——通过整合可能提供更高的性能和效率,而且还降低了灵活性和增加成本来更换提供商。在频谱的另一个结束端,数据中心基础设施供应商提供最小的接口以提供很抽象的资源(例如,“存储文件”),这将很便捷并且更换供应商方便,但是却可能由于服务器端应用程序集成的缺陷而增加额外开销[2]。
为保证高可用、高可靠和经济性,云存储采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,即为同一份数据存储多个副本。
另外,云存储系统需要同时满足大量用户的需求,并行地为大量用户提供服务。因此,云存储的数据存储技术必须具有高吞吐率和高传输率的特点。
云存储系统由大量服务器组成,同时为大量用户服务,因此云存储系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性。云存储系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
云存储的数据存储技术未来的发展将集中在超大规模的数据存储、数据加密和安全性保障以及继续提高I/O速率等方面。
GFS即Google文件系统(Google File System),是一个可扩展的分布式文件系统,用于大型的、分布式的对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的。它运行于练剑的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。
GFS是一个管理大型分布式数据密集型计算的可扩展的分布式文件系统它使用廉价的商用硬件搭建系统并向大量用户提供容错的高性能的服务。
GFS系统由一个Master和大量的块服务器构成。Master存放文件系统的所有元数据包括名字空间、存取控制、文件分块信息、文件块的位置信息等。GFS中的文件块分为64MB的块进行存储。
在GFS文件系统中,采用冗余存储的方式来保证数据的可靠性。每份数据在系统中保存3个以上的备份。为了保证数据的一致性,对于数据的所有修改哦在所有的备份上进行,并用版本号的方式来确保所有备份处于一致的状态。
客户端不通过Master读取数据,避免了大量读操作使Master成为系统瓶颈。客户端从 ……(未完,全文共28514字,当前仅显示5129字,请阅读下面提示信息。收藏《毕业论文:分布式存储相关技术的研究》
新文秘网温馨提示:
  上面为新文秘网原创文章,稍加修改便可使用。只有正式会员才能完整阅读请理解
  加入正式会员方法:点此在线智能充值(自动瞬间开通) 或投稿换积分(积分可提现)
  如果已加入正式会员,请点此到本站首页填用户名和密码重新登陆,或者这里刷新此页试试
  如果您刚支付成功而忘记登陆账号,可这里用订单号找回。欢迎推荐本站给您的好友

   会员客服微信号:wm114cn
文章搜索

搜索方式:      
体裁专栏
行业专栏
节日专栏
时政专栏
设为首页 | 加入收藏 | 首页登陆 | 会员注册 | 投稿提现赚钱 | 写作指导 | 本站帮助 | 站内搜索 | 付款方法 | 免费加入会员
站长统计