大学本科毕业论文(设计)开题报告
学院:计算机科学与技术 专业班级:08计算机科学与技术B班
课题名称 分布式存储系统相关技术的研究
1.课题的研究目的和意义
现代信息总量在飞速增长——每年增加的信息是历史所有信息量的总和,因此对于存储系
统的需求是:具有巨大容量、高可靠性、高可用性、高性能、动态可扩展性和易维护性等。
虽然随着硬盘技术的发展,市场上普通硬盘容量不断增大,但用户在多数情况下未能充分利用他们的硬盘,有大量的闲置存储空间。而有的用户需要存储大量文件,却苦于硬盘容量过小;而其他高性能的存储设备的情况也是如此,如高性能RAID、NAS往往都有多余的存储空间。
为前提,分布式存储最初研究的正是将文件分散存储到网络的、愿意贡献和分享多余的存储空间的不同硬盘或其它存储设备上,解决单个主机磁盘容量小,不足以存储大量文件的缺陷。方法是把这些单机的硬盘或存储设备看做存储节点,每个节点既提供自己的存储空间给他人,也使用他人的存储空间存储数据,最终达到充分合理利用局域网内不同主机磁盘存储空间的目的。总的来说就是用廉价的、闲散的资源完成大量的数据存储和计算,一方面提高了资源的利用率,另一方面提高了存储效率。分布式存储的这些优点使其得到
……(新文秘网https://www.wm114.cn省略892字,正式会员可完整阅读)……
的可行性,在Napster 关闭之后,更多的P2P 文件共享系统迅速崛起,成为Internet 发展的一股巨大浪潮,其中最著名的是Gnutella[3]和KaZaA[3]。Gnutella 对Naspter 的体系结构进行了彻底的改变不再使用中心目录服务器,转而使用全对等结构:每个结点记录多个其它结点的IP 地址(称为“指针”),
这样整个系统的拓扑就成为一个由指针搭建起来的有向图KaZaA 对Gnutella 做了进一步改进。KaZaA 获得了比Gnutella 更高的稳定性和搜索效率。
服务器几乎都使用异步模式[4]工作,使用IOCP[5]以及NT5.0线程池[5]技术可以获得最佳性能,而线程池的基础是多线程[8]技术及线程同步[6]问题。P2P分布存储主要涉及文件分块算法[7],文件的传输,文件的校验,网络传输效率的提高等问题,因为网络故障时有发生,是不可预料的。
当今P2P主要面临的新问题是:节点数量大、动态性高、异构性强,分布广泛。
现在几种分布式存储:
(1) Google文件系统(Google File System - GFS)[9],用来满足Google迅速增长的数据处理需求。GFS与过去的分布文件系统拥有许多相同的目标,例如性能,可伸缩性,可靠性以及可用性。然而,它的设计还受到应用负载和技术环境观察的影响,采取了完全不同的设计观点。
① 组件失效不再被认为是意外,而是被看做正常的现象。
② 按照传统的标准来看,文件非常巨大,数G的文件非常寻常。
③ 在Google大部分文件的修改,不是覆盖原有数据,而是在文件尾追加新数据。
④ 应用程序和文件系统API的协同设计提高了整个系统的灵活性。
(2) Memcached[10]是一个高性能的分布式的内存对象缓存系统,通过在内存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据,包括图像、视频、文件以及数据库检索的结果等。Memcached由Danga Interactive开发,用于提升LiveJournal.com访问速度的。LJ每秒动态页面访问量几千次,用户700万。Memcached将数据库负载大幅度降低,更好的分配资源,更快速访问。
(3)Hadoop[11]分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSI*约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
①
② Storage Nodes 实际文件存放的地方。
2、 本课题的主要研究内容(提纲)和成果形式分布式存储系统相关技术研究
第一章 绪论
第一节 课题研究的背景
第二节 主要研究内容
第二章 分布式系统关键技术
第一节 分布式系统模型简介
第二节 分布式系统基础算法
第三节 本章小结
第三章 HADOOP整体架构
第一节 HADOOP核心组件概述
第二节 HADOOP分布式文件系统(HDFS)
第三节 本章小结
第四章 数据存储及计算模型
第一节 需求分析
第二节 设计思想
第三节 功能模块
第四节 本章小结
第五章 数据及存储计算模型部署
第一节 方案部署
第二节 结果分析
第三节 测试的截屏
第四节 本章小结
第六章 结论
第一节 结论
第二节 展望
参考文献
致谢
附录
成果形式:整个系统,进行配置并测试;一篇完整的
论文3、 拟解决的关键问题:
一、 在实验室装好Hadoop系统
二、 用linu*进行配置
三、 对项目进行测试
四、 完成全部论文
5、研究思路、方法和步骤:
思路:通过了解项目的背景和技术背景,了解相关技术和各种算法,了解Hadoop的整体架构,分布式存储及其计算模型,对其模型进行部署,最后进行测试。
方法:一步一步来,从小处着手,先整体了解整个项目,然后再一个一个细节的去实现它。
步骤:
理解文 1、 件系统的理论知识;
(2) 熟悉现有几种主流分布式文件系统的构架 ……(未完,全文共4958字,当前仅显示2504字,请阅读下面提示信息。
收藏《论文开题:分布式存储系统相关技术的研究》)