目录/提纲:……
一、项目工作背景
二、如何设计数据库存储用户的行为,存储什么样的行为
1、首先是到数据库里面索引相关的信息,这就是查询处理
二、系统开发平台要求和设置、项目开发进度计划
三、系统概要设计
四、各模块需要解决关键问题及系统测试
1、用户表:保存用户相关数据
2、分类表:保存用户分类信息
3、用户分词词表:保存用户关键字
4、公共分词词表:保存公共关键字
5、分词关系表:保存各分词之间的关系值
6、热点推荐表:保存系统产生的推荐热点信息
2、性能测试测试大规模数据系统的数据库运行的效率
五、主要参考文献
……
基于领域知识的数据库存储设计与实现
08信息与计算科学
一、 项目工作背景
互联网数据量的增长一直保持着近乎几何级数的增长,我们无法试图提供给用户一个包含互联网全部数据的搜索引擎,而且搜索引擎的数据查全率越来越低。单一的搜索引擎无法提供一个完美的解决方案。并且,人们试图在巨大的数据中挖掘自己感兴趣的内容,而传统的逛大街的方式很浪费人们的时间。我们试图利用现有的搜索引擎检索用户可能感兴趣的内容,并且在用户使用时推送给用户。这就是我们尝试做的基于知识领域的数据挖掘。
基于知识领域的数据挖掘并不是独立的搜索引擎,而是利用现有的搜索引擎技术获取用户感兴趣的内容,构建一个能够包含互联网全部网页数据的数据库是不现实且不实用的方式,这样我们可以避免构建一个庞大的互联网页面数据的数据库。
领域知识的数据库存储设计与实现涉及的主要问题是:
一、为知识领域数据库的初始化专家数据,因为一个精确的初始化的知
……(新文秘网https://www.wm114.cn省略648字,正式会员可完整阅读)……
2、Informi*、SQL Server这些大型的数据库管理系统,还是像Visual Fo*pro、PowerBuilder这些PC上常用的数据库开发系统,都支持SQL语言作为查询语言。
分词技术:尽管这个项目并不做独立的搜索引擎,只需要调用各个搜索引擎就可以了,但是因为需要对用户的行为和偏好词进行分类,我们仍然需要对文本篇章进行分词处理。分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。
1.首先是到数据库里面索引相关的信息,这就是查询处理。那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。举个例子。“GOOGLE收购android手机操作系统” 。人工进行分词,我们就会把这个词分割成“GOOGLE”、“收购”、“android”、“进军”、“手机操作系统”
2.然后再看用户提供的这个词有没有重复词汇如果有的话,会丢弃掉,默认为一个词汇。
3.去掉无意词干扰词,中文分词中有许多词是不能够区分文本和分词的分类的。例如“我”,这个字在大部分中文网页中都可能会出现,但是又没有任何区分度,即不能够区分出任何两篇文章的区别来。例如:文章A是关于NBA的文章,里面出现了“我”;另外一篇关于IT的文章B也出现了“我”,相对于其他有意义的分词来说,“我”这样的词是不能够区分出两篇文章的区别的。
二、系统开发平台要求和设置、项目开发进度计划
硬件环境
安装有windows7或者以上兼容版本的计算机,不满足以下硬件要求的计算机理论上也可以运行项目,但是我们不能保证运行结果的性能与实验得到的一致。
CPU:Intel Core2 Duo CPU T5800及以上版本。
硬盘:160G或更多。推荐使用320G及以上容量。
内存:2G或更高
软件环境
操作系统 Windows 7
网络协议 TCP/IP
Web服务器 Internet Information Server 5.0 / Personal Web Server
数据库 MSSQL2008
浏览器 IE9.0、FireFo*10.0
项目开发进度计划:(加上时间安排)
1) 熟悉SQL存储过程,了解MSSQL查询优化,了解MSSQL大规模查询优化。
2) 对文本篇章分析系统的各个流程及模块的分析;
3) 完成数据库的设计。
4) 完成初始化的领域专家数据库。
5) 整合整个项目。
6) 书写项目报告。
三、系统概要设计
3.1基本功能需求
1、 基本关系:
2、 基本表
Create database songCarrot;
use songcarrot;
create table t_User(
uID int primary key identity(0,1),
uName varchar(10) not null,
uEmail varchar(20) null,
uMobile varchar(13) null, ……(未完,全文共5184字,当前仅显示1821字,请阅读下面提示信息。
收藏《论文开题报告:基于领域知识的数据库存储设计与实现》)