本文包括五章的内容:
第一章绪论。本章主要介绍论文的研究背景及意义,介绍了大数据的背景及大数据时代云计算的发展状况,提出了本文研究的主要内容。
第二章开源云平台Hadoop及数据挖掘概述。本章首先介绍Hadoop生态系统的组成,对Hadoop的核心技术架构HDFS、 MapReduce和HBase的体系及其相关特性进行深入的讨论分析。阐释什么是数据挖掘,包括其中的分类及聚类的概念及主要算法。
第三章基于Hadoop的数据挖掘系统的设计。本章通过搭建Hadoop平台,构建试验环境,并对集群进行了稳定性测试,为今后的实验打下基础。
第四章Naive Bayes分类算法的研究与优化。本章介绍了在Hadoop平台上的分类算法的执行过程,并详细描述了Naive Bayes分类算法的特性,及其相应的并行策略,并成功地将其移植到Hadoop平台,之后就算法优化的对比结论展开分析。
第五章K-Means聚类算法的研究与优化。本章介绍了在Hadoop平台上聚类算法的执行过程,并以K-Means算法为例,详细地解读了聚类算法的设计及实现,其中介绍了K-Means算法的特性及其并行策略,并成功地将其移植到Hadoop并行计算平台,之后就算法优化的对比结论展开分析。

2    Hadoop及数据挖掘概述
2.1    Hadoop云计算平台
2.1.1    Hadoop生态圈架构
在2005年夏天,Jeffrey Dean和Sanjay Ghemawat提出了MapReduce的框架模型,意着Google的大型数据处理系统的正式公开。当年秋天,在这篇论文的启发下,Hadoop作为lucence子项目Nutch的一个部分被Apache正式引入。
Hadoop是非常优秀的大数据解决方案,它可以对PB尺度下的散乱信息进行处理和分析,可以被开发者利用多种工具达成很多目的,例如数据挖掘。Hadoop依托Google公司的的MapReduce和分布式文件系统技术,可配置在随处可见的普通的小型计算机以及服务器上。即使是没有经验的用户也可以很方便的在Hadoop上使用其提供的分布式编程来处理大量的数据,在有需要的时候还可以方便的对载体硬件实施升级工作。还可以处于无人值守时处理多种故障,包含的工具能进行排错、修复,适用性大大增加。
这些解决方案都是针对巨额数据的,花样繁多,我们可以用盆洗脸用盆刷牙,用导弹发射卫星用导弹点烟,各有各的用途和使用环境,寻找到合适的才是最重要的。
上一篇:基于云平台的web日志挖掘与研究
下一篇:vb+sqlserver家庭理财软件设计与实现

《信息技术课程标准》微课的设计与制作

《读书交流分享》APP的设计与开发

《信息技术课程标准》系列微课的设计与制作

《大学生课堂教学管理与...

教育技术学专业技能学习网站的设计

基于Android的电子拍卖系统设计与开发

基于Web应用的致胜公司企业内部培训系统设计

日语论文中日酒文化对比研究

新疆农林高校學生昆虫生...

个案管理茬老年糖尿病患...

发酵米粉优势菌株的发酵特性研究

浅谈农村大气环境保护的制度构建【1868字】

2021年什么行业赚钱,适合...

激光模拟训练器材国内外研究现状

肢体语言在小学英语教学中的应用浅谈

淮安市高校足球运动损伤问卷调查表

大淘宝网的虚假交易研究