博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop mapreduce 浑身都是芝士点
阅读量:4501 次
发布时间:2019-06-08

本文共 982 字,大约阅读时间需要 3 分钟。

一 使用mapreduce实现分布式计算

1.什么事mapreduce?

源于google 的mapreduce 论文发表 Hadoop mapreduce 是Google mapreduce 的克隆版。

优点 易于编程

  内部负责的操作,都是由框架本身去完成的,留给我们开发的内容少之又少(逻辑)

2.良好的扩展性:

 

 随着我们业务或者需求的增加,集群的存储能力或者计算能力,又可能下降,这样我们可以通过增加集群的节点来解决

 

 

JobTracker:工作跟踪者

 

管理所有的作业job,存储在master节点上

 

将作业分解成一系列的任务

 

将任务指派给TaskTracker

 

作业/任务监控,错误处理等

 

TaskTracker

存在slave节点上

运行Map TaskReduce Task

JobTracker交互,执行命令,汇报任务状态(心跳)

 

 

mapreduce 编程模型

input就是我们需要计算的海量数据文件

Splitting,就是把数据分割成一片一片的数据

mapping:就是计算每片数据的文件

Combiner:Combinder 对一个输出作用就是在map端做一次合并,减少本地磁盘10

Final result: 把最终的结果输出到HDFS文件系统中

Reducing:把Shuffing的数据进行汇总

思想就是分而治之

MapReduce的思想就是“分而治之

 

 

***********map 

就是“分”将复杂的数据分解成若干个,“简单的任务去执行”

可以并行计算,彼此之间没有依赖关系

reducer 就是负责对“合”汇总

reducer的数目是由mapred-site.xml配置文件中的mapred.reduce.tasks决定的)所以这些都是mapreduce机制帮我们做出来的 计算

 

.WordCount案例解析

 

Hadoop数据类型:

IntWritable hadoop中的基本数据类型!整型数!

LongWritable:长整型数

FloatWritable:浮点数

DoubleWritable:双字节数

ByteWritable:单字节,对应byte类型

BytesWritable:字节数组,对应byte[]

 

转载于:https://www.cnblogs.com/hualishu/p/10147884.html

你可能感兴趣的文章
关于求最大公约数
查看>>
Git常用命令学习总结
查看>>
【转载】C#通过Rows.Count属性获取总行数
查看>>
【转载】通过百度站长平台查看网站搜索流量及关键字
查看>>
【转载】Visual Studio2017如何打包发布Winform窗体程序
查看>>
【转载】通过搜狗站长平台手动向搜狗搜索提交死链
查看>>
【转载】通过搜狗站长平台手动向搜狗搜索提交文章加快收录
查看>>
【转载】通过百度站长平台提交网站死链
查看>>
【转载】通过搜狗站长平台提交网站域名变更后的文章地址
查看>>
【转载】Visual Studio2017中如何设置解决方案中的某个项目为启动项目
查看>>
Axios跨域实例
查看>>
ubuntu下安装pyaudio
查看>>
单片机 电子电路 嵌入式 毕设 课设 私活 代做
查看>>
notepad++ 安装 hex_editor 十六进制查看插件
查看>>
正则表达式
查看>>
Date类
查看>>
基本类型的数值转换
查看>>
集合、泛型、增强for
查看>>
Public Key Retrieval is not allowed错误
查看>>
Unable to load authentication plugin 'caching_sha2_password'.错误
查看>>