简单的介绍一下大数据中最重要的MapReduce
概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。 Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。 使用 MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。 这两个函数的形参和返回值都是,使用的时候一定要注意构造。 ![]() 执行流程(此处举例说明)
1.获取每一个block块中的文本,遍历所有,回去其中的一行str 因为要统计的是每一个单词i的次数,所以还需要直到文本中有哪些单词,可以根据字符串的特点,使用split()进行切割。
根据要求,需将每一个单词i转换为的形式,k为单词本身,v为单词出现的次数。 2.因为mr的计算是分布式的 ,每一个map(称之为一个mapper task)计算其中的一个block块数据。
经过上述操作之后,系统会将计算结果输出给用户,一般会先存储(落地)到hdfs,然后反馈给用户。 到此为止,MapReduce执行完毕,接下来就可以进行大数据的其他一系列操作了。
(编辑:徐州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 联通大数据连斩两枚大数据“星河奖” 参与发布两本白皮书
- 为应对疫情,英国VR内容厂商Virti发布XR远程培训解决方案
- 电脑位数,教您怎么看电脑是32位还是64位
- 穿越NAT的迷雾:深入理解网络地址转换和NAT穿透,以及STUN、
- 数据中心营收首超游戏,英伟达该如何玩好下一局“游戏”?
- VR版《寂静岭》?漫画视觉恐怖游戏《Lies Beneath》正式发布
- HTC VIVE发布VIVE XR SUITE虚拟应用套装,把握“后常态”先
- 2020 Altair Enlighten Award 汽车轻量化奖项申报启动
- 培训和协作是当前企业应用VR/AR技术的两大重点领域
- 【Python爬虫+数据分析】2018年电影,你看了几部?