MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – 介绍 MapReduce 是一种编程模型,用于编写可以在多个节点上并行处理大数据的应用程序。MapReduce 提供用于分析大量复杂数据的分析功能。 什么是大数据? 大数据是无法使用传统计算技术处理的大型数据集的集合。例如,Facebook 或 Youtube 需要它每天收集和管理的数据量,就属于大数据的范畴。然而,大数据不仅仅是关于规模和数量,它还涉及以下一个或多个方面——速度、多样性、数量和复杂性。 为什么是 MapReduce? 传统的企业系统通常有一个集中式服务器来存储和处理数据。下图描绘了传统企业系统的示意图。传统模型当然不适合处理海量的可扩展数据,标准数据库服务器也无法容纳。此外,集中式系统在同时处理多个文件时会产生太多的瓶颈。 Google 使用一种称为 MapReduce 的算法解决了这个瓶颈问题。MapReduce 将一个任务分成小部分,并将它们分配给多台计算机。之后,将结果集中在一处,并进行整合,形成结果数据集。 MapReduce 是如何工作的? MapReduce 算法包含两个重要的任务,即 Map 和 ..