Hadoop在数据分析的几个例子-slp195-ChinaUnix博客

Hadoop的主要实用例子
【1】
加速ETL（提取-转换-加载）。不再是针对每个事物从多源系统中拉数据，而是由源系统将数据推至HDFS，ETL引擎来处理数据，然后保存处理结果。ETL流程可被写入 pig或Hive中。结果可以用Hadoop进行分析。经证实，使用Hadoop存储和处理结构化数据可以减少10倍成本，并可以提升4倍处理速度。比传统ETL更突出的是，Hadoop还可以用来收集内部系统（比如应用和web的日志）以及远程系统（在网络和全球上）的遥测数据。把精细的感应数据提供给公司的能力模型，预测网络和设备上可能发生的问题，并主动采取措施。Hadoop还可以作为集中式数据集集线器，执行从跨组织的数据集分析道预测分析任何工作。这些应用如今广泛的部署在生产环境中，为手机所有组织数据提供了可能性，很好的驱动的产业的发展。
【2】
Hadoop用于实时数据抽取（Flume），实时数据存储（HBase）和实时数据查询（Impala）
【3】
Nexflix 数据挖掘的架构
ETL过程是松耦合的，组合使用Hadoop和非Hadoop工具，跨越云和我们的数据中心。举个例子：我们需要在基于云的Hadoop数据仓库中使用Pig和Hive执行每日总结，并将结果加载到在数据中心的关系数据仓库中。这是很常用的大数据架构，用小得多的关系数据仓库来对上基于Hadoop的系统。前者提供实时性更强的互动查询和报表，而且与传统的BI工具整合更好。