Hadoop、HDFS 、HBase介绍

Apr 3, 2018 | 大数据 | 707 字 | 2 分钟

文章目录

1. Hadoop
2. HDFS
3. HBase

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。Hadoop的框架最核心的设计就是：HDFS和MapReduce。

HDFS为海量的数据提供了存储
MapReduce为海量的数据提供了计算

HDFS

Hadoop Distributed File System（HDFS）Hadoop分布式文件系统

分布式文件系统比较出名的有 HDFS 和 GFS。

HDFS 被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。

HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。
而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。
HDFS放宽了（relax）POSIX的要求（requirements）这样可以实现流的形式访问（streaming access）文件系统中的数据。
HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

HBase

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统（数据库），利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase是Apache的Hadoop项目的子项目。

与FUJITSU Cliq等商用大数据产品不同，HBase是Google Bigtable的开源实现。

类似Google Bigtable利用GFS（Google File System）作为其文件存储系统，HBase利用HDFS（Hadoop Distributed File System）作为其文件存储系统；
Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；
Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

上图描述Hadoop EcoSystem中的各层系统。其中,HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。

此外，Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。

本文作者：一只小包子
本文链接：http://katherineleeyq.cn/2018/04/03/Hadoop、HBase、HDFS介绍/
版权声明：本博客所有文章除特别声明外，均采用 CC BY-NC-SA 3.0 CN 许可协议。转载请注明出处！