上QQ阅读APP看书,第一时间看更新
第 2 章 HDFS
HDFS是目前使用最多的分布式文件系统。各种大数据统计分析工具使用的底层数据大多数来源于HDFS,因此在工作中不仅要会用它,还要了解它内部的一些原理。本章主要介绍HDFS,深入剖析其常用功能的原理,并介绍一些新特性。
本章的重点在前5节,其中2.1节介绍HDFS的一些基础知识;2.2节介绍与NameNode的元数据及内存结构相关的内容,为NameNode的优化和管理提供知识储备;2.3节介绍HDFS HA的原理,2.4节介绍HDFS的Federation,这两节解决了在生产环境中遇到的单点问题和集群横向扩展问题;2.5节介绍纠删码副本策略,2.6节介绍下一代对象存储系统Ozone,这两节可为集群后续的发展和优化提供一些方向。