本文分為技術篇、產業篇、應用篇、展望篇四部分
技術篇

2006年項目成立的一開始,“Hadoop”這個單詞只代表了兩個組件——HDFS和MapReduce。到現在的10個年頭,這個單詞代表的是“核心”(即Core Hadoop項目)以及與之相關的一個不斷成長的生態系統。這個和Linux非常類似,都是由一個核心和一個生態系統組成。
現在Hadoop在一月發布了2.7.2的穩定版, 已經從 傳統的Hadoop三駕馬車HDFS,MapReduce和Hbase社區發展為60多個相關組件組成的龐大生態 ,其中包含在各大發行版中的組件就有25個以上,包括數據存儲、執行引擎、編程和數據訪問框架等。
Hadoop在2.0將資源管理從MapReduce中獨立出來變成通用框架后,就從1.0的三層結構演變為了現在的四層架構:
底層——存儲層,文件系統HDFS
中間層——資源及數據管理層,YARN以及Sentry等
上層——MapReduce、Impala、Spark等計算引擎
頂層——基于MapReduce、Spark等計算引擎的高級封裝及工具,如Hive、Pig、Mahout等等

存儲層
HDFS已經成為了大數據磁盤存儲的事實標準,用于海量日志類大文件的在線存儲。經過這些年的發展,HDFS的架構和功能基本固化,像HA、異構存儲、本地數據短路訪問等重要特性已經實現,在路線圖中除了Erasure Code已經沒什么讓人興奮的feature。
隨著HDFS越來越穩定,社區的活躍度也越來越低,同時HDFS的使用場景也變得成熟和固定,而上層會有越來越多的文件格式封裝:列式存儲的文件格式,如Parquent,很好的解決了現有BI類數據分析場景;以后還會出現新的存儲格式來適應更多的應用場景,如數組存儲來服務機器學習類應用等。未來HDFS會繼續擴展對于新興存儲介質和服務器架構的支持。
2015年Hbase 發布了1.0版本,這也代表著 Hbase 走向了穩定。最新Hbase新增特性包括:更加清晰的接口定義,多Region 副本以支持高可用讀,Family粒度的Flush以及RPC讀寫隊列分離等。未來Hbase不會再添加大的新功能,而將會更多的在穩定性和性能方面進化,尤其是大內存支持、內存GC效率等。
Kudu是Cloudera在2015年10月才對外公布的新的分布式存儲架構,與HDFS完全獨立。其實現參考了2012年Google發表的Spanner論文。鑒于Spanner在Google 內部的巨大成功,Kudu被譽為下一代分析平臺的重要組成,用于處理快速數據的查詢和分析,填補HDFS和Hbase之間的空白。其出現將進一步把Hadoop市場向傳統數據倉庫市場靠攏。
Apache Arrow項目為列式內存存儲的處理和交互提供了規范。目前來自Apache Hadoop社區的開發者們致力于將它制定為大數據系統項目的事實性標準。

Arrow項目受到了Cloudera、Databricks等多個大數據巨頭公司支持,很多committer同時也是其他明星大數據項目(如Hbase、Spark、Kudu等)的核心開發人員。再考慮到Tachyon等似乎還沒有找到太多實際接地氣的應用場景,Arrow的高調出場可能會成為未來新的內存分析文件接口標準。