首頁 大數據百科正文

一圖簡述大數據技術生態圈

  下面是一張生態圖,主要的組件都是為了方便大家從底層的MapReduce模型中脫離出來,用高層語言來做分布式計算,下文將分別為你作簡述。

一圖簡述大數據技術生態圈

  1、HBase

  是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化數據集群。像Facebook,都拿它做大型實時應用。

  2、Hive

  Facebook領導的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計。像一些data scientist 就可以直接查詢,不需要學習其他編程接口。

  3、Pig

  Yahoo開發的,并行地執行數據流處理的引擎,它包含了一種腳本語言,稱為Pig Latin,用來描述這些數據流。Pig Latin本身提供了許多傳統的數據操作,同時允許用戶自己開發一些自定義函數用來讀取、處理和寫數據。在LinkedIn也是大量使用。

  4、Cascading/Scalding

  Cascading是Twitter收購的一個公司技術,主要是提供數據管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作為MapReduce的編程接口放在Amazon的EMR運行。

  5、Zookeeper

  一個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現。

  6、Oozie

  一個基于工作流引擎的開源框架。由Cloudera公司貢獻給Apache的,它能夠提供對Hadoop MapReduce和Pig Jobs的任務調度與協調。

  7、Azkaban

  跟上面很像,Linkedin開源的面向Hadoop的開源工作流系統,提供了類似于cron 的管理任務。

  8、Tez

  Hortonworks主推的優化MapReduce執行引擎,與MapReduce相比較,Tez在性能方面更加出色。

  注:本文由ETHINK提供,作者:不可錯過的大數據,版權著作權屬原創者所有,編輯:Fynlch(王培),數據觀微信公眾號(ID:cbdioreview),欲了解更多大數據行業相關資訊,可搜索數據觀(中國大數據產業觀察網www.cskjbg.com)進入查看。

責任編輯:王培

分享:
延伸閱讀
    速讀區塊鏈
    貴州

    貴州大數據產業政策

    貴州大數據產業動態

    貴州大數據企業

    更多
    大數據概念_大數據分析_大數據應用_大數據百科專題
    企業
    更多
    987彩票 嘉兴 | 巴音郭楞 | 廊坊 | 禹州 | 基隆 | 石嘴山 | 咸阳 | 楚雄 | 张掖 | 三沙 | 平潭 | 汕头 | 乐平 | 霍邱 | 海丰 | 黄山 | 包头 | 西双版纳 | 瑞安 | 承德 | 西藏拉萨 | 营口 | 博罗 | 吉林长春 | 莱州 | 江苏苏州 | 南通 | 荆州 | 攀枝花 | 浙江杭州 | 武夷山 | 盘锦 | 石河子 | 肇庆 | 天水 | 廊坊 | 平顶山 | 驻马店 | 海南海口 | 淮安 | 连云港 | 单县 | 海门 | 鞍山 | 淄博 | 定西 | 沧州 | 大理 | 乐平 | 清徐 | 阳春 | 包头 | 济南 | 桓台 | 秦皇岛 | 贺州 | 扬州 | 神农架 | 锡林郭勒 | 安吉 | 和田 | 红河 | 台湾台湾 | 红河 | 澄迈 | 昌都 | 东方 | 陕西西安 | 海东 | 阳泉 | 阿里 | 杞县 | 鄂尔多斯 | 吴忠 | 宝鸡 | 临沂 | 大同 | 屯昌 | 自贡 | 晋江 | 兴化 | 黑龙江哈尔滨 | 三明 | 佳木斯 | 安康 | 黄南 | 贺州 | 漯河 | 张掖 | 通辽 | 简阳 | 馆陶 | 龙口 | 高雄 | 平凉 | 遵义 | 宁波 | 商洛 | 济源 | 四平 | 信阳 | 屯昌 | 阿克苏 | 博尔塔拉 | 武安 | 霍邱 | 神木 | 江苏苏州 | 汉川 | 商洛 | 蚌埠 | 定州 | 瓦房店 |