阿洪之聲: MapReduce

2013年11月16日星期六

雲端運算平台—Hadoop

作者：周秉誼 / 臺灣大學計算機及資訊網路中心作業管理組碩士後研究人員

雲端運算是資料中心因應網路上資訊暴增而提出的服務及管理思維，資訊服務提供者投入資源進行雲端運算的服務及架構開發，Google可說是最大量使用雲端運算的組織之一。Hadoop就是由Google雲端架構得到啟發而開始的開放原始碼計劃，目前有許多組織參與Hadoop的研究開發，並以Hadoop做為雲端運算的平台。

前言隨著網際網路 (Internet) 的發展，及web2.0概念被提出，網路使用者的行為也由單純的瀏覽轉變為創作與分享；另外，行動式的資訊設備也越來越多，為了方便分享及取用，使用者們把資料從個人的電腦中轉移到web服務提供者的資料中心 (Data Center)；而服務提供者為了提供更穩定更迅速的服務，也需要一個新的服務架構，將運算資源及儲存空間更有效率的利用，同時提供服務開發人員更便利的開發環境。

雲端運算 (Cloud Computing) 就是將前述所有的需求整合在一起的概念，一個面向是讓使用者以更加便利的方式使用及取得服務，甚至用最簡單的方式開發新的服務。隨著各種雲端服務產生，對於運算能力及儲存空間的需求，也會驚人地成長，因此雲端運算的另一個面向就是整合組織內部運算資源，以最有效率、最易於管理的方式，提供雲端服務穩定的運算及儲存能量。
以Google為例，許多服務都以雲端運算的形式推出，讓使用者隨時可以取得自己的資料，也能夠透過網路跟其他人分享；還提供了相當便利的開發環境，如 Google App. Engine提供了介面和免費的運算及儲存資源，讓使用者開發各種有趣的web服務。但這些服務需要十分可觀的運算能力和使用者資料的儲存空間，因此，Google開發了許多雲端運算的技術與架構，如MapReduce以分散式運算提供整合的運算資源及減少運算時間、Google File System將大量而分散的儲存空間整合為一個可靠的儲存媒介、BigTable提供高效率的分散式資料庫。這些技術及架構都有一個特點，就是讓服務開發人員不用考慮在這些分散式系統上資料要怎麼放置、運算要怎麼切割，只需要專注在服務的開發就可以了，而資料與運算的切割及分散就交給雲端運算的架構來處理，可說是大大增加了開發服務的速度。

Hadoop計劃Hadoop是Apache軟體基金會 (Apache Software Foundation) 底下的開放原始碼計劃 (Open source project)，最初是做為Nutch這個開放原始碼的搜尋引擎的一部份。Hadoop是以java寫成，可以提供大量資料的分散式運算環境，而且Hadoop的架構是由Google發表的BigTable及Google File System等文章提出的概念實做而成，所以跟Google內部使用的雲端運算架構相似。目前Yahoo!及Cloudera等公司都有開發人員投入Hadoop的開發團隊，也有將近一百個公司或組織公開表示使用Hadoop做為雲端運算平台，Google及IBM也使用Hadoop平台為教育合作環境。
Hadoop中包括許多子計劃，其中Hadoop MapReduce如同Google MapReduce，提供分散式運算環境、Hadoop Distributed File System如同Google File System，提供大量儲存空間、HBase是一個類似 BigTable 的分散式資料庫 (見表一)，還有其他部份可用來將這三個主要部份連結在一起，方便提供整合的雲端服務。

MapReduceMapReduce是一個分散式程式框架，讓服務開發者可以很簡單的撰寫程式，利用大量的運算資源，加速處理龐大的資料量，一個MapReduce的運算工作可以分成兩個部份—Map和Reduce，大量的資料在運算開始的時候，會被系統轉換成一組組 (key, value) 的序對並自動切割成許多部份，分別傳給不同的Mapper來處理，Mapper處理完成後也要將運算結果整理成一組組 (key, value) 的序對，再傳給Reducer整合所有Mapper的結果，最後才能將整體的結果輸出 (見圖一)。

再更仔細地介紹流程中每一步的細節，一開始需要建立一個JobConf類別的物件，用來設定運算工作的內容，如 setMapperClass/setReducerClass設定 Mapper及Reducer 的類別，setInputFormat/setOutputFormat 設定輸出輸入資料的格式， setOutputKeyClass / setOutputValueClass 設定輸出資料的類型，設定完成後，依設定內容提交運算工作。資料來源會依InputFormat的設定取得，並分割轉換為一組組的 (key, value) 序對，交由不同的Mapper同時進行運算，Mapper要將運算的結果輸出為一組組(key, value) 序對，也稱為中介資料 (intermediate)，系統會將這些暫時的結果排序 (sort) 並暫存起來，等到所有Mapper的運算工作結束之後，依照不同的key值傳送給不同的Reducer彙整，所有同一key值的中介資料的value值，會放在一個容器 (container) 裡傳給同一個Reducer處理，所以在Reducer中可以利用values.next()依序取得不同value值，快速地完成結果整理，再依OutputFormat的設定輸出為檔案。
進行運算的Mapper和Reducer會由系統會自動指派不同的運算節點擔任，所以程式設計時完全不用做資料和運算的切割 (decomposition)，運算資源會由JobTracker分配到各個運算節點上的TaskTracker，並指派不同的節點擔任Mapper和Reducer。

HDFSHadoop Distributed File System (HDFS) 將分散的儲存資源整合成一個具容錯能力、高效率且超大容量的儲存環境，在Hadoop系統中大量的資料和運算時產生的暫存檔案，都是存放在這個分散式的檔案系統上。
HDFS是master/slave架構，由兩種角色組成，Name node及data nodes，Name node負責檔案系統中各個檔案屬性權限等資訊 (metadata, namespace) 的管理及儲存；而data node通常由數以百計的節點擔任，一個資料檔會被切割成數個較小的區塊 (block) 儲存在不同的data node上，每一個區塊還會有數份副本 (replica) 存放在不同節點，這樣當其中一個節點損壞時，檔案系統中的資料還能保存無缺，因此name node還需要紀錄每一份檔案存放的位置，當有存取檔案的需求時，協調data node負責回應；而有節點損壞時，name node也會自動進行資料的搬遷和複製。
HDFS雖然沒有整合進Linux kernel，只能透過Hadoop的dfs shell進行檔案操作，或使用FUSE成為User space下的檔案系統，但Hadoop下的系統都與HDFS整合，做為資料儲存備份及分享的媒介。如前面提到的MapReduce在系統分配運算工作時，會將運算工作分配到存放有運算資料的節點上進行，減少大量資料透過網路傳輸的時間。

HBaseHBase是架構在HDFS上的分散式資料庫，與一般關聯式資料庫 (relational database) 不同。HBase使用列 (row) 和行 (column) 為索引存取資料值，因此查詢的時候比較像在使用map容器 (container)；HBase的另一個特點是每一筆資料都有一個時間戳記 (timestamp)，因此同一個欄位可依不同時間存在多筆資料。
一個HBase的資料表 (table) 是由許多row及數個column family組成，每個列都有一個row key做為索引；一個column family就是一個column label的集合 (set)，裡面可有很多組label，這些label可以視需要隨時新增，而不用重新設定整個資料表 (見表二)。在存取資料表的時候，通常就使用 (‘row key’, ‘family:label’) 或 (‘row key’, ‘family:label’, ‘timestamp’) 的組合取出需要的欄位。

HBase為了方便分散資料和運算工作，又將整個資料表分為許多region，一個region是由一到數個列所組成的，可以分別存放在不同HBase主機上，這些存放region的主機就是region server，另外還有master server用來紀錄每一個region對應的region server；master server也會自動將不能提供服務的region server上的region重新分配到其他的region server上。
HBase也可供MapReduce的程式當作資料來源或儲存媒介，在HBase 0.20版之後提供了TableMapper及TableReducer的類別讓程式中的Mapper及Reducer類別繼承，可以把MapReuce中的 (key, value) 更方便地從HBase中取出和存入。

Web InterfaceMapReduce的JobTracker、HDFS、及HBase都有各自的web監控介面，可以及時觀察目前每個運算工作的運作情況、檔案系統的容量、及資料表和region的使用情況, 讓系統管理者輕鬆地監控大量資源 (見圖二、圖三、圖四)。

結論Hadoop是目前最常見且實際運用在大規模商業環境上的雲端運算平台之一，強大而完整的基礎架構可以減少大量的雲端架構開發的時間，大量部署時也相當迅速，不但有許多重量級的雲端運算服務提供者正在使用及投入開發，也與Google的雲端環境相似，使Hadoop成為教育訓練、學術研究及雲端服務開發的最佳平台。
雖然有Hadoop這麼便利的雲端運算環境，又有成功的雲端服務可以參考，然而在組織內部導入雲端運算的架構及文化時，仍需做好充分的規劃及時程表，不然將會影響原有服務的穩定及品質，不但不能享受雲端運算帶來的便利，反而徒然增加管理及營運成本，使雲端運算淪為失敗的行銷名詞。

Pages

阿洪之聲

Ads 468x60px

Labels

Popular Posts

推薦網站

2013年11月16日星期六

雲端運算平台—Hadoop

Blog Archive

標籤

總網頁瀏覽量

Pages

阿洪之聲

Ads 468x60px

Labels

Popular Posts

推薦網站

2013年11月16日 星期六

雲端運算平台—Hadoop

Blog Archive

標籤

總網頁瀏覽量

2013年11月16日星期六