Pages

Subscribe:

Ads 468x60px

Labels

2013年12月1日 星期日

中華電信用Hadoop技術分析通話明細

中華電信利用自行開發的Hadoop大資料運算平臺,找出非結構化資料中的結構性,精簡資料後再置於資料倉儲運算,節省儲存空間
面對資料快速成長以及非結構性資料的增加,中華電信資訊處第四科科長楊秀一表示,中華電信近來利用Hadoop雲端運算技術自行開發了一個專門用來分析非結構化資料的巨量資料(Big Data)運算平臺,嘗試在資料進到資料倉儲系統之前,先進行資料的分析與處理以減少資料倉儲的資料量。

近年來行動語音市場趨於飽和,為了掌握用戶特性進行客製化行銷,一份資料要進行分析,就會被多次複製,因此即使用戶增加趨緩,但中華電信擁有的資料量仍快速暴增。

中華電信用來分析的資料模型最早於10多年前已有雛形,但當初主要用於行動語音分析。一直到2009年,他們完整導入Teradata的電信業邏輯資料模型cLDM 9.0版,整合更多電信服務的用戶資料。楊秀一表示,當初導入該模型的目的主要是為了整合行動語音、固網、數據的資料,進行以人為中心的分析模式。在導入之前,中華電信的資料模型是以設備為中心,因為不同設備的記錄資料儲存在不同的資料庫,無法進行整合性的分析。

舉例來說,同一個顧客在中華電信申辦了行動電話、家用電話以及固網服務,過去沒有整合前,中華電信只能分析單一設備的使用行為,而無法全面性分析單一顧客在不同設備上的使用狀況。

中華電信解決了資料整合分析的問題後,出現了另一個難題,就是蒐集的資料數量越來越多。比如說近年使用者大量利用行動裝置上網,這些上網行為,如網頁瀏覽、登入都會產生一些可分析的資料。於是,中華電信面臨了大量資料需要分析的挑戰。

楊秀一表示,目前中華電信每個月保留的資料記錄約為3~4TB的資料量,若要分析這些原始資料,過程中系統要處理的資料量還要再增加2倍以上,但中華電信現有資料倉儲設備僅能保存6~9個月的通話明細資料量,其餘就必須移到2線設備儲存,也讓資料分散不易整體分析。

精簡資料就先從結構化非結構化資料開始

中華電信資訊處第四科科長楊秀一表示,先透過Hadoop技術的大資料運算平臺精簡非結構化資料,找出結構化的部份後,再放入資料庫進行分析,可減少資料庫的I/O負擔。

楊秀一認為,分析非結構化資料最大的挑戰是沒有便宜的儲存方法,資料倉儲的容量價格高,大量資料的處理成本昂貴,所以必須先將非結構化的資料轉化成真正有分析價值的結構化資料,減少必須儲存在資料倉儲中的資料,建立分析平臺就能夠擴充儲存能量。

所以,中華電信運用了開源雲端運算技術Hadoop技術來建置大資料運算平臺,主要分析的非結構性資料為通話明細與網頁點擊率分析。藉由這個平臺可以儲存資料,並且找到資料的關聯性後,再由資料庫進行分析。

楊秀一表示,通話明細或是網頁點擊率雖不一定是非結構化資料,但是這些資料的結構是變動的,只要能夠找出固定特徵,就能夠放進可對應的資料庫欄位進行分析。

舉例來說,同樣打一通5分鐘的電話,每一通經過的基地臺數量與路徑完全不同,導致每一筆資料的長度並不一樣。因此,在處理資料時,先訂出可讓資料長度相同的規則,就能將相同長度的資料放在同一個欄位,進行結構化的分析。

楊秀一表示,將資料在進入資料倉儲之前就先放進另一個平臺分析,而不是將所有資料放進資料庫後,再將資料取出分析,可以減少一次資料庫的I/O負擔。

中華電信建置的大資料運算平臺目前仍在測試階段,楊秀一表示,未來希望透過該平臺精簡資料量,讓線上保存的資料增至12~27個月的通話明細,達到擴充容量的目的。文⊙辜雅蕾

資料來源

沒有留言:

張貼留言