大數據技術實施與應用

2014-04-17 14:35:09 比特網　點擊量：評論 (0)

在發(fā)展歷程上，大數據與云計算很類似，開始都搞不清是什么概念，但有很多人在說，難免南轅北轍。一個非常有趣現(xiàn)象：會有很多人說大數據不是什么，但很少有人說是什么。但這都不妨礙大數據成為產業(yè)發(fā)展趨勢?！?

在發(fā)展歷程上，大數據與云計算很類似，開始都搞不清是什么概念，但有很多人在說，難免南轅北轍。一個非常有趣現(xiàn)象：會有很多人說大數據不是什么，但很少有人說是什么。但這都不妨礙大數據成為產業(yè)發(fā)展趨勢。

　　當務之急是不糾纏于概念，直接關注有哪些應用可以落地，可以采用哪些大數據技術。

　　技術三分天下

　　傳統(tǒng)數據處理技術以數據庫技術為主，主要應用在聯(lián)機事物處理(OLTP)的應用場合，后來的數據倉庫、數據集市都是數據庫技術的發(fā)展和延伸。數據庫技術已經有30年的歷史，可以將其概括為一句話“一種架構支持所有應用”。數據庫技術以結構化數據為主，而結構化數據也是價值密度最高的數據。而半結構化數據、非結構化數據價值密度相對比較低，如果采用傳統(tǒng)數據庫技術處理這些數據，會被認為得不償失。

　　大數據時代，以Hadoop為代表的NoSQL技術，以列式數據處理為代表的MPP NewSQL技術應運而生，為半結構化數據、非結構化數據提供了技術支撐基礎，以互聯(lián)網企業(yè)為代表，創(chuàng)造了各種新的商業(yè)模式，也開啟了大數據應用的時代。

　　在大數據時代，對于分析類應用的需求不斷增加，特別對于傳統(tǒng)行業(yè)/企業(yè)，大數據分析需求首先包括結構化數據，這已經分析了30多年，如今結構化數據分析需要與各種半結構化數據、非結構化數據分析相結合，用全數據的視野，指導行業(yè)/企業(yè)的業(yè)務應用和實踐。這就導致一種架構難以完全滿足大數據的需求，“多種架構支持多類應用”就成為了大數據處理應用的基本思路，出現(xiàn)了OldSQL、NewSQL和NoSQL三分天下的市場格局。

　　傳統(tǒng)OldSQL數據庫以Oracle、IBM DB2、Sybase等為主，NewSQL以EMC Greenplum、HP Vertica、SAPSybaseIQ、Teradata、IBM Netezza、微軟PDW以及南大通用的Gbase 8a 為主;而NoSQL包括Cassandra、Mon goDB、CouchDB、Redis、Riak和Hbase等，豐富的產品技術為用戶提供了豐富的選擇。

　　混搭不可避免

　　大數據應用采用多種架構支撐不可避免。據中國移動業(yè)務支撐系統(tǒng)部高級工程師何鴻凌介紹，中國移動就采用了MPP和Hadoop混搭架構，配合原有數據倉系統(tǒng)，開展大數據的應用。其中，傳統(tǒng)DW(數據倉庫)做高價值數據，也就是結構化數據的加工，MPP做長期結構化數據的存儲和自助分析，Hadoop用于非結構化數據處理、挖掘和歷史存儲。

　　何鴻凌表示，MPP是將傳統(tǒng)分布式數據庫的理論運行在X86上的實踐，用列存、內存和副本等進行了優(yōu)化。MPP基本可以替代傳統(tǒng)DW，但在大數據時代，還是有挑戰(zhàn)。那就是由于它精確地進行數據分布的原因，可擴展性和高可用比較難以達到。按照CAP理論，一種系統(tǒng)不可能什么都追求。因此國內較大的MPP集群也就幾十個節(jié)點，國際上可以看到100～200節(jié)點的集群。根據中國移動數據處理得需求，起碼也需要300～400個節(jié)點。

　　“大數據主要是要應用，而現(xiàn)在很多的應用都不是由IT開發(fā)的，是自助的，這就需要MPP中要提供沙盒，讓業(yè)務部門或第三方能自助地分析和開發(fā)。我們當然不希望每個沙盒都是物理的MPP集群，這樣不僅安裝維護復雜，而且會造成數據重復。所以我們希望的是讓MPP的能力像云計算那樣對外提供按需服務，實現(xiàn)虛擬化。”他說。

　　談到Hadoop，中國移動認為Hbase和HDFS很好，但Map/Reduce使用起來需要一些技術能力，Hadoop 2.0中Map/Reduce已經不再是唯一的執(zhí)行框架，而縮減為Yarn框架下的一個應用了。對于Hadooperyan，其優(yōu)勢在于數據處理的成本，較之數據倉庫內廉價很多，但在效率上還有差距，這是其數據分布策略所造成所的，這也是為什么中國移動還要選擇MPP進行混搭因。

　　Hadoop技術難點主要是在Map/Reduce、各個作業(yè)之間都需要落地到HDFS上，這個效率會很差，而且沒有全局優(yōu)化。Spark解決了這些問題，包括用內存緩存、流水線和全局優(yōu)化，因此中國移動用Spark作為處理引擎。據了解，中國移動準備將長期數據放到Hadoop上做自助查詢，既能縮小MPP的規(guī)模，也能降低成本，當然這樣的查詢效率就不如在MPP上了。

　　大數據應用落地情況

　　混搭也好，多種模式也好，運用這些框架和技術手段的大數據應用，究竟會對現(xiàn)有模式產生哪些影響呢？大數據應用又是怎么樣落地接地氣的呢？也許中國移動的大數據應用實踐會給我們一些啟示。

總結來看，中國移動大數據應用有三個方面：一是讓中國移動現(xiàn)有商業(yè)模式更加有競爭力;二是發(fā)掘新的商業(yè)模式，讓別的行