四層面擴展PB級數(shù)據(jù)倉庫
隨著PB級大小的數(shù)據(jù)庫即將來臨,企業(yè)的CIO也許會問自己:“要如何應(yīng)用1024TB或者1PB 的數(shù)據(jù)?PB級的數(shù)據(jù)倉庫真的具有投資的價值嗎?”數(shù)據(jù)倉庫的成功設(shè)計與部署關(guān)鍵在于其可擴展性,可擴展性是企業(yè)運用詳細且實時的商業(yè)智能制定有效決策并創(chuàng)造價值的關(guān)鍵指標(biāo)。
今天,企業(yè)競爭優(yōu)勢并不在于價格或產(chǎn)品的差異,而在于企業(yè)必須比競爭對手掌握更詳細的客戶與潛在客戶的信息。要讓潛在客戶變成忠實顧客,關(guān)鍵在于必須在適當(dāng)?shù)臅r間,向客戶提供適當(dāng)?shù)漠a(chǎn)品、服務(wù)與信息。要做到這點,企業(yè)必須先收集足夠且詳細的客戶信息,找出重要的模式,并且有適當(dāng)?shù)南到y(tǒng)將信息統(tǒng)一存儲,以供日后實時運用。
數(shù)據(jù)倉庫讓企業(yè)有能力收集大量且詳細的資料(目前已經(jīng)是數(shù)百個TB,PB也指日可待),并讓企業(yè)能在幾秒內(nèi)就完成部署。要能快速搜尋并部署如此大量的數(shù)據(jù),系統(tǒng)的可擴展性是重要的條件。
可擴展性是在硬件配置上增加額外的處理能力,并在性能上呈線性的提升。換個角度來看,就是在不影響性能的前提下,提升硬件存儲與處理大量數(shù)據(jù)的能力(或是處理日漸復(fù)雜的查詢及日漸增加的多筆并發(fā)查詢)。不良的設(shè)計或產(chǎn)品部署只會導(dǎo)致相反的結(jié)果,造成性能降低的速度快于數(shù)據(jù)量增加速度。
像SBC電信等公司的數(shù)據(jù)倉庫系統(tǒng)運用了數(shù)百個頂級的英特爾處理器,數(shù)百個GB容量的可尋址內(nèi)存以及數(shù)百個TB磁盤空間,來支持一個單一的數(shù)據(jù)庫。像這樣系統(tǒng)的設(shè)計與部署應(yīng)該包含哪些成功因素呢?真正的可擴展性應(yīng)該包含以下四個層面:
第一層面:處理大量的數(shù)據(jù)
企業(yè)每日運營會產(chǎn)生大量的數(shù)據(jù),而這些數(shù)據(jù)可用來支持重要的商業(yè)應(yīng)用與決策制定。除此之外,數(shù)據(jù)庫每MB的成本也不斷降低。然而,問題依然存在:這么多的數(shù)據(jù)真的能增加企業(yè)價值,證明數(shù)據(jù)存儲真的值得投資嗎?
答案是肯定的!但前提是企業(yè)必須能有效地應(yīng)用所存儲的詳細數(shù)據(jù),從中找到策略與戰(zhàn)術(shù)商務(wù)查詢的答案?,F(xiàn)在假設(shè)有家跨國銀行要評定特定重要客戶的終生價值,如果這家銀行的數(shù)據(jù)庫仍然是用串行的數(shù)據(jù)處理方式,執(zhí)行這樣的查詢會拖垮整個系統(tǒng)。相反的,如果使用分治法(divide and conquer approach)來處理大量數(shù)據(jù),通過并行技術(shù)的部署以及非共享架構(gòu),則能夠快速且更可靠地找到重要商務(wù)問題的答案。這就是可量化商業(yè)價值的第一步。
第二層面 :多筆并發(fā)查詢的挑戰(zhàn)
大企業(yè)需要同時處理數(shù)千筆來自企業(yè)內(nèi)部不同地點的查詢,查詢的范圍包含長期與短期的需求。以前面的跨國銀行為例,它可能需要在無數(shù)筆信用卡交易中偵測出欺詐行為,銀行經(jīng)理也許需要每月銷售數(shù)字的分析。像這樣的查詢不僅限于一處,而可能來自于不同區(qū)域數(shù)百個部門,因此可清楚看出系統(tǒng)需要有處理多筆并發(fā)查詢的能力。要能同時處理多筆查詢,數(shù)據(jù)庫首先必須具有精密的資源管理功能,在執(zhí)行查詢的時候,并行的數(shù)據(jù)庫必須能響應(yīng)不同的要求,并且掃描多個表格。
第三層面:維持復(fù)雜數(shù)據(jù)之間的商業(yè)關(guān)系
如何處理復(fù)雜度日漸提高的數(shù)據(jù),是大型數(shù)據(jù)庫將查詢最佳化的另一項挑戰(zhàn)。舉例來說,過去要建立一個簡單的客戶視圖,可能牽涉到存儲于分散在數(shù)據(jù)集市中的三或四個相關(guān)聯(lián)的數(shù)據(jù)點,現(xiàn)在則可能涉及到存儲于一個企業(yè)級數(shù)據(jù)倉庫中的三、四十個相關(guān)的數(shù)據(jù)點。如果這個數(shù)據(jù)倉庫只能產(chǎn)生龐大的表格,容納數(shù)十億筆分類排列的交易數(shù)據(jù),全世界計算機的數(shù)據(jù)處理能力也無法建立一個有效的客戶視圖。即使數(shù)據(jù)倉庫能將數(shù)據(jù)分成不同的表格,卻無法保存表格數(shù)據(jù)之間的商業(yè)關(guān)系,整個數(shù)據(jù)分析的功能都要打折扣,進而影響系統(tǒng)的商業(yè)價值。因此,在數(shù)據(jù)倉庫提升容量的同時,必須要對分析型查詢創(chuàng)造具有超高效率的“檔案系統(tǒng)”,這個系統(tǒng)應(yīng)該要能包含多個表格,且保存各主題區(qū)域內(nèi)數(shù)據(jù)的商業(yè)關(guān)系,能輕松做到數(shù)據(jù)的相互關(guān)聯(lián)和擴充。
第四層面:支持復(fù)雜的數(shù)據(jù)查詢與數(shù)據(jù)挖掘
最后,新一代的超級數(shù)據(jù)倉庫所要面對的不僅是上個月鞋子銷售量有多少的查詢,而是更加復(fù)雜的數(shù)據(jù)查詢與數(shù)據(jù)挖掘,例如客戶的終生價值,像這個問題就牽涉了許多重要層面。數(shù)據(jù)倉庫必須要能將各層面加以分析,然后決定一個高效收集所需信息的途徑。未來真正能提供PB價值的數(shù)據(jù)倉庫應(yīng)該具備一個優(yōu)化器,以處理復(fù)雜的數(shù)據(jù)查詢與數(shù)據(jù)挖掘而不需要人力介入。