- 數(shù)據(jù)倉庫
發(fā)展歷程
數(shù)據(jù)倉庫是決策支持系統(tǒng)(dss)和聯(lián)機分析應用數(shù)據(jù)源的結構化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。
數(shù)據(jù)倉庫 ,由數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)于1990年提出,主要功能仍是將組織透過資訊系統(tǒng)之聯(lián)機事務處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲存架構,作一有系統(tǒng)的分析整理,以利各種分析方法如聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)之進行,并進而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環(huán)境變動,幫助建構商業(yè)智能(BI)。
數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數(shù)據(jù)倉庫》)一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
特點
1、數(shù)據(jù)倉庫是面向主題的;操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關;
2、數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進行加工與集成,統(tǒng)一與綜合之后才能進入數(shù)據(jù)倉庫;
數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內的信息是關于整個企業(yè)的一致的全局信息。
數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到當前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
3、數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
4、數(shù)據(jù)倉庫是隨時間而變化的,傳統(tǒng)的關系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時間改變。
5、匯總的。操作性數(shù)據(jù)映射成決策可用的格式。
6、大容量。時間序列數(shù)據(jù)集合通常都非常大。
7、非規(guī)范化的。Dw數(shù)據(jù)可以是而且經(jīng)常是冗余的。
8、元數(shù)據(jù)。將描述數(shù)據(jù)的數(shù)據(jù)保存起來。
9、數(shù)據(jù)源。數(shù)據(jù)來自內部的和外部的非集成操作系統(tǒng)。
數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫”。數(shù)據(jù)倉庫的方案建設的目的,是為前端查詢和分析作為基礎,由于有較大的冗余,所以需要的存儲也較大。為了更好地為前端應用服務,數(shù)據(jù)倉庫往往有如下幾點特點:
1.效率足夠高。數(shù)據(jù)倉庫的分析數(shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,設計不好的數(shù)據(jù)倉庫經(jīng)常會出問題,延遲1-3日才能給出數(shù)據(jù),顯然不行的。
2.數(shù)據(jù)質量。數(shù)據(jù)倉庫所提供的各種信息,肯定要準確的數(shù)據(jù),但由于數(shù)據(jù)倉庫流程通常分為多個步驟,包括數(shù)據(jù)清洗,裝載,查詢,展現(xiàn)等等,復雜的架構會更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴謹,都可以導致數(shù)據(jù)失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。
3.擴展性。之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構設計復雜,是因為考慮到了未來3-5年的擴展性,這樣的話,未來不用太快花錢去重建數(shù)據(jù)倉庫系統(tǒng),就能很穩(wěn)定運行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運行不起來了。
從上面的介紹中可以看出,數(shù)據(jù)倉庫技術可以將企業(yè)多年積累的數(shù)據(jù)喚醒,不僅為企業(yè)管理好這些海量數(shù)據(jù),而且挖掘數(shù)據(jù)潛在的價值,從而成為通信企業(yè)運營維護系統(tǒng)的亮點之一。正因為如此,廣義的說,基于數(shù)據(jù)倉庫的決策支持系統(tǒng)由三個部件組成:數(shù)據(jù)倉庫技術,聯(lián)機分析處理技術和數(shù)據(jù)挖掘技術,其中數(shù)據(jù)倉庫技術是系統(tǒng)的核心,在這個系列后面的文章里,將圍繞數(shù)據(jù)倉庫技術,介紹現(xiàn)代數(shù)據(jù)倉庫的主要技術和數(shù)據(jù)處理的主要步驟,討論在通信運營維護系統(tǒng)中如何使用這些技術為運營維護帶來幫助。
4.面向主題
操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。主題是與傳統(tǒng)數(shù)據(jù)庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
用途
信息技術與數(shù)據(jù)智能大環(huán)境下,數(shù)據(jù)倉庫在軟硬件領域、Internet 和企業(yè)內部網(wǎng)解決方案以及數(shù)據(jù)庫方面提供了許多經(jīng)濟高效的計算資源,可以保存極大量的數(shù)據(jù)供分析使用,且允許使用多種數(shù)據(jù)訪問技術。
開放系統(tǒng)技術使得分析大量數(shù)據(jù)的成本趨于合理,并且硬件解決方案也更為成熟。在數(shù)據(jù)倉庫應用中主要使用的技術如下:
并行
計算的硬件環(huán)境、操作系統(tǒng)環(huán)境、 數(shù)據(jù)庫管理系統(tǒng)和所有相關的數(shù)據(jù)庫操作、查詢工具和技術、應用程序等各個領域都可以從并行的最新成就中獲益。
分區(qū)
分區(qū)功能使得支持大型表和索引更容易,同時也提高了數(shù)據(jù)管理和查詢性能。
數(shù)據(jù)壓縮
數(shù)據(jù)壓縮功能降低了數(shù)據(jù)倉庫環(huán)境中通常需要的用于存儲大量數(shù)據(jù)的磁盤系統(tǒng)的成本,新的數(shù)據(jù)壓縮技術也已經(jīng)消除了壓縮數(shù)據(jù)對查詢性能造成的負面影響。
技術發(fā)展
從數(shù)據(jù)庫到數(shù)據(jù)倉庫
企業(yè)的數(shù)據(jù)處理大致分為兩類:一類是操作型處理,也稱為聯(lián)機事務處理,它是針對具體業(yè)務在數(shù)據(jù)庫聯(lián)機的日常操作,通常對少數(shù)記錄進行查詢、修改。另一類是分析型處理,一般針對某些主題的歷史數(shù)據(jù)進行分析,支持管理決策。
兩者具有不同的特征,主要體現(xiàn)在以下幾個方面。
1、處理性能
日常業(yè)務涉及頻繁、簡單的數(shù)據(jù)存取,因此對操作型處理的性能要求是比較高的,需要數(shù)據(jù)庫能夠在很短時間內做出反應。
2、數(shù)據(jù)集成
企業(yè)的操作型處理通常較為分散,傳統(tǒng)數(shù)據(jù)庫面向應用的特性使數(shù)據(jù)集成困難。
3、數(shù)據(jù)更新
操作型處理主要由原子事務組成,數(shù)據(jù)更新頻繁,需要并行控制和恢復機制。
4、數(shù)據(jù)時限
操作型處理主要服務于日常的業(yè)務操作。
5、數(shù)據(jù)綜合
操作型處理系統(tǒng)通常只具有簡單的統(tǒng)計功能。
數(shù)據(jù)庫已經(jīng)在信息技術領域有了廣泛的應用,我們社會生活的各個部門,幾乎都有各種各樣的數(shù)據(jù)庫保存著與我們的生活息息相關的各種數(shù)據(jù)。作為數(shù)據(jù)庫的一個分支,數(shù)據(jù)倉庫概念的提出,相對于數(shù)據(jù)庫從時間上就近得多。美國著名信息工程專家WilliamInmON博士在90年代初提出了數(shù)據(jù)倉庫概念的一個表述,認為:“一個數(shù)據(jù)倉庫通常是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩(wěn)定的數(shù)據(jù)集合,它用于對管理決策過程的支持。”
這里的主題,是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內的信息是按主題進行組織的,而不是像業(yè)務支撐系統(tǒng)那樣是按照業(yè)務功能進行組織的。
集成,是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關于整個企業(yè)的一致的全局信息。
隨時間變化,是指數(shù)據(jù)倉庫內的信息并不只是反映企業(yè)當前的狀態(tài),而是記錄了從過去某一時點到當前各個階段的信息。
數(shù)據(jù)庫安全
計算機攻擊、內部人員違法行為,以及各種監(jiān)管要求,正促使組織尋求新的途徑來保護其在商業(yè)數(shù)據(jù)庫系統(tǒng)中的企業(yè)和客戶數(shù)據(jù)。
您可以采取八個步驟保護數(shù)據(jù)倉庫并實現(xiàn)對關鍵法規(guī)的遵從。
1. 發(fā)現(xiàn)
使用發(fā)現(xiàn)工具發(fā)現(xiàn)敏感數(shù)據(jù)的變化。
2.漏洞和配置評估
評估數(shù)據(jù)庫配置,確保它們不存在安全漏洞。這包括驗證在操作系統(tǒng)上安裝數(shù)據(jù)庫的方式(比如檢查數(shù)據(jù)庫配置文件和可執(zhí)行程序的文件權限),以及驗證數(shù)據(jù)庫自身內部的配置選項(比如多少次登錄失敗之后鎖定帳戶,或者為關鍵表分配何種權限)。
3. 加強保護
通過漏洞評估,刪除不使用的所有功能和選項。
4. 變更審計
通過變更審計工具加強安全保護配置,這些工具能夠比較配置的快照(在操作系統(tǒng)和數(shù)據(jù)庫兩個級別上),并在發(fā)生可能影響數(shù)據(jù)庫安全的變更時,立即發(fā)出警告。
5. 數(shù)據(jù)庫活動監(jiān)控(DAM)
通過及時檢測入侵和誤用來限制信息暴露,實時監(jiān)控數(shù)據(jù)庫活動。
6. 審計
必須為影響安全性狀態(tài)、數(shù)據(jù)完整性或敏感數(shù)據(jù)查看的所有數(shù)據(jù)庫活動生成和維護安全、防否認的審計線索。
7.身份驗證、訪問控制和授權管理
必須對用戶進行身份驗證,確保每個用戶擁有完整的責任,并通過管理特權來限制對數(shù)據(jù)的訪問。
8. 加密
使用加密來以不可讀的方式呈現(xiàn)敏感數(shù)據(jù),這樣攻擊者就無法從數(shù)據(jù)庫外部對數(shù)據(jù)進行未授權訪問。
如何應對監(jiān)控需求
數(shù)據(jù),作為企業(yè)核心資產(chǎn),越來越受到企業(yè)的關注,一旦發(fā)生非法訪問、數(shù)據(jù)篡改、數(shù)據(jù)盜取,將給企業(yè)帶來巨大損失。數(shù)據(jù)庫作為數(shù)據(jù)的核心載體,其安全性就更加重要。
面對數(shù)據(jù)庫的安全問題,企業(yè)常常遇到以下主要挑戰(zhàn):數(shù)據(jù)庫被惡意訪問、攻擊、甚至遭到數(shù)據(jù)偷竊,而您不能及時地發(fā)現(xiàn)這些惡意的操作; 不了解數(shù)據(jù)使用者對數(shù)據(jù)庫的訪問細節(jié),從而不能保證您對數(shù)據(jù)安全的管理;
信息安全同樣會帶來審計問題,當今全球對合規(guī)/ 審計要求越來越嚴格,由于不滿足合規(guī)要求而導致處罰的事件屢見不鮮。美國《薩班斯法案》的強制性要求曾導致2007年7月5日中國第一家海外上市公司—華晨中國汽車控股有限公司從美國紐約證券交易所退市。
有關信息安全的合規(guī)/審計要求,中國政府也進行了大量的強化工作,例如,為了加強商業(yè)銀行信息科技風險管理,銀監(jiān)會出臺了《商業(yè)銀行信息科技風險管理指引》規(guī)則,中國政府——財政部、證監(jiān)會、銀監(jiān)會、保監(jiān)會及審計署等五部委會聯(lián)合發(fā)布“中國版薩班尼斯-奧克斯利法案(以下簡稱‘C-SOX法案’)”——《企業(yè)內部控制基本規(guī)范》。
面對合規(guī)/審計要求,企業(yè)往往面臨以下挑戰(zhàn):
·不能做到持續(xù)性審計
用戶審計主要是針對數(shù)據(jù)庫、應用系統(tǒng)日志做審計,這些日志內容非常龐大,DBA(數(shù)據(jù)庫管理員)和信息安全審計人員的審計工作就只能做事后分析,分析時間也長。不能做到持續(xù)性審計。
·審計并不規(guī)范
用戶審計的內容和表格主要是根據(jù)外部審計人員要求和內部安全管理要素來考慮,這些審計工作的好壞基本上取決于DBA和信息安全審計人員的經(jīng)驗和技能,這些不能有效成為公司規(guī)范和滿足外部審計要求。
·數(shù)據(jù)庫管理員權責沒有完全區(qū)分開,導致審計效果問題
數(shù)據(jù)庫管理和審計原始數(shù)據(jù)的收集實際上都是由DBA來做的,這就導致了DBA的權責不明確,DBA沒辦法客觀審計自己所做的工作,盡管用戶設置了信息安全審計人員,但該角色的審計工作的部分證據(jù)建立在DBA初步審計基礎上,因此審計效果與可靠性存問題。
·審計并不完整
人工審計需要面對海量的日志,不可能對所有數(shù)據(jù)進行細致審計;審計報告就未必能滿足100%可見性。
為了滿足企業(yè)的信息安全、合規(guī)、審計等需求,IBM公司推出了“CARS”企業(yè)信息架構,該架構主要從“法規(guī)遵從”(Compliance)、“信息可用”(Availability)、“信息保留”(Retention)、“信息安全”(Security) 四個方面進行了全面的滿足和保護。不僅如此,IBM Guardium數(shù)據(jù)庫安全、合規(guī)、審計、監(jiān)控解決方案的推出,針對了“法規(guī)遵從”和“信息安全”進行了專項治理和加強。
Guardium數(shù)據(jù)庫安全、合規(guī)、審計、監(jiān)控解決方案,以軟硬件一體服務器的方式,大大增強數(shù)據(jù)庫安全性,滿足并方便審計工作,提升性能,并簡化了安裝部署工作??梢苑乐箤?shù)據(jù)庫的破壞、惡意訪問、偷竊數(shù)據(jù),可幫助判斷客戶關鍵敏感的數(shù)據(jù)在什么地方;誰在使用這些數(shù)據(jù);控制對數(shù)據(jù)庫中數(shù)據(jù)的訪問,并可監(jiān)控特權用戶;幫助企業(yè)強制執(zhí)行安全規(guī)范;檢查薄弱環(huán)節(jié)、漏洞,防止對數(shù)據(jù)庫配置的改動;滿足合規(guī)/審計的要求,并可簡化內部和外部審計、合規(guī)的過程并使其自動化,增強運作效率;管理安全的復雜性。
主要案例
Agrofert
農(nóng)業(yè)、食品和化工集團Agrofert 發(fā)現(xiàn),隨著企業(yè)的快速發(fā)展,旗下子公司已經(jīng)有 160 多個不同的系統(tǒng)在運行。很難提供統(tǒng)一的報告,而且支持和許可成本也不斷上升。如果每新購一個系統(tǒng)就擴大一次基礎架構,顯然不是一種可以擴展的戰(zhàn)略。Agrofert采用 SAP ERP 應用程序作為其部分子公司的共享服務,目的是將其逐漸推廣到整個企業(yè),這些應用程序在兩個地點的 IBM Power Systems 服務器上集中管理。公司從混合數(shù)據(jù)庫環(huán)境(包括 Oracle 和 Microsoft SQL Server)遷移到 IBM DB2,將 IBM DB2 作為其標準數(shù)據(jù)庫,同時還為關鍵的業(yè)務數(shù)據(jù)部署集中的存儲系統(tǒng)。遷移后,不再需要本地系統(tǒng),能夠極大地降低管理、支持和許可成本;借助IBM DB2 可降低許可費用,簡化管理并減少員工教育及培訓;整合的存儲有助于降低成本,而 IBM DB2 深度壓縮將會降低總體存儲需求;總成本估計減少 20%。
迪斯尼樂園
Disney 每年都有10億美元商品銷售收入,而建立一個ERP系統(tǒng)來處理這些信息是極具挑戰(zhàn)性的。
最新的集中式ERP系統(tǒng)是設計用來處理商品管理、存貨管理和相關業(yè)務過程的。但是Disney 也希望平衡財務和業(yè)務智能(BI)報告和業(yè)務分析系統(tǒng),這意味著建立一個新的數(shù)據(jù)倉庫。Disney在該項目中所使用的一些產(chǎn)品包括SAS分析軟件和Teradata數(shù)據(jù)倉庫技術。最新的集中式ERP、數(shù)據(jù)倉庫和分析系統(tǒng)正幫助Disney更好地管理存貨、分析銷售額和預報特定領域的商品需求。
構造設計
數(shù)據(jù)倉庫具有改變業(yè)務的威力。它能幫助公司深入了解客戶行為,預測銷售趨勢,確定某一組客戶或產(chǎn)品的收益率。盡管如此,數(shù)據(jù)倉庫的實現(xiàn)卻是一個長期的、充滿風險的過程。由 DM Review 發(fā)布的一項網(wǎng)絡調查顯示, 51% 受訪者認為創(chuàng)建數(shù)據(jù)倉庫的頭號障礙是缺乏準確的數(shù)據(jù)。而其中最重要的一點是無法實時更新所有的數(shù)據(jù)。
有六項指導原則可幫助企業(yè)快速實現(xiàn)數(shù)據(jù)倉庫計劃并評估其過程:
·簡化需求收集和設計。
公司通常會難以確定,哪些數(shù)據(jù)重要,哪些使得他們無法利用有價值的非結構化信息來驅動關鍵業(yè)務流程。組織應該檢查一下 IT 經(jīng)理是否深入理解業(yè)務計劃以及支持計劃所需的信息。例如源數(shù)據(jù)在哪里?需要怎樣的轉換能讓其為關鍵應用程序所用?
·支持業(yè)務和 IT 用戶協(xié)作。
不完整、過時或不準確的數(shù)據(jù)會導致可信信息的缺乏。要注意公司是否有一個業(yè)務術語表供用戶查看、用于協(xié)作并根據(jù)他們集體業(yè)務視角進行調整?
·避免代價高昂的低級錯誤和返工。
明確公司是否擁有一個包含界定完善的數(shù)據(jù)模型的實施策略,應用程序提供信息?
·識別匹配信息,創(chuàng)建單一視圖。
同一事實的多個版本會導致在管理用戶、產(chǎn)品和合作伙伴關系方面出現(xiàn)問題——增加違反法規(guī)遵從性的風險。
·使用最快的、最具伸縮性的方法進行轉換和發(fā)布。
明確公司是否有能夠利用并行處理并重用之前轉換成果的自動化過程?公司系統(tǒng)能否及時按需將數(shù)據(jù)發(fā)布給用戶和應用程序?
·通過信息服務擴展信息可訪問性。
明確企業(yè)是否能真正將信息用作共有財產(chǎn)?IT 專家能否保存好這些財產(chǎn)并讓被授權者使用?信息能否在合適的時間發(fā)布到合適的地方和合適的場景下?
實現(xiàn)方式
數(shù)據(jù)倉庫是一個過程而不是一個項目。
數(shù)據(jù)倉庫系統(tǒng)是一個信息提供平臺,他從業(yè)務處理系統(tǒng)獲得數(shù)據(jù),主要以星型模型和雪花模型進行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識。
從功能結構劃分,數(shù)據(jù)倉庫系統(tǒng)至少應該包含數(shù)據(jù)獲?。―ata Acquisition)、數(shù)據(jù)存儲(Data Storage)、數(shù)據(jù)訪問(Data Access)三個關鍵部分。
企業(yè)數(shù)據(jù)倉庫的建設,是以現(xiàn)有企業(yè)業(yè)務系統(tǒng)和大量業(yè)務數(shù)據(jù)的積累為基礎。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數(shù)據(jù)倉庫的根本任務。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設是一個工程,是一個過程。
體系結構
數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內部信息和外部信息。內部信息包括存放于RDBMS中的各種業(yè)務處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等;
數(shù)據(jù)的存儲與管理
是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術特點著手分析。針對現(xiàn)有各業(yè)務系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
OLAP服務器
對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP(關系型在線分析處理)、MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。
前端工具
主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。
數(shù)據(jù)抽取工具
把數(shù)據(jù)從各種各樣的存儲方式中拿出來,進行必要的轉化、整理,再存放到數(shù)據(jù)倉庫內。對各種不同數(shù)據(jù)存儲方式的訪問能力是數(shù)據(jù)抽取工具的關鍵,應能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉換都包括,刪除對決策應用沒有意義的數(shù)據(jù)段;轉換到統(tǒng)一的數(shù)據(jù)名稱和定義;計算統(tǒng)計和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。
數(shù)據(jù)庫
是整個數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對數(shù)據(jù)檢索的支持。相對于操縱型數(shù)據(jù)庫來說其突出的特點是對海量數(shù)據(jù)的支持和快速的檢索技術。
元數(shù)據(jù)
元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù)??蓪⑵浒从猛镜牟煌譃閮深?,技術元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
技術元數(shù)據(jù)是數(shù)據(jù)倉庫的設計和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫使用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉換的描述;數(shù)據(jù)倉庫內對象和數(shù)據(jù)結構的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導入歷史記錄,信息發(fā)布歷史記錄等。
商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務主題的描述,包含的數(shù)據(jù)、查詢、報表;
元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運行和維護的中心,數(shù)據(jù)倉庫服務器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。
數(shù)據(jù)集市
為了特定的應用目的或應用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實施過程中往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。需要注意的就是在實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相容,這樣在以后實施數(shù)據(jù)倉庫時才不會造成大麻煩。
國外知名的Garnter關于數(shù)據(jù)集市產(chǎn)品報告中,位于第一象限的敏捷商業(yè)智能產(chǎn)品有QlikView, Tableau和SpotView,都是全內存計算的數(shù)據(jù)集市產(chǎn)品,在大數(shù)據(jù)方面對傳統(tǒng)商業(yè)智能產(chǎn)品巨頭形成了挑戰(zhàn)。國內BI產(chǎn)品起步較晚,知名的敏捷型商業(yè)智能產(chǎn)品有PowerBI, 永洪科技的Z-Suite,SmartBI,F(xiàn)ineBI商業(yè)智能軟件等,其中永洪科技的Z-Data Mart是一款熱內存計算的數(shù)據(jù)集市產(chǎn)品。國內的德昂信息也是一家數(shù)據(jù)集市產(chǎn)品的系統(tǒng)集成商。
數(shù)據(jù)倉庫管理
安全和特權管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質量檢查;管理和更新元數(shù)據(jù);審計和報告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復制、分割和分發(fā)數(shù)據(jù);備份和恢復;存儲管理。
信息發(fā)布系統(tǒng)
把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關的數(shù)據(jù)發(fā)送給不同的地點或用戶?;赪eb的信息發(fā)布系統(tǒng)是對付多用戶訪問的最有效方法。
訪問工具
為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報表工具;應用開發(fā)工具;管理信息系統(tǒng)(EIS)工具;在線分析(OLAP)工具;數(shù)據(jù)挖掘工具。
數(shù)據(jù)模型
有別于一般聯(lián)機交易處理(OLTP)系統(tǒng),數(shù)據(jù)模型設計是一個數(shù)據(jù)倉庫設計的地基,當前兩大主流理論分別為采用正規(guī)方式(normalized approach)或多維方式(dimensional approach)進行數(shù)據(jù)模型設計。 數(shù)據(jù)模型可以分為邏輯與實體數(shù)據(jù)模型。邏輯數(shù)據(jù)模型陳述業(yè)務相關數(shù)據(jù)的關系,基本上是一種與數(shù)據(jù)庫無關的結構設計,通常均會采用正規(guī)方式設計,主要精神是從企業(yè)業(yè)務領域的角度及高度訂出subject area model,再逐步向下深入到entities、attributes,在設計時不會考慮未來采用的數(shù)據(jù)庫管理系統(tǒng),也不需考慮分析性能問題。而實體數(shù)據(jù)模型則與數(shù)據(jù)庫管理系統(tǒng)有關,是建置在該系統(tǒng)上的數(shù)據(jù)架構,故設計時需考慮數(shù)據(jù)類型(data type)、空間及性能相關的議題。 實體數(shù)據(jù)模型設計,則較多有采用正規(guī)方式或多維方式的討論,但從實務上來說,不執(zhí)著于理論,能與業(yè)務需要有最好的搭配,才是企業(yè)在建置數(shù)據(jù)倉庫時的正確考量。
數(shù)據(jù)倉庫的建制不僅是資訊工具技術面的運用,在規(guī)劃和執(zhí)行方面更需對產(chǎn)業(yè)知識、行銷管理、市場定位、策略規(guī)劃等相關業(yè)務有深入的了解,才能真正發(fā)揮數(shù)據(jù)倉庫以及后續(xù)分析工具的價值,提升組織競爭力。
設計步驟
1)選擇合適的主題(所要解決問題的領域)
2)明確定義事實表
3)確定和確認維
4)選擇事實表
5)計算并存儲fact表中的衍生數(shù)據(jù)段
6)轉換維表
7)數(shù)據(jù)庫數(shù)據(jù)采集
8)根據(jù)需求刷新維表
9)確定查詢優(yōu)先級和查詢模式。
硬件平臺:數(shù)據(jù)倉庫的硬盤容量通常要是操作數(shù)據(jù)庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩(wěn)定性,也容易與歷史遺留的系統(tǒng)結合在一起;而PC服務器或UNIX服務器更加靈活,容易操作和提供動態(tài)生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?
數(shù)據(jù)倉庫DBMS:他的存儲大數(shù)據(jù)量的能力、查詢的性能、和對并行處理的支持如何。
網(wǎng)絡結構:數(shù)據(jù)倉庫的實施在那部分網(wǎng)絡段上會產(chǎn)生大量的數(shù)據(jù)通信,需不需要對網(wǎng)絡結構進行改進。
建模劃分
數(shù)據(jù)倉庫的數(shù)據(jù)建模大致分為四個階段:
1.業(yè)務建模,這部分建模工作,主要包含以下幾個部分:
劃分整個單位的業(yè)務,一般按照業(yè)務部門的劃分,進行各個部分之間業(yè)務工作的界定,理清各業(yè)務部門之間的關系。
深入了解各個業(yè)務部門的內具體業(yè)務流程并將其程序化。
提出修改和改進業(yè)務部門工作流程的方法并程序化。
數(shù)據(jù)建模的范圍界定,整個數(shù)據(jù)倉庫項目的目標和階段劃分。
2.領域概念建模,這部分得建模工作,主要包含以下幾個部分:
抽取關鍵業(yè)務概念,并將之抽象化。
將業(yè)務概念分組,按照業(yè)務主線聚合類似的分組概念。
細化分組概念,理清分組概念內的業(yè)務流程并抽象化。
理清分組概念之間的關聯(lián),形成完整的領域概念模型。
3.邏輯建模,這部分的建模工作,主要包含以下幾個部分:
業(yè)務概念實體化,并考慮其具體的屬性
事件實體化,并考慮其屬性內容
說明實體化,并考慮其屬性內容
4.物理建模,這部分得建模工作,主要包含以下幾個部分:
針對特定物理化平臺,做出相應的技術調整
針對模型的性能考慮,對特定平臺作出相應的調整
針對管理的需要,結合特定的平臺,做出相應的調整
生成最后的執(zhí)行腳本,并完善之。
建立步驟
步驟
1)收集和分析業(yè)務需求
2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設計
3)定義數(shù)據(jù)源
4)選擇數(shù)據(jù)倉庫技術和平臺
5)從操作型數(shù)據(jù)庫中抽取、凈化、和轉換數(shù)據(jù)到數(shù)據(jù)倉庫
6)選擇訪問和報表工具
7)選擇數(shù)據(jù)庫連接軟件
8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件
9)更新數(shù)據(jù)倉庫
數(shù)據(jù)轉換工具
1)數(shù)據(jù)轉換工具要能從各種不同的數(shù)據(jù)源中讀取數(shù)據(jù)。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同類型數(shù)據(jù)源為輸入整合數(shù)據(jù)。
4)具有規(guī)范的數(shù)據(jù)訪問接口
5)最好具有從數(shù)據(jù)字典中讀取數(shù)據(jù)的能力
6)工具生成的代碼必須是在開發(fā)環(huán)境中可維護的
7)能只抽取滿足指定條件的數(shù)據(jù),和源數(shù)據(jù)的指定部分
8)能在抽取中進行數(shù)據(jù)類型轉換和字符集轉換
9)能在抽取的過程中計算生成衍生字段
10)能讓數(shù)據(jù)倉庫管理系統(tǒng)自動調用以定期進行數(shù)據(jù)抽取工作,或能將結果生成平面文件
11)必須對軟件供應商的生命力和產(chǎn)品支持能力進行仔細評估
主要數(shù)據(jù)抽取工具供應商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s EDA/SQL.SASInstituteInc.
關鍵問題
一般問題 (不完全是技術或文化,但很重要) 包括但不限于以下幾點:
業(yè)務用戶想要執(zhí)行什么樣的分析?
你現(xiàn)在收集的數(shù)據(jù)需要支持那些分析嗎?
數(shù)據(jù)在哪兒?
數(shù)據(jù)的清潔度如何?
相似的數(shù)據(jù)有多個數(shù)據(jù)源嗎?
什么樣的結構最適合核心數(shù)據(jù)倉庫 (例如維度或關系型)?
技術問題包括但不限于以下幾點:
在你的網(wǎng)絡中要流通多少數(shù)據(jù)?它能處理嗎?
需要多少硬盤空間?
硬盤存儲需要多快?
你會使用固態(tài)還是虛擬化的存儲?
效益
每一家公司都有自己的數(shù)據(jù)。并且,許多公司在計算機系統(tǒng)中儲存有大量的數(shù)據(jù),記錄著企業(yè)購買、銷售、生產(chǎn)過程中的大量信息和客戶的信息。通常這些數(shù)據(jù)都儲存在許多不同的地方。
使用數(shù)據(jù)倉庫之后,企業(yè)將所有收集來的信息存放在一個唯一的地方——數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)按照一定的方式組織,從而使得信息容易存取并且有使用價值。
已經(jīng)開發(fā)出一些專門的軟件工具,使數(shù)據(jù)倉庫的過程實現(xiàn)可以半自動化,幫助企業(yè)將數(shù)據(jù)導入數(shù)據(jù)倉庫,并使用那些已經(jīng)存入倉庫的數(shù)據(jù)。
數(shù)據(jù)倉庫給組織帶來了巨大的變化。數(shù)據(jù)倉庫的建立給企業(yè)帶來了一些新的工作流程,其他的流程也因此而改變。
數(shù)據(jù)倉庫為企業(yè)帶來了一些“以數(shù)據(jù)為基礎的知識”,它們主要應用于對市場戰(zhàn)略的評價,和為企業(yè)發(fā)現(xiàn)新的市場商機,同時,也用來控制庫存、檢查生產(chǎn)方法和定義客戶群。
通過數(shù)據(jù)倉庫,可以建立企業(yè)的數(shù)據(jù)模型,這對于企業(yè)的生產(chǎn)與銷售、成本控制與收支分配有著重要的意義,極大的節(jié)約了企業(yè)的成本,提高了經(jīng)濟效益,同時,用數(shù)據(jù)倉庫可以分析企業(yè)人力資源與基礎數(shù)據(jù)之間的關系,可以用于返回分析,保障人力資源的最大化利用,亦可以進行人力資源績效評估,使得企業(yè)管理更加科學合理。數(shù)據(jù)倉庫將企業(yè)的數(shù)據(jù)按照特定的方式組織,從而產(chǎn)生新的商業(yè)知識,并為企業(yè)的運作帶來新的視角。
發(fā)展前期
計算機發(fā)展的早期,人們已經(jīng)提出了建立數(shù)據(jù)倉庫的構想。“數(shù)據(jù)倉庫”一詞最早是在1990年,由Bill Inmon先生提出的,其描述如下:數(shù)據(jù)倉庫是為支持企業(yè)決策而特別設計和建立的數(shù)據(jù)集合。
企業(yè)建立數(shù)據(jù)倉庫是為了填補現(xiàn)有數(shù)據(jù)存儲形式已經(jīng)不能滿足信息分析的需要。數(shù)據(jù)倉庫理論中的一個核心理念就是:事務型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同。
企業(yè)在它們的事務操作收集數(shù)據(jù)。在企業(yè)運作過程中:隨著定貨、銷售記錄的進行,這些事務型數(shù)據(jù)也連續(xù)的產(chǎn)生。為了引入數(shù)據(jù),我們必須優(yōu)化事務型數(shù)據(jù)庫。
處理決策支持型數(shù)據(jù)時,一些問題經(jīng)常會被提出:哪類客戶會購買哪類產(chǎn)品?促銷后銷售額會變化多少?價格變化后或者商店地址變化后銷售額又會變化多少呢?在某一段時間內,相對其他產(chǎn)品來說哪類產(chǎn)品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢?
事務型數(shù)據(jù)庫可以為這些問題作出解答,但是它所給出的答案往往并不能讓人十分滿意。在運用有限的計算機資源時常常存在著競爭。在增加新信息的時候我們需要事務型數(shù)據(jù)庫是空閑的。而在解答一系列具體的有關信息分析的問題的時候,系統(tǒng)處理新數(shù)據(jù)的有效性又會被大大降低。另一個問題就在于事務型數(shù)據(jù)總是在動態(tài)的變化之中的。決策支持型處理需要相對穩(wěn)定的數(shù)據(jù),從而問題都能得到一致連續(xù)的解答。
數(shù)據(jù)倉庫的解決方法包括:將決策支持型數(shù)據(jù)處理從事務型數(shù)據(jù)處理中分離出來。數(shù)據(jù)按照一定的周期(通常在每晚或者每周末),從事務型數(shù)據(jù)庫中導入決策支持型數(shù)據(jù)庫——既“數(shù)據(jù)倉庫”。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。
市場分析
有關決策支持型數(shù)據(jù)庫的數(shù)據(jù)集市是面向企業(yè)中的某個部門或是項目小組的。一些專家顧問將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉庫全過程中的一步。首先,一個儲存企業(yè)全部信息的數(shù)據(jù)倉庫被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉庫聚集了所有詳細的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對用戶們的特定需求總結而出的。
而另外一些專家則認為數(shù)據(jù)集市的建立并不需要首先建立一個數(shù)據(jù)倉庫。在這個模型中,數(shù)據(jù)直接由事務型數(shù)據(jù)庫轉入數(shù)據(jù)集市中。一個公司可能建立有多個數(shù)據(jù)集市,而彼此之間毫無聯(lián)系。
這種不在建立數(shù)據(jù)倉庫的基礎上創(chuàng)建數(shù)據(jù)集市的方式會更便宜、更快速,因為它的規(guī)模更加易于管理。
第二種觀點的缺陷在于無法實現(xiàn)最初創(chuàng)建數(shù)據(jù)倉庫的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式?,F(xiàn)有的事務處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個全公司范圍的數(shù)據(jù)倉庫,組織就能夠獲得一個統(tǒng)一關于企業(yè)的活動和客戶的知識庫。如果先建立起一個個獨立的數(shù)據(jù)集市,那么數(shù)據(jù)倉庫的諸多優(yōu)勢都能夠得以實現(xiàn),但是企業(yè)遠遠無法做到對數(shù)據(jù)的一致的儲存。
關系內容
二者的聯(lián)系:
數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。大部分數(shù)據(jù)倉庫還是用關系數(shù)據(jù)庫管理系統(tǒng)來管理的??梢哉f,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。
二者的區(qū)別:
1、出發(fā)點不同:數(shù)據(jù)庫是面向事務的設計;數(shù)據(jù)倉庫是面向主題設計的。
2、存儲的數(shù)據(jù)不同:數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù);數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。
3、設計規(guī)則不同:數(shù)據(jù)庫設計是盡量避免冗余,一般采用符合范式的規(guī)則來設計;數(shù)據(jù)倉庫在設計是有意引入冗余,采用反范式的方式來設計。
4、提供的功能不同:數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設計,
5、基本元素不同:數(shù)據(jù)庫的基本元素是事實表,數(shù)據(jù)倉庫的基本元素是維度表。
6、容量不同:數(shù)據(jù)庫在基本容量上要比數(shù)據(jù)倉庫小的多。
7、服務對象不同:數(shù)據(jù)庫是為了高效的事務處理而設計的,服務對象為企業(yè)業(yè)務處理方面的工作人員;數(shù)據(jù)倉庫是為了分析數(shù)據(jù)進行決策而設計的,服務對象為企業(yè)高層決策人員。
內容來自百科網(wǎng)