監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買(mǎi)價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)集市體系結(jié)構(gòu)改進(jìn)

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

來(lái)源:泛普軟件

1 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市

(1)數(shù)據(jù)倉(cāng)庫(kù)(DW)的定義

有關(guān)數(shù)據(jù)倉(cāng)庫(kù)這一概念目前還沒(méi)有統(tǒng)一的定義,其中比較公認(rèn)的是由數(shù)據(jù)倉(cāng)庫(kù)之父W.HJnmon在《BulldingtheDatawarehouse》一書(shū)中給出的定義:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、非易失的、隨時(shí)間變化的、用來(lái)支持管理人員決策的數(shù)據(jù)集合。

數(shù)據(jù)倉(cāng)庫(kù)處理的數(shù)據(jù)與一般的信息系統(tǒng)中的數(shù)據(jù)不同,它來(lái)自結(jié)構(gòu)不同的、分布的數(shù)據(jù)源,包括細(xì)節(jié)數(shù)據(jù)、綜合數(shù)據(jù)、歷史數(shù)據(jù)和外部數(shù)據(jù)。在美國(guó),數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和應(yīng)用的發(fā)展很快,近年來(lái)已成為僅次于Intemet的又一技術(shù)熱點(diǎn)。數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展是市場(chǎng)激烈競(jìng)爭(zhēng)的結(jié)果,因?yàn)槌晒Φ臄?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)可以為企業(yè)帶來(lái)巨大的經(jīng)濟(jì)效益以及良好的信息服務(wù)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的真正意義在于幫助人們制定能夠改進(jìn)商業(yè)活動(dòng)的決策。

基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)需要從企業(yè)長(zhǎng)期的業(yè)務(wù)活動(dòng)所積累的大量數(shù)據(jù)中分析企業(yè)的發(fā)展規(guī)律和市場(chǎng)變化趨勢(shì),一般不對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行更新操作,主要進(jìn)行經(jīng)常性的復(fù)雜查詢操作。數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)有很大的區(qū)別,所以需要將兩種環(huán)境分開(kāi)。兩種數(shù)據(jù)環(huán)境的區(qū)別主要表現(xiàn)在以下幾個(gè)方面:

①系統(tǒng)性能不同:在操作型系統(tǒng)中,數(shù)據(jù)的輸人、更新和刪除等操作很頻繁,實(shí)時(shí)性要求高,一般要求在極短的時(shí)間內(nèi)得到響應(yīng),否則會(huì)影響用戶的使用。而在面向分析的數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)一旦進(jìn)人數(shù)據(jù)倉(cāng)庫(kù),就很少被更新。但決策用到大量數(shù)據(jù)的復(fù)雜查詢分析,這些復(fù)雜的查詢操作可能會(huì)花費(fèi)較長(zhǎng)的時(shí)間,如幾分鐘甚至幾十分鐘,如果在操作型數(shù)據(jù)環(huán)境中進(jìn)行數(shù)據(jù)分析,會(huì)嚴(yán)重影響系統(tǒng)的性能。

②數(shù)據(jù)訪問(wèn)方式不同:各種數(shù)據(jù)源對(duì)數(shù)據(jù)倉(cāng)庫(kù)的用戶來(lái)說(shuō)是透明的,而數(shù)據(jù)庫(kù)的用戶需要考慮數(shù)據(jù)庫(kù)的結(jié)構(gòu)。

③數(shù)據(jù)格式不同:操作型系統(tǒng)存放的是細(xì)節(jié)數(shù)據(jù),不同的數(shù)據(jù)源數(shù)據(jù)格式可以不同;而數(shù)據(jù)倉(cāng)庫(kù)中既存放細(xì)節(jié)數(shù)據(jù),又存放各種粒度級(jí)別的綜合數(shù)據(jù),所有數(shù)據(jù)以提高查詢速度為目的進(jìn)行存儲(chǔ)和管理。

除此,數(shù)據(jù)倉(cāng)庫(kù)中還需要包括來(lái)自外部數(shù)據(jù)源的數(shù)據(jù)、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)和歷史數(shù)據(jù)。所以用于分析的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境與操作型數(shù)據(jù)環(huán)境必須分開(kāi),以免相互影響、相互干擾。數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)的要求:不能妨礙操作型數(shù)據(jù)系統(tǒng),具有數(shù)據(jù)抽取和轉(zhuǎn)換功能,管理當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù),快速響應(yīng)復(fù)雜的查詢,并提供有效的分析工具。

能滿足這 些要求的數(shù)據(jù)倉(cāng)庫(kù)一般具有以下特性:

①基于維模型;

②保留歷史數(shù)據(jù);

③包括詳細(xì)數(shù)據(jù)和概括性數(shù)據(jù);

④在保持一致性的前提下,將多個(gè)數(shù)據(jù)源的數(shù)據(jù)集成在一起;

⑤面向主題,如銷(xiāo)售、金融、保險(xiǎn)等。

(2)數(shù)據(jù)集市(DMart一DataMart)

企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)中包含的是海量數(shù)據(jù)(TB數(shù)量級(jí)),信息涵蓋整個(gè)企業(yè),所以創(chuàng)建這樣一個(gè)數(shù)據(jù)倉(cāng)庫(kù)往往需要花費(fèi)大量的資金,以及大量的人力和物力,需要很長(zhǎng)的開(kāi)發(fā)周期,這樣勢(shì)必影響用戶對(duì)系統(tǒng)的興趣和信心。相對(duì)而言,數(shù)據(jù)集市是針對(duì)企業(yè)某個(gè)部門(mén)的,規(guī)模較小,開(kāi)發(fā)周期較短,可以很快投人應(yīng)用,使用戶盡早獲益。

大型數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)往往從數(shù)據(jù)集市的建設(shè)開(kāi)始,這些數(shù)據(jù)集市在數(shù)據(jù)倉(cāng)庫(kù)建成之前就發(fā)揮作用了。但為了防止各部門(mén)的數(shù)據(jù)集市成為信息孤島,在開(kāi)始建立數(shù)據(jù)集市前必須考慮數(shù)據(jù)集市的結(jié)構(gòu)和管理方法,一般采用與數(shù)據(jù)倉(cāng)庫(kù)相同的規(guī)則和管理方法,使之成為未來(lái)數(shù)據(jù)倉(cāng)庫(kù)的一部分。因此可以認(rèn)為數(shù)據(jù)集市是一種簡(jiǎn)化的數(shù)據(jù)倉(cāng)庫(kù),是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,面向某個(gè)特定的主題,主要為企業(yè)各部門(mén)的中層決策者提供服務(wù)。

數(shù)據(jù)集市具有以下特點(diǎn):

①規(guī)模小,靈活;

②數(shù)據(jù)集市的粒度一般比數(shù)據(jù)倉(cāng)庫(kù)小,因?yàn)槠湫枨蟾骷?xì)、更具體;

③開(kāi)發(fā)工作一般由業(yè)務(wù)部門(mén)來(lái)組織、設(shè)計(jì)、實(shí)施和維護(hù);

④能夠快速實(shí)現(xiàn),代價(jià)低,開(kāi)發(fā)周期短,風(fēng)險(xiǎn)小;

⑤有利于功能的擴(kuò)展,數(shù)據(jù)集市可集成形成中心數(shù)據(jù)倉(cāng)庫(kù)或分布式數(shù)據(jù)倉(cāng)庫(kù)。

2 構(gòu)建OMart/D討體系方法

創(chuàng)建數(shù)據(jù)集市的方法主要有自頂向下和自底向上兩種方法,這兩種方法各有特色,各有利弊。理論上研究得較多的是自頂向下的方法,即由中心數(shù)據(jù)倉(cāng)庫(kù)通過(guò)分發(fā)數(shù)據(jù)構(gòu)成非獨(dú)立的數(shù)據(jù)集市。

(1)自底向上構(gòu)建獨(dú)立數(shù)據(jù)集市

先開(kāi)發(fā)各個(gè)部門(mén)的DMart,以遞增、進(jìn)化的方式逐步實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)13]。這種方法的開(kāi)發(fā)周期較短,在建好各部門(mén)數(shù)據(jù)集市的情況下,企業(yè)級(jí)的DW開(kāi)發(fā)比較簡(jiǎn)單。這種方式建立的數(shù)據(jù)集市,其數(shù)據(jù)來(lái)源于企業(yè)內(nèi)、外的異構(gòu)數(shù)據(jù)源,這種數(shù)據(jù)集市稱(chēng)為獨(dú)立數(shù)據(jù)集市,如圖1所示。

這種方式的不足之處與處理方法:

①如果獨(dú)立數(shù)據(jù)集市的構(gòu)造和增殖不加控制,則不利于將數(shù)據(jù)集市集成到企業(yè)中心數(shù)據(jù)倉(cāng)庫(kù)中,這樣在將這些數(shù)據(jù)集市集成到數(shù)據(jù)倉(cāng)庫(kù)時(shí)往往需要對(duì)它們進(jìn)行較大的修改。造成集成困難的主要原因有:商業(yè)規(guī)則不同、數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)集市設(shè)計(jì)方案的表達(dá)方式不同,等等。為了解決數(shù)據(jù)集市集成困難的問(wèn)題,在開(kāi)發(fā)數(shù)據(jù)集市時(shí),應(yīng)采用統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)信息模型,可采用共享元數(shù)據(jù)中心庫(kù)的方式,使企業(yè)主題域、通用維、度量、業(yè)務(wù)規(guī)則、數(shù)據(jù)的組織格式、數(shù)據(jù)源等在邏輯上統(tǒng)一,即事先制定一些必要的標(biāo)準(zhǔn)和規(guī)則,在設(shè)計(jì)數(shù)據(jù)集市時(shí)就遵守這些約定,以便日后可以方便地將數(shù)據(jù)集市集成到企業(yè)中心數(shù)據(jù)倉(cāng)庫(kù)中。

②隨著數(shù)據(jù)集市的增多,用戶可能會(huì)訪問(wèn)其他部門(mén)的數(shù)據(jù)集市進(jìn)行交叉查詢分析,而數(shù)據(jù)集市之間的連接必須依靠數(shù)據(jù)庫(kù)中間件來(lái)完成,這些連接的透明性差,不易管理,所以執(zhí)行多數(shù)據(jù)集市之間的交叉查詢分析效果比較差。

③匆忙開(kāi)發(fā)的獨(dú)立型數(shù)據(jù)集市,其設(shè)計(jì)容易受操作型系統(tǒng)的影響,甚至匆忙開(kāi)發(fā)的數(shù)據(jù)倉(cāng)庫(kù)也會(huì)受操作型系統(tǒng)的影響,其結(jié)構(gòu)與OLTP系統(tǒng)類(lèi)同,不能很好地反映用戶面向主題分析的需求。因此開(kāi)發(fā)數(shù)據(jù)集市應(yīng)該和開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)一樣,遵循相應(yīng)的一些原則。

(2)自頂向下方法構(gòu)建非獨(dú)立型數(shù)據(jù)集市構(gòu)建(DM art/I)W體系的另一種模型如圖2所示,就是先構(gòu)建企業(yè)級(jí)DW,再將數(shù)據(jù)分發(fā)到各DMart中。這種模型的每DMart的構(gòu)建比較簡(jiǎn)單,數(shù)據(jù)可統(tǒng)一管理,但開(kāi)發(fā)周期較長(zhǎng)。這種方式建立的數(shù)據(jù)集市,其數(shù)據(jù)來(lái)源于全局?jǐn)?shù)據(jù)倉(cāng)庫(kù),稱(chēng)為非獨(dú)立數(shù)據(jù)集市。

這種方式的優(yōu)點(diǎn)如下:

①這是收集、建模和實(shí)現(xiàn)最終用戶決策支持需求的嚴(yán)格而又普遍的方法,它將數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)方法應(yīng)用于數(shù)據(jù)集市的設(shè)計(jì)和實(shí)現(xiàn)中,技術(shù)上比較可靠;

②這種方法建立了一個(gè)面向全企業(yè)的數(shù)據(jù)倉(cāng)庫(kù),可使用戶對(duì)企業(yè)的業(yè)務(wù)、組織和發(fā)展有全面的了解;

③所有數(shù)據(jù)集市的數(shù)據(jù)均來(lái)自同一個(gè)中心數(shù)據(jù)倉(cāng)庫(kù),所以數(shù)據(jù)格式是統(tǒng)一的。

這種方法的缺點(diǎn)是:

①使用這種方法的開(kāi)發(fā)周期長(zhǎng),開(kāi)發(fā)費(fèi)用高;

②功能調(diào)整不易,不能及時(shí)根據(jù)客戶反饋的意見(jiàn)進(jìn)行改進(jìn);

③由于初期效果不明顯,如果處理不當(dāng),很容易使用戶對(duì)新系統(tǒng)失去信心和耐心,從而導(dǎo)致系統(tǒng)的失敗。

(3)聯(lián)合方法構(gòu)建混合型數(shù)據(jù)集市

上面介紹的兩種方法各有利弊,因此人們希望有一種折中解決的方案,既能控制成本,縮短投資回報(bào)時(shí)間,又能解決后期集成問(wèn)題,從而提出了混合型數(shù)據(jù)集市的開(kāi)發(fā)方案。這種數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)包含獨(dú)立數(shù)據(jù)集市、中心數(shù)據(jù)倉(cāng)庫(kù)、非獨(dú)立數(shù)據(jù)集市氣混合型數(shù)據(jù)集市克服了自頂向下方法開(kāi)發(fā)周期長(zhǎng)、開(kāi)發(fā)成本高,以及自底向上方法后期集成困難等問(wèn)題,但是仍然存在數(shù)據(jù)重復(fù)存儲(chǔ)、數(shù)據(jù)冗余度大的問(wèn)題。

3 DW/DMart體系結(jié)構(gòu)的改進(jìn)

本文提出一種新的方法建立DW/DMart體系結(jié)構(gòu)(如圖4所示),它既不同于自頂向下方法和自底向上方法,也有別于傳統(tǒng)意義的聯(lián)合方法;在開(kāi)發(fā)獨(dú)立數(shù)據(jù)集市過(guò)程中采用和建立數(shù)據(jù)倉(cāng)庫(kù)相同的標(biāo)準(zhǔn)和規(guī)則,這樣可使各數(shù)據(jù)集市的后期集成更加簡(jiǎn)單;而整個(gè)DW/DMart)W系統(tǒng)建好后,使用同一數(shù)據(jù)加載機(jī)制同時(shí)向各部門(mén)數(shù)據(jù)集市和企業(yè)中心數(shù)據(jù)倉(cāng)庫(kù)加載數(shù)據(jù):將當(dāng)前數(shù)據(jù)和輕度綜合數(shù)據(jù)加載到數(shù)據(jù)集市,便于部門(mén)級(jí)領(lǐng)導(dǎo)針對(duì)各部門(mén)經(jīng)營(yíng)情況作出各部門(mén)的具體決策;將歷史數(shù)據(jù)和共享數(shù)據(jù)加載到中心數(shù)據(jù)倉(cāng)庫(kù),便于所有部門(mén)共享;并通過(guò)二次集成將各部門(mén)高度綜合的數(shù)據(jù)加載到中心數(shù)據(jù)倉(cāng)庫(kù),便于企業(yè)高層領(lǐng)導(dǎo)根據(jù)整個(gè)企業(yè)的總體經(jīng)營(yíng)情況快速地做出全局性的決策。這種結(jié)構(gòu)既具有自底向上方法的優(yōu)點(diǎn),有利于系統(tǒng)用原型法進(jìn)行開(kāi)發(fā),縮短開(kāi)發(fā)周期;又具有自頂向下方法的優(yōu)點(diǎn),獨(dú)立數(shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù)具有相同的數(shù)據(jù)格式和管理規(guī)范,有利于數(shù)據(jù)集市的集成和數(shù)據(jù)的管理;而且與聯(lián)合方法建成的混合型體系結(jié)構(gòu)不同,數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)更合理,數(shù)據(jù)冗余度較小,且提供給各級(jí)決策者的數(shù)據(jù)更符合他們的決策需要。

下面對(duì)該體系結(jié)構(gòu)的設(shè)計(jì)思想進(jìn)行具體說(shuō)明。

①由于開(kāi)發(fā)基于數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)決策支持系統(tǒng)是一項(xiàng)復(fù)雜的系統(tǒng)工程,開(kāi)發(fā)周期長(zhǎng),開(kāi)發(fā)成本高;漫長(zhǎng)的開(kāi)發(fā)過(guò)程容易使用戶喪失對(duì)系統(tǒng)的興趣和耐心。為了降低開(kāi)發(fā)難度、縮短開(kāi)發(fā)周期、使系統(tǒng)盡快投人使用,使用戶盡快從系統(tǒng)獲利,本系統(tǒng)開(kāi)發(fā)過(guò)程采用原型法,即先建立企業(yè)某部門(mén)(例如營(yíng)銷(xiāo)部)的數(shù)據(jù)集市(DMart)做為一個(gè)原型,再以同樣的方法建立各部門(mén)的數(shù)據(jù)集市,最后將這些數(shù)據(jù)集市通過(guò)數(shù)據(jù)上傳的方法來(lái)構(gòu)造企業(yè)級(jí)的中心數(shù)據(jù)倉(cāng)庫(kù)。由于數(shù)據(jù)集市是針對(duì)部門(mén)級(jí)決策的,結(jié)構(gòu)相對(duì)簡(jiǎn)單,規(guī)模比數(shù)據(jù)倉(cāng)庫(kù)小,只針對(duì)某一特定主題,所以開(kāi)發(fā)周期短,見(jiàn)效快。

②對(duì)于細(xì)節(jié)數(shù)據(jù)和共享的數(shù)據(jù)并不存放在各部門(mén)的數(shù)據(jù)集市中,而是存放在企業(yè)的中心數(shù)據(jù)倉(cāng)庫(kù)的歷史數(shù)據(jù)庫(kù)和共享數(shù)據(jù)庫(kù)中,對(duì)于超過(guò)一定年限的歷史數(shù)據(jù)則導(dǎo)出到大容量的低速存儲(chǔ)設(shè)備。各部門(mén)的數(shù)據(jù)集市中只存儲(chǔ)和本部門(mén)有關(guān)的當(dāng)前數(shù)據(jù)及輕度綜合數(shù)據(jù),并不長(zhǎng)期保留歷史數(shù)據(jù),這樣既方便各部門(mén)領(lǐng)導(dǎo)進(jìn)行具體決策,又使各數(shù)據(jù)集市不需要太多的空間,使數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)更合理,管理和使用更方便。

③企業(yè)級(jí)決策者一般無(wú)暇過(guò)問(wèn)各部門(mén)的具體事務(wù)和具體經(jīng)營(yíng)情況,他們只關(guān)心跟整個(gè)企業(yè)發(fā)展有關(guān)的重大問(wèn)題和企業(yè)的整體經(jīng)營(yíng)情況,所以只需要將各部門(mén)的高度綜合數(shù)據(jù)上傳至企業(yè)的中心數(shù)據(jù)倉(cāng)庫(kù)即可,不需要將各部門(mén)的輕度綜合數(shù)據(jù)都上傳至企業(yè)的中心數(shù)據(jù)倉(cāng)庫(kù)。高度綜合的數(shù)據(jù)更有利于企業(yè)高層領(lǐng)導(dǎo)更快地作出一些重大的決策。

④數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市用相同的規(guī)范進(jìn)行管理,數(shù)據(jù)在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的格式是統(tǒng)一的,這樣就解決了數(shù)據(jù)格式不一致、數(shù)據(jù)集市集成困難以及多個(gè)數(shù)據(jù)集市交叉查詢困難等問(wèn)題。(萬(wàn)方數(shù)據(jù))

 

發(fā)布:2007-04-25 16:46    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:

泛普泛普博客其他應(yīng)用

泛普OA商務(wù)合同 泛普OA需求調(diào)研 泛普OA實(shí)施方案 泛普OA項(xiàng)目啟動(dòng) 泛普網(wǎng)絡(luò)硬件配置 泛普OA部署安裝 泛普流程模板表單 OA系統(tǒng)二次開(kāi)發(fā) 泛普常見(jiàn)問(wèn)題解決 泛普OA操作手冊(cè) 泛普軟件項(xiàng)目驗(yàn)收 泛普培訓(xùn)推廣上線 泛普OA售后服務(wù) 泛普新聞 泛普期刊 泛普博客