申請免費試用、咨詢電話:400-8352-114
知識管理與搜索引擎
近10年,以信息為基礎的組織或知識型企業(yè)煥發(fā)勃勃生機,創(chuàng)造和傳播知識已經成為檢驗企業(yè)核心能力的關鍵要素,知識的創(chuàng)造和應用能力成為不折不扣的企業(yè)核心競爭力的強力支撐。
知識管理,是針對知識本身的,包括對知識的創(chuàng)造、獲取、加工、存儲、傳播和應用的管理。對于企業(yè)而言,知識除儲存于員工的大腦中外,還根植于企業(yè)長期積累的各種文檔,以及其他應用系統(tǒng)的數(shù)據當中。如何在企業(yè)龐雜的信息數(shù)據中挖掘出知識,則需要選擇相關的工具,企業(yè)知識搜索引擎則是其中之一。
針對企業(yè)知識搜索引擎的應用需求,來自于龍卷風科技設計開發(fā)的The Information Retrieval Management System R3 (IRMS R3),希望透過IRMS R3的開發(fā)平臺,讓搜索引擎技術能對企業(yè)知識管理應用提供更多的支持。
數(shù)據整合
企業(yè)內部的知識存在于各種信息載體當中,如辦公文檔(MSOffice PDF等文件)、企業(yè)網站、員工論壇、OA、
CRM等應用系統(tǒng)數(shù)據。針對企業(yè)中龐雜的非結構文檔,各種應用復雜的數(shù)據存儲方式,IRMS R3中提出了虛擬數(shù)據庫層 (Data Virtualization Layer)的概念。
IRMS R3中虛擬數(shù)據庫層的構思與該系統(tǒng)其它階層采用的平臺開發(fā)理念是一致的。在這個底層,虛擬數(shù)據庫層分為數(shù)據提取層(Data Source Composer)和文件解析層(Data Extraction Layer),兩個組件來協(xié)同進行各種復雜的數(shù)據存儲格式的解析。
其中,數(shù)據提取層(Data Source Composer)能分析在各種文件管理系統(tǒng)、內容管理系統(tǒng)(Documentum、FileNET等)或其它信息處理軟件(IBM Notes、MSExchange、各種DBMS等)中所找到的分布式數(shù)據庫數(shù)據。將企業(yè)內部的各個異構數(shù)據環(huán)境整合起來,使得企業(yè)知識搜索引擎可以覆蓋企業(yè)內部所有的知識載體,讓價值信息無一漏網。
而文件解析層則能分析各種文件格式(TXT、 MS Office、PDF、EML、ZIP等),并對這些文件的各種屬性進行提取,從而提供使用者可以通過文件屬性,文件內容等多個維度定位需要的文檔,獲取信息,并將其轉化為知識。
為了適應不同企業(yè)更復雜的數(shù)據環(huán)境,這兩個階層提供靈活的擴展性,都可以通過簡單的程序開發(fā)來支持企業(yè)內部獨特的數(shù)據存儲方式及文檔格式。像龍卷風數(shù)據索引系統(tǒng)(Indexing System)和標準的檢索組件(Standard Retrieval Components)都經過特別設計,能滿足以雙字節(jié)字符集(如繁簡中文,日文等)格式或存有多國語系文件的跨國企業(yè)知識搜索引擎的需求。
同時,IRMS R3符合行業(yè)標準、松散耦合的開放式的組件設計,能隨時加入有新功能的組件或其它廠商的組件,從而強化系統(tǒng)功能。
信息總線技術
IRMS R3中信息總線 (Info Bus) 在整個信息平臺具有承先啟后的關鍵地位。一方面,它和底層的虛擬數(shù)據層整合,各種數(shù)據源會統(tǒng)一經過虛擬數(shù)據層的分析,并將取得的內容統(tǒng)一存放到信息總線上。同時,對于上層的IR組件模塊(搜尋引擎模塊、自然語言處理模塊、自動分類模塊等)而言,信息總線則扮演信息提供者的角色,統(tǒng)一將透過虛擬數(shù)據層粹取出來的數(shù)據進行集中管理,并提供各IR組件取用。如此一來,各個IR組件不需負擔數(shù)據源分析的工作,直接讀取信息總線上的數(shù)據,即可輕易取得各種異構數(shù)據源的內容。
值得注意的是,IRMS R3 的信息總線并不是單純的數(shù)據儲存點。為配合信息檢索(Information Retrieval)的信息處理需求,R3的信息總線是被設計成一個隊列式(Queue)的儲存架構。一開始,所有從虛擬數(shù)據層取得的數(shù)據會先被置放在隊列儲存中心(Queue Store)集中管理。等到上層的各個IR組件要開始處理數(shù)據時,在隊列儲存中心(Queue Store)的資料會被移轉到處理儲存中心(Process Store)。這樣可以確保原始數(shù)據的內容選取以及內容分析可同時并行。最后,當各個IR組件完成所需的數(shù)據分析,數(shù)據會被統(tǒng)一搬移到歷史儲存中心(History Store),方便將來如果有個別IR組件需要重新讀取數(shù)據內容時,直接讀取位于歷史儲存中心的數(shù)據,即可取得完整的數(shù)據內容。
知識地圖和關鍵詞檢索
Delphi Group曾經做過的一份調查顯示,一般人最希望的知識管理工具,「搜索引擎」和「自動分類」排名在前十名之中。因此,企業(yè)內若要讓知識的利用率提高,提供完整的信息檢索工具是必然的工作,但必須了解
導覽(Navigation) + 搜索(Search) = 完整的信息檢索方式
因此,對于企業(yè)知識搜索引擎而言,單純的關鍵詞檢索僅能提供對已知關鍵詞匯下的查詢,而構建企業(yè)知識地圖對于知識搜索則是十分必要的。
IRMS R3中的自動分類組件提供了以機器自動學習技術為基礎的內容/消息分類器(Content/Message classifier),可將暨有的內容或消息分類到預先定義的目錄樹中,或是更進一步的透過訓練機制來做分類工作。基于IRMS R3的自動分類組件構建企業(yè)知識地圖,使得使用者結合導覽+搜索的完整信息檢索方式,更快更準確的在
企業(yè)信息數(shù)據中發(fā)現(xiàn)所需知識,以便應用,開拓創(chuàng)造思維。
同時,IRMS R3提供最新的導覽式動態(tài)分類服務,它整合了全文檢索(Full-Text Search)以及自動分類(Auto-Classification)的兩大信息檢索技術,提供使用者一個完整的信息檢索應用情境。
IRMS R3 導覽式動態(tài)分類服務將分類與搜索接口進行了完美的結合,使用者除了可以利用全文檢索取得符合查詢條件的結果集并且逐一瀏覽,還能夠進一步實時的取得該查詢集合對應于整個信息分類(知識地圖)的分布情況。使用者可以在最短時間內了解整個查詢結果集合的特性及分布情況,同時也能有效率地從眾多數(shù)據集合中篩選出切合自己需要的目標信息。
Java/MS COM Model
●相關鏈接●
企業(yè)級搜索引擎的特點
企業(yè)網絡基礎設施的逐步完善,企業(yè)業(yè)務系統(tǒng)和應用系統(tǒng)紛紛上馬,導致企業(yè)積累的信息資源迅速膨脹,甚至出現(xiàn)了諸如“拯救被信息淹沒的企業(yè)”這樣的呼吁。于是,企業(yè)級搜索引擎的發(fā)展日益引人注目。與互聯(lián)網搜索引擎相比較,企業(yè)級搜索引擎具有以下特點:
GB級索引數(shù)據量
面向企業(yè)本身的數(shù)據或與企業(yè)相關的數(shù)據,索引庫規(guī)模在GB級,數(shù)據量至多以千萬條計。
多源異構數(shù)據類型
多源異構的復雜數(shù)據結構,結構化(關系型數(shù)據庫)、非結構化(HTML、Office系列、文檔文件系統(tǒng)和郵件系統(tǒng)等)和半結構化(XML等)數(shù)據資源;以文本、數(shù)值以及多媒體形式存在的數(shù)據資源,可能分布在不同介質的載體和操作管理平臺上。
數(shù)據實時更新
企業(yè)內部的搜索結果往往關系到企業(yè)的運營與決策,因此必須實時反應企業(yè)信息更新,動態(tài)更新索引,保證數(shù)據一致性。
內容相關性
數(shù)據源中相互鏈接的程度不高,只能是基于內容的相關性排序。
嚴格的安全性
做為企業(yè)級搜索引擎應能夠繼承數(shù)據庫原有的安全機制,更要能讓用戶在其訪問權限范圍內返回相應的查詢結果。
全面搜索
衡量搜索引擎性能的指標之一是查全率(Recall),即檢索出的相關結果與網絡資源庫中所有相關結果的比率。互聯(lián)網搜索引擎無法做到全面搜索,因為任何一個搜索引擎服務商都無法窮盡互聯(lián)網上的每個網頁。而企業(yè)級搜索引擎在某些應用中,是不允許有所遺漏的檢索。
準確搜索
衡量搜索引擎性能的另一個指標是查準率(Precision),即檢索出的相關結果與檢索出的所有結果的比率?;ヂ?lián)網搜索引擎受到海量數(shù)據(TB級甚至更高)和龐大用戶數(shù)的限制,相對而言,企業(yè)級搜索引擎在提高信息檢索結果的精度上,可以走得更遠。
對一個檢索系統(tǒng)來講,查全率和查準率不可能兩全其美,目前有的企業(yè)級搜索引擎通過提供更加復雜細致的檢索選項和檢索表達式,或者是提供一些可調節(jié)的系統(tǒng)參數(shù),來部分滿足兩全其美的需求。
個性化檢索
基于智能代理技術(Intelligent Agents Technology)的信息過濾和個性化服務。
|