成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓
當前位置:工程項目OA系統(tǒng) > 泛普各地 > 安徽OA系統(tǒng) > 合肥OA系統(tǒng) > 合肥OA快博
文本挖掘搶占商業(yè)智能掘金制高點
某業(yè)內人士對商業(yè)智能在現代社會的重要性曾做過如下比喻,《世說新語》中講: “盲人騎瞎馬,夜半臨深池?!?這短短十個字隱藏了四個危險:由無知的經理人來經營企業(yè),就如同“盲人騎馬”,這是第一個危險;依賴無知的員工,就如同“騎瞎馬”,這是第二個危險;參與激烈的市場競爭,就如同“臨深池”,這是第三個危險;在全球經濟不景氣的時候參與激烈的市場競爭,就如同“夜半臨深池”,這是第四個危險。所以“無知”,已成為企業(yè)最大的威脅。
互聯網時代,網絡中充斥著海量信息,企業(yè)需要對它們進行合理及有效地利用,從而幫助企業(yè)在業(yè)務管理及發(fā)展上做出及時、正確的判斷,然后采取明智的行動,做到在競爭中占據主動權?;ヂ摼W上流傳著這樣一個“尿布和啤酒”的經典故事:美國一家大型超市利用數據挖掘技術來分析他們的銷售紀錄,發(fā)現尿布和啤酒的銷售量之間存在相當大的關聯性。經過進一步的調查,找到了產生這個現象的原因,在美國負責為孩子購買尿布的年輕父親們,很多時候會順帶給自己買些啤酒,于是超市采取措施將尿布和啤酒放在一起,結果兩種產品的銷售量都得到了增長。由此可見,數據爆炸時代,“商業(yè)智能”(BI)能夠摒棄企業(yè)的無知,為企業(yè)發(fā)展創(chuàng)造出巨大的價值。
另外,我們也應了解在信息社會,信息并不是單一的,而是分為兩大類:一類信息為結構化數據,如數字、符號;而另一類信息無法用數字或統(tǒng)一的結構表示,我們稱之為非結構化數據。目前,隨著網絡技術的發(fā)展,特別是Internet和Intranet技術的飛快發(fā)展,非結構化數據的數量日趨增大。據統(tǒng)計,現今企業(yè)中80%的數據是以非結構化的形式存在,如WEB頁面、技術文檔、電子郵件等。因此,商業(yè)智能除了要面對結構化數據外,更多時候是需要處理無序的非結構化數據。于是,一個從非結構化文本信息中獲取用戶感興趣或有用信息的技術——“文本挖掘技術”發(fā)展起來,人們常說的文本驅動的商業(yè)智能,就是指的文本挖掘技術。文本挖掘是數據挖掘技術的分支,它能夠使人們從大量冗余的信息中迅速發(fā)現對自己有用的信息,并在一定程度上揭示信息與信息之間的關聯。有人說文本挖掘是互聯網時代,繼門戶、搜索引擎和Web2.0之后最重要的技術之一,紐約時報甚至稱它為Web3.0。
文本挖掘作為人們挑戰(zhàn)信息爆炸式增長與信息有效利用之間矛盾的重要武器,受到世界的廣泛認可,目前國際上許多企業(yè)都在進行文本挖掘技術的研究,并取得一定成績。但在我國,文本挖掘技術發(fā)展歷史比較短。某一業(yè)內人士說:“雖然我國文本挖掘技術的發(fā)展研究還處于初級階段,但想把國外的文本挖掘技術直接在我國進行利用,可以說是一件比較困難的事情,因為中文與西方文字是不同。如我要搜索‘可樂’一詞,國外的技術可能會把‘太可樂了’等眾多不相關詞語搜索出來?!?/p>

比較而言,國內本土的軟件企業(yè)在發(fā)展文本挖掘技術上卻具有先天優(yōu)勢,如在中文分詞,習慣用語理解等方面。另外,做好中文文本挖掘技術還需要超越絕大多數現有搜索引擎所采用的單純基于特定關鍵字的查找匹配方式,而要在一定程度上去實現基于語義的搜索,即無論文中出現的是“筆記本”,“本本”,還是 “l(fā)aptop”,當我們在查找“筆記本”時,這篇文章都應該作為結果返回。但滿足以上要求并不是容易的事情,它需要在數據庫和信息檢索技術等方面具有長期的積累、也需要算法的高效,系統(tǒng)的穩(wěn)定和可擴展性。
據了解,在數量眾多的擁有文本挖掘技術的廠商中,北京拓爾思(TRS)信息技術股份有限公司是國內第一家擁有真正實用化文本挖掘產品的企業(yè)。TRS文本挖掘技術有效結合自然語言處理技術、統(tǒng)計分析和機器學習技術及語言知識庫,實現了中文文本挖掘技術的商業(yè)化應用,并在外交部、新華社、寶鋼等多家政府、媒體和企業(yè)項目中經受住了海量信息和復雜環(huán)境的考驗。
根據2007-2008中國商業(yè)智能市場發(fā)展報告統(tǒng)計:從全球范圍來看,商業(yè)智能已經成為最具有前景的信息化領域;從國內來看,商業(yè)智能是企業(yè)信息化中最重要的組成部分。但在我國,文本挖掘畢竟是一門新興的前沿技術,還有諸多問題等待研究、解決,同時也需要對人才進行儲備。為了推動文本挖掘技術整體水平向前發(fā)展;尋找、發(fā)現、選拔更多的高知識型專業(yè)挖掘技術人才投入到文本挖掘事業(yè)中來,為文本挖掘技術的前進提供有力的后續(xù)保障,“數據挖掘研究院”聯手 TRS公司共同舉辦了“2008 TRS杯中國首屆文本挖掘智能大賽”。
商業(yè)智能提升了企業(yè)對市場的洞察力,文本挖掘成就了商業(yè)智能在互聯時代的重要作用。不難想象,隨著社會經濟的快速發(fā)展,文本挖掘技術的應用將越來越廣泛,商業(yè)智能也必將成為企業(yè)在競爭中克敵制勝的有效武器之一。這里,筆者衷心祝愿大賽的舉辦取得圓滿成功,同時也希望此賽事能真正為致力于文本挖掘事業(yè)的人們搭起一座溝通的橋梁和相互學習的園地,讓中文文本挖掘技術取得更快的進步。(AMT)

