監(jiān)理公司管理系統 | 工程企業(yè)管理系統 | OA系統 | ERP系統 | 造價咨詢管理系統 | 工程設計管理系統 | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產品資料
X 關閉

數據挖掘的“無底洞”

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件

由于缺失商業(yè)分析和監(jiān)督程序,數據挖掘工具在美國反恐中的應用陷于困頓。

2001 年9 月27 日晚,紐約城市大學計算機科學教授Howard Rubin 正在家進行贖罪日禱告,這一天是希伯來歷中最神圣的節(jié)日。此時,他家中的電話鈴聲響起,電話那頭是前美國政府信息機構的一位最重要的官員。他問Rubin是否了解政府可以用來抓捕恐怖分子的IT技術。在克林頓執(zhí)政期間,Rubin 曾就一些技術課題向美國政府當局提供過建議。但由于缺乏商業(yè)分析和足夠的監(jiān)督,Rubin 的答案——數據挖掘如今成為旋繞在這個智囊團大部分成員頭上的技術咒語。

就監(jiān)督程序來說,美國政府為防止恐怖主義而開展的數據挖掘工作是一場災難

“無底洞”

在IT 領域,數據挖掘是一個相對較新的應用領域,它把統計模型、高性能處理器和人工智能結合在一起,以發(fā)現并恢復有價值的信息,否則這些信息可能會一直被埋藏在海量數據中。零售商可以利用數據挖掘技術預測消費者的購物模式,信用卡公司可以用它查明信用卡欺詐。911 恐怖襲擊之后,美國政府開始利用數據挖掘技術,幫助安全部門預防未來的恐怖襲擊。

現在,美國政府已經非常依賴數據挖掘技術,特別是在情報界?!?004 美國聯邦政府會計總署報告》顯示,美國政府部門積極參與或正在籌劃的數據挖掘項目為199個,其中14個項目明確用于抓捕恐怖分子和預防恐怖襲擊。這些項目還不包括美國中情局和國土安全部等7個部門的自有項目。在過去1年中,美國媒體披露,這幾個部門都有一些高度機密的計劃,涉及收集和搜尋電話記錄、電子郵件和其他個人信息中的數據模型樣本。當這項計劃披露后,布什總統和其他政府高官都竭力為此辯解,理由是它對反恐很重要。

有關專家指出,由于政府對這些數據挖掘工具的大力投入,以及情報安全部門所面臨的巨大壓力,所以相關官員批準這些項目的速度之快,大大超乎人們的想像?!叭绻@些項目有價值,人們就不會站到反對數據挖掘的陣營一邊,不接受政府的這種做法?!盧obertPopp說,他是美國國防先進技術研究計劃下屬的信息識別辦公室主任。當然,政府官員對實施數據挖掘項目都有著直白的理由——“我們想保衛(wèi)我
們的國家和我們的生活方式?!盧obert Gourley說,他是美國國防情報局(Defense Intelligence
Agency)的首席技術官。

然而一些專家開始對此進行置疑——這些沒有樣本對象范圍限制、沒有預算限制和時間表限制的IT戰(zhàn)略能否最佳地實現預期目標。這是美國情報機構CIO們每天都要面對的難題。無論這些項目的意義如何重大,不加以控制,往往都會流于失敗。據Sandish Group(一家跟蹤IT成功率的分析公司)的觀點,缺乏監(jiān)督是IT 項目失敗的主要原因?!罢疀]有人從IT價值角度看待數據挖掘工具,我也描述不出數據挖掘的價值,但我不會停止對它的使用?!盨teve Cooper說,他是美國國土安全部(United States Department of Homeland Security, DHS)的CIO。

根據他的說法,沒有人會為政府的IT 項目做商業(yè)分析,以確定政府真的從IT 投資中獲得了回報。政府為自己提供的有關項目是否合乎經濟原則的解釋似乎很充分——如果某個項目有可能抓住哪怕一名恐怖分子,那么它就是值得的。不過,假設美國政府管理IT 項目的歷史記錄特別糟糕,那么強制要求其對項目進行優(yōu)先級劃分和管理控制,結果反而適得其反。專家擔心某些IT 項目會拖延幾年,而有些好項目會因為涉及隱私和公民自由等被束之高閣。實際上,美國國會已經中止了大量數據挖掘項目,包括國防部的“全面信息識別計劃”(Total Information Awareness project)。這項計劃于2003 年野心勃勃地啟動,它試圖建立一個巨型數據庫,收集、分析可能的恐怖分子的任何數據。

因此,數據挖掘專家指出,企業(yè)的CIO 運用IT 戰(zhàn)略,可以保證項目不脫離自己的控制,政府也需要對反恐的IT 戰(zhàn)略進行類似的商業(yè)分析?!斑@些項目有著極為合理的目標,但沒有監(jiān)控程序。”Fred Cate 說,他是印第安納大學應用虛擬安全研究中心主任。

監(jiān)控缺失

目前,美國政府的數據挖掘項目分為兩大類:一類是基于監(jiān)控對象的系統。它能夠幫助分析專家跟蹤某個恐怖頭目;另一類是基于行為模式的系統,它可以在多種活動方式中搜尋可疑行為?;诒O(jiān)控對象的數據挖掘技術吸引了諸多工作人員和學者,被稱作關聯分析法(link analysis)。它利用數據,在表面上沒有關系的人或事件之間建立關聯。如果你知道某人是恐怖分子,那么就可以使用關聯軟件發(fā)現嫌疑犯可能正在影響的其他人。很多專家都認為,美國國土安全部可以分析上百萬條國內電話記錄的系統就屬于關聯分析系統。

“關聯分析項目只有在較窄的樣本對象范圍內才有用。”Valdis Krebs說,他是一位IT 咨詢顧問。在911 慘案之后,他畫出了著名的顯示劫機涉案關系人的關聯圖。成功的關聯分析需要一個可靠的關系起始點,但是當分析不規(guī)律行為的時候,這種方法就變得不那么有效?!爱斈阌^察大量樣本對象時,你就很難區(qū)分他們是恐怖分子還是你不認識的其他人?!盞rebs說。如果美國政府把網撒得太大,項目成本就會更高、耗費時間就會更長,且會增加“誤報”風險。

用于反恐的數據挖掘技術想得到提高,那么需要改變的不只是業(yè)務規(guī)則,一個數據挖掘系統如果沒有優(yōu)質數據的支持,就什么也不是。“單獨使用名字來監(jiān)測嫌疑對象,不是一種有希望的方法?!盝eff Jonas 說,他是數據挖掘知識領域內的超級明星,他曾經讓拉斯維加斯的賭場免遭詐騙。

企業(yè)的CIO運用IT戰(zhàn)略,可以保證項目不脫離自己的控制,政府也需要對IT戰(zhàn)略進行類似的商業(yè)分析

911 之后,美國政府開始用Capps 二代系統替換老系統(CappsII,即電腦輔助乘客預檢系統II ,Computer AssistedPassenger Pre-Screening system II,用于對每位乘機者的背景進行更深入調查,將個人信息和美國政府掌握的犯罪紀錄、情報資料進行對比)。老系統只能跟蹤從航空公司收集來的乘客信息,包括姓名、信用卡號碼、地址等,而CappsII 系統增加了從數據處理公司那里精選來的數據。2003 年,CappsII 剛開始實施時,就聲名狼藉。當時,有媒體揭露,美國西北航空公司和JetBlue 航空公司把乘客記錄交給了美國交通安全管理局(Transportation Security Administration,TSA),從而用這些數據來檢驗新系統。

2004 年8 月1日,交通安全管理局取消了對CappsII系統超過1億美元的投資,轉而推動“安全飛”(Secure Flight)的新系統。Secure Flight 系統和它的“前輩”有很多共通的特點,最明顯的就是把乘客記錄和從商業(yè)數據庫購買來的數據結合在一起。2005 年9 月,Secure Flight 系統工作組——一個由數據挖掘和隱私專家組成的團隊,被交通安全管理局請來審查這個項目,他們用9個月時間對系統進行分析,最終提交了一份對該系統存亡極為關鍵的機密報告文獻。1周之內,這個報告被掛到了互聯網上。安全專家Bruce Schneier曾是這個工作組的成員。他認為,如果缺乏恰當的樣本對象,數據挖掘反而會破壞反恐IT工作的努力。他把CappsII和Secure Flight看做這一觀點的兩個佐證。Schneier說:“即便努力設計的數據挖掘系統能夠過濾電話記錄或信用卡交易,且能夠以99%的成功率定位恐怖分子,它依然不能算做可以放心的好調查工具。如果近3億美國人每天打10次電話,那么1年就會制造出1萬億條要由政府挖掘的數據。此時,即便有99%的精度,每年也會產生100億條的漏報。99%的準確度依然意味著會漏掉一些真正的恐怖分子,數據挖掘是一種浪費錢的徒勞行為。”

Schneier指出,相比反恐應用,數據挖掘更能在預防信用卡欺詐等領域發(fā)揮作用。這是由于詐騙高手們的行動方式是可以預測的,并且信用卡數據挖掘系統的操作人員已經畫出了一條清晰的ROI(投資匯報率)曲線——這條曲線處在一個可以接受的漏報或誤報水平上,且操作人員據此相應調整了整個系統的參數設置。例如大多數信用卡發(fā)卡機構都愿意接受幾千美元的損失,以防止消費者每次透支過限走出結賬柜臺時警鈴大作。如果誤報情況不經常發(fā)生,消費者不會介意偶爾的警報打擾,他們甚至有可能看作這是發(fā)卡機構正在努力保護自己的一種信號。

Capps II 和Secure Flight 卻沒有這樣的投資回報率分析機制。美國政府并沒有重新考量這兩個項目的目標和應用范圍,只是把它們擴展到了包括描繪嫌疑人外形輪廓、追捕普通罪犯等應用上。由于對這兩個IT項目的目標定義過于寬泛,導致它們到如今依然不能發(fā)揮作用。“交通安全管理局從來不愿意重新評估項目的樣本覆蓋范圍,所以現在我們依然不能擁有一個自動化系統,能把乘客姓名和恐怖分子觀察名單上的姓名相匹配?!?/FONT>

盡管像CappsII 這樣的項目已經成為明顯的失敗案例,但數據挖掘專家依然在鼓吹數據挖掘會成為反恐的有效工具,且由于這項技術非常新,隨著時間的推移,它會堅持到對事情更有幫助的那一天,前提是如果它能得到正確管理。但是美國政府的大多數數據挖掘項目并沒有經過嚴格的商業(yè)分析?,F在,美國情報部門CIO都認為這是困擾他們很久的問題。最近,美國國家科學院(National Academy of Sciences,NAS)任命了一個委員會,開發(fā)出了一套美國政府能用來評估反恐數據挖掘項目效率的方法,但是它的報告目標截止期限已經在1 年之后了?!熬捅O(jiān)督程序來說,美國政府為防止恐怖主義而開展的數據挖掘工作是一場災難?!保╟eocio-CCW)

 

發(fā)布:2007-04-23 09:41    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]