監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產品資料
X 關閉

互聯網上的數據挖掘

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

想聽一首歌,不必想好其歌名,到搜索引擎里去搜索、下載;而是輸入現在的心情,比如“激昂”,播放器就自動播放出《男兒當自強》這樣的歌曲,而且一首接著一首。

想去旅游,不必苦思要去什么具體的城市,而是輸入大概想法,比如“浪漫的周末度假”,就能馬上看到十個建議:包括一家臨海賓館的情侶房、燭光晚餐、一套在周五晚起飛周日晚返歸的機票。

要完成這些人性化服務靠搜索引擎是不行的,得靠數據挖掘?,F在,數據挖掘的各種應用離為我們提供上面這些真實服務已經越來越近了。

數據挖掘(Data Mining)與我們所熟悉的信息檢索(Information Retrieval)的不同之處在于:信息檢索是針對數據的明顯特征來尋找信息,比如Google等搜索引擎就是尋找含有某關鍵詞的網頁、并且根據鏈接數來判斷其重要性。而數據挖掘則要復雜很多,其目的是要在大量數據中“挖掘出有趣的可理解的知識”,這是搜索引擎不能完成的。所以數據挖掘也叫數據庫中知識發(fā)現(Knowledge Discovery in Database,KDD)。

本質上,數據挖掘能夠把海量數據變成可被人類可直接利用的信息,是一個“把冰冷信息人性化”的過程?,F在,針對數據挖掘的前沿應用已經非常之多,覆蓋了不同的領域,以不同的方式呈現出來。今后,互聯網用戶所接觸到的不再只會是傳統(tǒng)搜索引擎輸出的一排排的網頁,而可能是溫情脈脈的令自己更加親切和感動的方式。

音樂

互聯網用戶會在很多場合,比如博客和論壇里,留下很多自己對音樂的看法,比如在某種心情下推薦的歌曲,在某種情緒下整理了一張歌單。就留下了比如“今天我好亢奮,我在聽《男兒當自強》”這樣的線索。有道把這千千萬萬個用戶的“聲音”整合起來,通過提煉、去除噪音、自動聚合相關詞、配對,就實現了心情和音樂的一一對應。

Google音樂里的“挑歌”功能,與有道隨心聽也神似。Google挑歌的方式是:提供可供用戶自己調節(jié)的音調、音色等搜索選項,每一個選項都有一個滑塊可供自由調節(jié)。用鼠標點擊拖動滑塊,通過節(jié)奏的舒緩或強烈、音調的低沉或尖銳、音色的豐富或單純來查詢最希望聽到的音樂。筆者嘗試挑出一首“節(jié)奏舒緩,聲調低沉,音色適中”的歌,“挑歌”輸出的結果是張學友的《相思風雨中》和徐小鳳的《蒙蒙夜雨》。

這兩個產品會完全改變以往的尋找音樂的方式:只有當你想好某一首歌的名字后,才能去搜索引擎里把它找出來。其實音樂的歷史遠遠早于文字,所以音樂應當回歸人類溝通的本能,挑歌和隨心聽的功能可以用音樂自身特性去搜索音樂,讓音樂跨越語言和文字的障礙,成為人類最自然的溝通方式。

廣告

創(chuàng)業(yè)公司PeerSet新發(fā)布了一個廣告數據工具,能夠通過網頁內容分析提供網絡用戶“心理”方面的特征。Peerset的技術能夠有機地把用戶的興趣、價值觀、生活方式、對品牌的態(tài)度關聯在一起。讓廣告主了解到這些背景信息。

基本上,Peerset的套路是跟蹤社交媒體上的各種互動,試圖加以解釋、并且把各種信息加以關聯,然后為廣告主給出結果。比如,如果廣告的特征“時尚”,那么Peerset就可能根據對信息的檢測和梳理得出:那些談論“情欲都市”和“麥當娜”的人就是合適的受眾。Peerset就是要通過“心理”方面的特征把對不同廣告合適的不同人群找出來。

Peerset不只是提供關于目標人群的數據庫給廣告主,還會整合當前的廣告系統(tǒng),直接把相應的廣告放到合適的網頁位置上去。比如,對于想做廣告的時尚服裝廣告主,Peerset會在接單以后,直接把廣告投放到Facebook上一個喜歡《情欲都市》電影的那個用戶的頁面上。

這種廣告方式又與搜索引擎的廣告有了本質的不同。搜索引擎廣告的優(yōu)勢在于對準了有明確購買傾向的用戶,而Peerset廣告能夠把有潛在購買傾向的用戶“挖掘”出來。是的,這種方式與傳統(tǒng)的品牌展示廣告目的相似,不過,Peerset要更有效率。因為品牌廣告是撒大網,而Peerset試圖做到“精準”匹配。

調研

Facebook手里有3億用戶和每天4000萬次狀態(tài)更新,利用如此巨大的海量數據,可以對幾乎任何話題做評測。諸如人們最關注的品牌,最關心的政治問題。于是工程師們決定利用這些數據,來評測國民幸福指數(Gross National Happiness)。這個新應用將最大可能地評測美國Facebook用戶是幸福還是悲觀的。產品開發(fā)人員是這樣描述的:

把來自全國各地的數百萬Facebook用戶的狀態(tài)更新數據集合在一起,可以說明國民的幸福感有多強。評測國民感到幸運、幸福,以及對生活滿意的程度是這項國民幸福指數評測項目的一部分。當用戶在狀態(tài)更新中使用比平時多的積極詞匯(或少的消極詞匯)時,表示這一天比平時更幸福。

這些數據都是匿名從Facebook論壇上收集的。為確定某些狀態(tài)信息究竟表示幸福還是悲傷,或兩者都不是,這項應用還必須搜索開發(fā)人員確定的與每個情緒相聯系的流行短語和詞匯。結果是:周一人們的幸福指數最低,然后一直到周末,幸福指數不斷上升,在下一周開始時,又跌至最低。通常,幸福指數在假期附近較高。今年6月底,人們的幸福指數急速下滑,這可能與流行音樂之王Michael Jackson的逝世有關。

旅游

Center´d是由YahooLocal這款產品的前總經理Dulski掌舵的一個活動組織網站,也就是把促成一個聚會活動所需要的三要素便捷地組織起來:人,地點,計劃(people,place,plan)。不過,Cener´d特別之處是,在其搜索結果里加入了“語義分析”,號稱其結果要比同類網站的“關鍵詞”搜索結果更好。

Center´d已經積累了100萬次的針對活動的搜索,并把這些搜索根據其目的進行分類。為此,Center´d的自主大量的分析發(fā)生在網上的關于某個活動的談話或者討論,以對這個活動打上“正面”或者“負面”的標簽。然后形成數據庫,再形成圖表。

Dulski認為,這種基于語義的分析要比普通的關鍵詞搜索更好,因為能夠篩除很多不精確的匹配。比如,一個“不適合同性戀的Party”,就不會出現在一個對“同性戀Party”做搜索的結果里。因為Center´d已經通過語義分析知道了,“同性戀”前面的“不合適”就表示一個“負面”評價。

基于這個數據庫,Center´d就能夠形成一個針對不同標準的活動指南。比如,在北京的浪漫之旅、廉價旅游四川等等。這些特定標準的搜索結果大部分由數據庫自動生成,但也有少量編輯參與其中,以確保質量。

Dulski說,很多用戶來到Center´d時其實腦袋里并沒有一個明確的目的,所以諸如“北京的浪漫之旅”或者“兒童們的六一節(jié)日”這樣的柔性、感性、概念性的東西能夠容易激起他們的興趣,并且一步步誘導他們完成一次活動的準備???,這個看法跟Google挑歌和有道隨心聽的邏輯是多么神似。唯一不同的是所針對的對象不一樣。

任何服務或者工具面對的都不是一個對自己需求有明確認識的理性人,而是一個有著一點感覺,但需要被引導的感性人。這無疑是一條正確的發(fā)展之路。

產品改進

數據挖掘也在幫助產品經理們改善用戶體驗。在很多大的互聯網公司,這實際上成為了輔佐公司戰(zhàn)略的數字神經系統(tǒng)。

互聯網公司一般都記錄了所有用戶在其網站(尤其是網絡游戲和社交網絡)上的所有點擊、行為路徑、相應的時間。如果用戶嘗試一個新產品,用一兩秒鐘就退出來了,說明這個產品可能有問題,而不是用戶不想用;而其中出問題的很可能就在用戶的最后一次點擊發(fā)生的地方。

比如騰訊就一款網游中的子彈射出后的彈道設置做研究,根據對用戶的挖掘數據認為,游戲原本設計的逼真效果對中國用戶并不合適,而用戶對一種新設計的“比較爽快的、節(jié)奏快的、鮮明的”的彈道設計更加興奮。

在網游業(yè),數據挖掘的最系統(tǒng)應用就是盛大的“平臺”戰(zhàn)略。也就是,把任意一款游戲拿到其從2004年就開始建立的一套“評測”體系去走流程,就可以知道這款游戲到底會不會受到玩家的歡迎。其根據,就來自于盛大在過去運營的上百款游戲的用戶數據的記錄、分析、關聯、最后建立模型?;谶@套評測流程,盛大就可以對一款新游戲做出判斷,到底該不該運營、如何去改進、潛力有多大,都有了一套從數字出發(fā)的答案。

發(fā)布:2007-04-21 11:20    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
南昌OA系統(tǒng)
聯系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普南昌OA行業(yè)資訊其他應用

南昌OA軟件 南昌OA新聞動態(tài) 南昌OA信息化 南昌OA快博 南昌OA行業(yè)資訊 南昌軟件開發(fā)公司 南昌門禁系統(tǒng) 南昌物業(yè)管理軟件 南昌倉庫管理軟件 南昌餐飲管理軟件 南昌網站建設公司