申請免費試用、咨詢電話:400-8352-114
cr
知識發(fā)現(xiàn)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程;數(shù)據(jù)開采是知識發(fā)現(xiàn)過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。1996年,Fayyad、PiatetskyShapiror和Smyth將知識發(fā)現(xiàn)過程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。
知識發(fā)現(xiàn)過程是多個步驟相互連接、反復進行人機交互的過程。具體包括以下步驟:
1.學習某個應用領域:包括應用中的預先知識和目標。
2.建立目標數(shù)據(jù)集:選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。
3.數(shù)據(jù)預處理:去除噪聲或無關數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時間順序和數(shù)據(jù)變化等。
4.數(shù)據(jù)轉換:找到數(shù)據(jù)的特征表示,用維變換或轉換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。
5.選定數(shù)據(jù)挖掘功能:決定數(shù)據(jù)挖掘的目的。
6.選定數(shù)據(jù)挖掘算法:用知識發(fā)現(xiàn)過程中的準則,選擇某個特定數(shù)據(jù)挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式。
7.數(shù)據(jù)挖掘:搜索或產生一個特定的感興趣的模式或一個特定的數(shù)據(jù)集。
8.解釋:解釋某個發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉換某個有用的模式,以使用戶明白。
9.發(fā)現(xiàn)知識:把這些知識結合到知識管理系統(tǒng)中,獲得這些知識的作用或證明這些知識。用預先、可信的知識檢查和解決知識中可能的矛盾。
|