數據挖掘中要避免的11大錯誤_Game2.tw 互聯網從業人員 
設為首頁 - 加入收藏
热搜:
當前位置: 遊戲行銷 > 技術動態 > 網站搭建 >

數據挖掘中要避免的11大錯誤

2014-10-07 02:13 [網站搭建] 來源:www.game2.tw
導讀:導語: 數據挖掘最重要的要素是分析人員的相關業務知識和思維模式。我們在掌握豐富的業務知識同時,如果能夠按照正確的思維模式去思考問題,將會發現解決問題並不是很困難的。

導語:數據挖掘最重要的要素是分析人員的相關業務知識和思維模式。我們在掌握豐富的業務知識同時,如果能夠按照正確的思維模式去思考問題,將會發現解決問題並不是很困難的。

1. 缺乏數據(Lack Data)

對於分類問題或預估問題來說,常常缺乏準確標註的案例。

例如:

欺詐偵測(Fraud Detection):在上百萬的交易中,可能隻有屈指可數的欺詐交易,還有很多的欺詐交易沒有被正確標註出來,這就需要在建模前花費大量人力來修正。

信用評分(Credit Scoring):需要對潛在的高風險客戶進行長期跟蹤(比如兩年),從而積累足夠的評分樣本。

2. 太關註訓練(Focus on Training)

IDMer:就象體育訓練中越來越註重實戰訓練,因為單純的封閉式訓練常常會訓練時狀態神勇,比賽時一塌糊塗。

實際上,隻有樣本外數據上的模型評分結果才真正有用!(否則的話,直接用參照表好瞭!)

例如:

癌癥檢測(Cancer detection):MD Anderson的醫生和研究人員(1993)使用神經網絡來進行癌癥檢測,驚奇地發現,訓練時間越長(從幾天延長至數周),對訓練集的性能改善非常輕微,但在測試集上的性能卻明顯下降。

機器學習或計算機科學研究者常常試圖讓模型在已知數據上表現最優,這樣做的結果通常會導致過度擬合(overfit)。

解決方法:

解決這個問題的典型方法是重抽樣(Re-Sampling)。重抽樣技術包括:bootstrap、cross-validation、jackknife、leave-one-out…等等。

3. 隻依賴一項技術(Rely on One Technique)

IDMer:這個錯誤和第10種錯誤有相通之處,請同時參照其解決方法。沒有對比也就沒有所謂的好壞,辯證法的思想在此體現無遺。

“當小孩子手拿一把錘子時,整個世界看起來就是一枚釘子。”要想讓工作盡善盡美,就需要一套完整的工具箱。

不要簡單地信賴你用單個方法分析的結果,至少要和傳統方法(比如線性回歸或線性判別分析)做個比較。

研究結果:按照《神經網絡》期刊的統計,在過去3年來,隻有1/6的文章中做到瞭上述兩點。也就是說,在獨立於訓練樣本之外的測試集上進行瞭開集測試,並與其它廣泛采用的方法進行瞭對比。

解決方法:

使用一系列好的工具和方法。(每種工具或方法可能最多帶來5%~10%的改進)。

4. 提錯瞭問題(Ask the Wrong Question)

IDMer:一般在分類算法中都會給出分類精度作為衡量模型好壞的標準,但在實際項目中我們卻幾乎不看這個指標。為什麼?因為那不是我們關註的目標。

(编辑:admin)

網友評論
推薦文章