Problem Understanding

這次的KDD CUP競賽題目為音樂的data mining,有分成兩個track,而我選擇track1來做,track1問題是要從他們給的train data中,預測test data 的某user對於某item評分為何,train data內容中有很多個userID對於itemID做一個評分,這個itemID可以為trackID、albumID、artistID或genreID,這些ID代表一個不具意義的匿名,所以我們無法知道真正的使用者名字、歌名、專輯名稱或是作者,每一筆評分後面都有記載一數字和時間,這數字為一個不公開的日期到此人評分的日期相距幾天,時間則是此人幾點做的評分,track1資料夾中還有trackData1.txt(所有歌曲的ID|專輯ID|作者ID|曲風ID…|曲風ID)、albumData1.txt(所有專輯的ID|作者ID|曲風ID…|曲風ID)、artistData1.txt(所有的作者ID)、genreData1.txt(所有的曲風ID),這是一個預測的問題,所以必須從已知的training data找到一個model,並對未知的testing data做一個classify[1]或是迴歸分析[2]。