描述: 描述: 描述: 描述: 描述: 描述: 描述: 描述: Img242154469.jpg KDD期末報告HW3描述: 描述: 描述: 描述: 描述: 描述: 描述: 描述: Img242154469.jpg

Introduction

Process

Issues & Survey

Result

Schedule

Reference

   營建工程系管理組   M9905115 林俊錡

   營建工程系管理組   M9905107 李悅綾

       

  指導老師 :李漢銘 教授

Introduction

一年一度KDD Cup 2011年的比賽,所提供的數據庫為雅虎音樂所提供的音樂數據庫,

數據庫提供了各個歌手、專輯、曲目、以及音樂風格,並且有著各個用戶以及各個用戶所給的分數等,以及許多其他的因子,然而除了分數與時間以外,其餘以上的數據是完全匿名的。比賽提供了兩條軌道,不同大小的數據集和準確性。 第一條軌道採用的數據集上的包含260M。對於這個數據集的任務是準確預測用戶所給的分數。第二曲目集中在一個較小的訓練集的收視率約 62M。在這裡的目標是要分別了解各種用戶所喜愛的歌曲。
The competition is divided into two tracks:

 

Track1: Learning to predict users' ratings of musical items. Items can be tracks, albums, artists and genres. Items form a hierarchy, such that each track belongs to an album, albums belong to artists, and together they are tagged by genres.

 

Track2: Learning to separate tracks scored highly by specific users from tracks not scored by them.In track2 the test set includes six items per user (all are tracks), three of which were rated highly (score 80 or higher) by the user and three were not rated by the user. The three unrated items are sampled with a probability proportional to number of their high (>=80) ratings. The task is to classify each item as either rated or not rated by the user (1 or 0 respectively). A hierarchy of items similar to the one used in Track 1 is also given for Track 2. However, timestamps of the ratings, which are given in Track 1, are withheld for Track 2.

[TOP]

Process  [TOP]

[TOP]

Issues & Survey  [TOP]

探討問題1

l   因為檔案最大有達到500M,但是我們要在匯入資料庫前要先將文字檔轉換成EXCEL的格式,所以我們利用C語言,將檔案進行切割。

描述: 描述: 描述: 描述: 描述: 描述: 描述: 描述: 描述: 描述: 未命名.bmp

 

探討問題2

l   因為檔案太多,所以我們無法全部匯入WEKA,所以我們把資料匯入MSSQL,以解決問題。

描述: 描述: 描述: 描述: 描述: 描述: 描述: 描述: 描述: 描述: 未命名2.JPG

 

探討問題3

l   MSSQL裡面的資料做合併

l   SQL裡的指令”LUNION ALL“目的將兩個以上的 SQL 資料的結果 合併在一起。

 

探討問題4

匯入WEKA並做型態錯誤的解決

[TOP]

Result   [TOP]

[TOP]

Schedule   [TOP]

[TOP]

Reference  [TOP]

SQL SERVER 2005資料採礦聖經(尹相志)

C語言程式設計範例入門 (許 富強)

C語言程式設計 (劉紹漢)

KDD CUP, http://kddcup.yahoo.com

Weka,  http://www.cs.waikato.ac.nz/ml/weka/

[TOP]