類神經期末作業

                        M9904204 盧柏憲

文字方塊: KDD流程 文字方塊: 議題 文字方塊: 預測 文字方塊: 參考資料
 

 

 

 


KDD流程圖

 


 

 

議題

Issue1-Data peocess

Q1

工具選擇SQL

 

由於之前使用excel有檔案太大的問題,而上次課程中,聽到有其他同學使用SQL來解決問題,所以從圖書館借了SQL的書與光碟,來嘗試看看可否解決excel未解決的問題

 

Q 1 版本選擇

 

Microsoft Windows [版本 6.1.7600]

Copyright (c) 2009 Microsoft Corporation.  All rights reserved.

Q  2  'C:\' 不是內部或外部命令、可執行的程式或批次檔。

 

C:\Windows\system32>C:\

'C:\' 不是內部或外部命令、可執行的程式或批次檔。

 

C:\Windows\system32>C:\mysql\bin\mysqld

 

C:\Windows\system32>C:\mysql\bin\mysqld --install

The service already exists!

The current server installed: C:\mysql\bin\mysqld MySQL

Q  3 服務啟動失敗

C:\Windows\system32>net start mysql

MySQL 服務正在啟動 .

MySQL 服務已經啟動成功。

C:\Windows\system32>

 

測試

由於一開始找不到位置,所以上網路收尋相關指令,也問了同學,了解了在命令系統管理員,可以用cd 來指向需要的檔案

C:\Windows\system32>cd mysql\

 

 

 

 

資料處理

Excel     

 

Q4由於之前版本為2003excel,但是資料量太大而無法成功的albume數值全部載入,

2003版本示意圖

A 重灌了電腦,將軟體升級為windows 7,並安裝2007的版本,順利的解決了無法全部載入的問題

 

Q5由於traindata1none子集,所以沒辦法直接載入使用

A 去網路上收尋後,發現有尋找與選取指令,將none以空白取代,下為指令示意圖

 

 

 

Q6 雖順利解決格式的問題,但在輸入matlab時,由於記憶體不夠,程式無法模擬

A : 嘗試了excel的巨集,以及將excel檔匯入access,嘗試將檔案分成較小的檔案

 

Data排序(決定關聯方式)

Q7要怎樣將檔案匯入工具訓練

A由於不考慮missing data ,所以直接用album檔案來直接訓練,而album的格式處理已在前面解決

 

 

Issue2-Data classification

 

 

預測


結果:發現評分者對於不同item但是同一artistID並非給予相近的分數,這代表著artistID的評分權重值偏(演唱者的評分標準不是絕對)

2.          特徵值擷取問題:因為特徵值給了itemIDdatetime,資料量過大無法一次處理。

解決方式:以統計方式觀察time與分數的相關性。

結果: 料分散,相關性不高,因此拿掉時間的特徵。

1 同一時間分數分佈

3.          資料筆數過大問題:ratings262,810,175筆資料,處理上最多只能有100萬筆,又分數筆數過於分散,難以預測。

解決方式:excel隨機分割四份各取100萬筆,作為代表數據做進一步比較。

結果: 份的資料一樣很分散,故挑選其中一份做研究。

4.          分類訓練問題:weka做分群,出現錯誤分群。因為itemID為無意義的編號值,幾乎是無法分類,也無法以weka統計方式預測test data的分數。

解決方式:撰寫程式合併資料找出itemID與其他data的相關資訊,使每一個被評分的itemID都有其對應的albumIDartistIDgenreID

結果: 料補齊合併後的成果,以下列出幾張簡化的結果說明。

2 不同評分者對同一artist之評分

 

3補上items的其他資訊使成完整矩陣,並按照分數排列

 

 

 

參考資料

1.網路資料

2. KDD官網http://kddcup.yahoo.com/

3. 鴻儒/.xcel統計學應用學習實務(贈送書籍:實戰Excel 2002中文版)

4.李競.mySQL 設計與管理 探索