
服務(wù)質(zhì)量評分0.0分 棒
實(shí)驗(yàn)背景:
分析kaggle官網(wǎng)下載的泰坦尼克號數(shù)據(jù)集并且建立模型
?
實(shí)現(xiàn)過程:
1. 展示已有數(shù)據(jù)
? ? ?a. 總體存活比
? ? ?b.不同社會等級、性別、家庭成員數(shù)量和年齡的存活情況(分別列圖)
? ? ?c.不同艙門上船、社會地位與性別的存活情況
2. 數(shù)據(jù)處理
? ? ?a.特征處理
①減少不必要特征
姓名與幸存者數(shù)據(jù)關(guān)系不大,使用Mr、Royalty等具有地位特征的詞匯進(jìn)行取代
②簡化特征
將家庭成員數(shù)量劃分為1-3三個檔位,不再使用具體數(shù)字
處理船票編號特征時發(fā)現(xiàn)許多人使用了相同的船票編號,可以推斷家庭成員共用同一編號的船票,判斷依據(jù)是列出了相同票號的乘客數(shù)量,與家庭成員數(shù)量的統(tǒng)計相同
因此也將票號列為1-3三個檔位
? ? ?b.缺失數(shù)據(jù)補(bǔ)充
艙門、票價特征的缺失使用眾數(shù)填補(bǔ)
? ? ?c.個別數(shù)據(jù)排除
由于本實(shí)驗(yàn)的目的是建立模型,需要排除個別特例避免模型過于個性
分析數(shù)據(jù)得出,相同姓氏的家庭組中,普遍為男性死亡,女性和兒童的存活率較高。因此選出家庭中只有男性存貨的個別數(shù)據(jù)進(jìn)行強(qiáng)制修改
3.分析數(shù)據(jù)建立幸存者模型
交叉驗(yàn)證測試簡單機(jī)器學(xué)習(xí)模型性能
建立隨機(jī)森林模型,使用以上特征優(yōu)化后數(shù)據(jù)進(jìn)行訓(xùn)練,使用網(wǎng)格搜索進(jìn)行模型調(diào)優(yōu)
訓(xùn)練優(yōu)化后模型
4.未知數(shù)據(jù)測試
將預(yù)測結(jié)果與之前已知結(jié)果進(jìn)行對比: