Kaggle 比賽: 德國(guó)信用卡違約數(shù)據(jù)分析

zombieda 發(fā)布于2019-07-31 10:54 / 2591人閱讀

摘要：數(shù)據(jù)描述，我們來(lái)看看數(shù)據(jù)的格式到為個(gè)不同類別的特征，為列，一共有條數(shù)據(jù)，下面列舉其中一條當(dāng)作例子數(shù)據(jù)處理與數(shù)據(jù)分析下面展示一下數(shù)據(jù)處理流程，主要是處理了一下缺失值，然后根據(jù)特征按連續(xù)型和離散型進(jìn)行分別處理，使用了里面的包，下面的代碼都有

數(shù)據(jù)描述

German Credit Data，我們來(lái)看看數(shù)據(jù)的格式,

A1 到 A15 為 15個(gè)不同類別的特征，A16 為 label 列，一共有 690條數(shù)據(jù)，下面列舉其中一條當(dāng)作例子：

A1	A2	A3	A4	A5	A6	A7	A8	A9	A10	A11	A12	A13	A14	A15	A16
b	30.83	0	u	g	w	v	1.25	t	t	01	f	g	00202	0	+

Attribute Information:

    A1:    b, a.
    A2:    continuous.
    A3:    continuous.
    A4:    u, y, l, t.
    A5:    g, p, gg.
    A6:    c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff.
    A7:    v, h, bb, j, n, z, dd, ff, o.
    A8:    continuous.
    A9:    t, f.
    A10:    t, f.
    A11:    continuous.
    A12:    t, f.
    A13:    g, p, s.
    A14:    continuous.
    A15:    continuous.
    A16: +,-         (class attribute)

Missing Attribute Values:

37 cases (5%) have one or more missing values.  The missing
values from particular attributes are:

A1:  12
A2:  12
A4:   6
A5:   6
A6:   9
A7:   9
A14: 13

Class Distribution

+: 307 (44.5%)
-: 383 (55.5%)

數(shù)據(jù)處理與數(shù)據(jù)分析

下面展示一下數(shù)據(jù)處理流程，主要是處理了一下缺失值，然后根據(jù)特征按連續(xù)型和離散型進(jìn)行分別處理，使用了 sklearn 里面的 LogisticRegression 包，下面的代碼都有很詳細(xì)的注釋。

import pandas as pd
import numpy as np
import matplotlib as plt
import seaborn as sns

# 讀取數(shù)據(jù)
data = pd.read_csv("./crx.data")

# 給數(shù)據(jù)增加列標(biāo)簽
data.columns = ["f1", "f2", "f3", "f4", "f5", "f6", "f7", "f8", "f9", "f10", "f11", "f12", "f13", "f14", "f15", "label"]

# 替換 label 映射
label_mapping = {
    "+": 1,
    "-": 0
}

data["label"] = data["label"].map(label_mapping)

# 處理缺省值的方法
data = data.replace("?", np.nan)

# 將 object 類型的列轉(zhuǎn)換為 float型
data["f2"] = pd.to_numeric(data["f2"])
data["f14"] = pd.to_numeric(data["f14"])

# 連續(xù)型特征如果有缺失值的話，用它們的平均值替代
data["f2"] = data["f2"].fillna(data["f2"].mean())
data["f3"] = data["f3"].fillna(data["f3"].mean())
data["f8"] = data["f8"].fillna(data["f8"].mean())
data["f11"] = data["f11"].fillna(data["f11"].mean())
data["f14"] = data["f14"].fillna(data["f14"].mean())
data["f15"] = data["f15"].fillna(data["f15"].mean())

# 離散型特征如果有缺失值的話，用另外一個(gè)不同的值替代
data["f1"] = data["f1"].fillna("c")
data["f4"] = data["f4"].fillna("s")
data["f5"] = data["f5"].fillna("gp")
data["f6"] = data["f6"].fillna("hh")
data["f7"] = data["f7"].fillna("ee")
data["f13"] = data["f13"].fillna("ps")

tf_mapping = {
    "t": 1,
    "f": 0
}

data["f9"] = data["f9"].map(tf_mapping)
data["f10"] = data["f10"].map(tf_mapping)
data["f12"] = data["f12"].map(tf_mapping)

# 給離散的特征進(jìn)行 one-hot 編碼
data = pd.get_dummies(data)

from sklearn.linear_model import LogisticRegression

# 打亂順序
shuffled_rows = np.random.permutation(data.index)

# 劃分本地測(cè)試集和訓(xùn)練集
highest_train_row = int(data.shape[0] * 0.70)
train = data.iloc[0:highest_train_row]
loc_test = data.iloc[highest_train_row:]

# 去掉最后一列 label 之后的才是 feature
features = train.drop(["label"], axis = 1).columns

model = LogisticRegression()
X_train = train[features]
y_train = train["label"] == 1

model.fit(X_train, y_train)
X_test = loc_test[features]

test_prob = model.predict(X_test)
test_label = loc_test["label"]

# 本地測(cè)試集上的準(zhǔn)確率
accuracy_test = (test_prob == loc_test["label"]).mean()
print accuracy_test

0.835748792271

from sklearn import cross_validation, metrics

#驗(yàn)證集上的auc值
test_auc = metrics.roc_auc_score(test_label, test_prob)#驗(yàn)證集上的auc值
print test_auc

0.835748792271

簡(jiǎn)單使用了一下邏輯回歸，發(fā)現(xiàn)準(zhǔn)確率是 0.835748792271，AUC 值是 0.835748792271，效果還不錯(cuò)，接下來(lái)對(duì)模型進(jìn)行優(yōu)化來(lái)進(jìn)一步提高準(zhǔn)確率。

GPU云服務(wù)器云服務(wù)器 Kaggle 數(shù)據(jù)比賽數(shù)據(jù)分析比賽數(shù)據(jù) 違約概率

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/44310.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

zombieda

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

串口實(shí)現(xiàn)雙機(jī)通信

閱讀 2996·2021-11-16 11:44
阿里云：云服務(wù)器AMD二代火熱公測(cè)，新品限時(shí)特惠，低至176.45元/月起

閱讀 1109·2021-10-09 09:58
13 萬(wàn)字 C 語(yǔ)言從入門(mén)到精通保姆級(jí)教程2021 年版（建議收藏）

閱讀 5439·2021-09-24 09:48
利用Calibre軟件和繁體規(guī)則庫(kù)輕松批量繁體電子書(shū)轉(zhuǎn)換簡(jiǎn)體

閱讀 4722·2021-09-23 11:56
怎么測(cè)試網(wǎng)站發(fā)布到虛擬主機(jī)-怎么樣給虛擬主機(jī)上傳網(wǎng)頁(yè)文件呢？

閱讀 2501·2021-09-22 15:48
Rabbithosts：日本直連vps,2核/2GB內(nèi)存/8GB SSD空間/30TB流量/10Gb

閱讀 2070·2021-09-07 10:07
深圳擬先行先試人工智能分級(jí)監(jiān)管機(jī)制

閱讀 3279·2021-08-31 09:46
啊五環(huán) 你比四環(huán)多一環(huán)，啊五環(huán) 你比六環(huán)少一環(huán)

閱讀 624·2019-08-30 15:56

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Kaggle 比賽: 德國(guó)信用卡違約數(shù)據(jù)分析

相關(guān)文章

**為什么Kaggle不會(huì)讓你成為一名出色的數(shù)據(jù)科學(xué)家？**

Kaggle冠軍經(jīng)驗(yàn)分享丨如何用15個(gè)月沖到排行榜的首位

**(轉(zhuǎn))大數(shù)據(jù)競(jìng)賽平臺(tái)——Kaggle 入門(mén)**

**我是如何在1天內(nèi)構(gòu)建一個(gè)深度學(xué)習(xí)模型并進(jìn)擊Kaggle比賽的**

發(fā)表評(píng)論

0條評(píng)論

zombieda

男|高級(jí)講師

TA的文章

串口實(shí)現(xiàn)雙機(jī)通信

阿里云：云服務(wù)器AMD二代火熱公測(cè)，新品限時(shí)特惠，低至176.45元/月起

13 萬(wàn)字 C 語(yǔ)言從入門(mén)到精通保姆級(jí)教程2021 年版（建議收藏）

利用Calibre軟件和繁體規(guī)則庫(kù)輕松批量繁體電子書(shū)轉(zhuǎn)換簡(jiǎn)體

怎么測(cè)試網(wǎng)站發(fā)布到虛擬主機(jī)-怎么樣給虛擬主機(jī)上傳網(wǎng)頁(yè)文件呢？

Rabbithosts：日本直連vps,2核/2GB內(nèi)存/8GB SSD空間/30TB流量/10Gb

深圳擬先行先試人工智能分級(jí)監(jiān)管機(jī)制

啊五環(huán) 你比四環(huán)多一環(huán)，啊五環(huán) 你比六環(huán)少一環(huán)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Kaggle 比賽: 德國(guó)信用卡違約數(shù)據(jù)分析

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！