1.1 明確問題

明確業(yè)務問題是機器學習的先決條件,即抽象出該問題為機器學習的預測問題:需要學習什么樣的數(shù)據(jù)作為輸入,目標是得到什么樣的模型做決策作為輸出。

一個簡單的新聞分類的場景,就是學習已有的新聞及其類別標簽數(shù)據(jù),得到一個文本分類模型,通過模型對每天新的新聞做類別預測,以歸類到每個新聞頻道。

1.2 數(shù)據(jù)選擇

機器學習廣泛流傳一句話:“數(shù)據(jù)和特征決定了機器學習結果的上限,而模型算法只是盡可能逼近這個上限”,意味著數(shù)據(jù)及其特征表示的質(zhì)量決定了模型的最終效果,且在實際的工業(yè)應用中,算法通常占了很小的一部分,大部分的工作都是在找數(shù)據(jù)、提煉數(shù)據(jù)、分析數(shù)據(jù)及特征工程。

數(shù)據(jù)選擇是準備機器學習原料的關鍵,需要關注的是:① 數(shù)據(jù)的代表性:數(shù)據(jù)質(zhì)量差或無代表性,會導致模型擬合效果差;② 數(shù)據(jù)時間范圍:對于監(jiān)督學習的特征變量X及標簽Y,如與時間先后有關,則需要劃定好數(shù)據(jù)時間窗口,否則可能會導致數(shù)據(jù)泄漏,即存在和利用因果顛倒的特征變量的現(xiàn)象。(如預測明天會不會下雨,但是訓練數(shù)據(jù)引入明天溫濕度情況);③ 數(shù)據(jù)業(yè)務范圍:明確與任務相關的數(shù)據(jù)表范圍,避免缺失代表性數(shù)據(jù)或引入大量無關數(shù)據(jù)作為噪音。

2 特征工程

特征工程就是對原始數(shù)據(jù)分析處理轉化為模型可用的特征,這些特征可以更好地向預測模型描述潛在規(guī)律,從而提高模型對未見數(shù)據(jù)的準確性。特征工程按技術上可分為如下幾步:① 探索性數(shù)據(jù)分析:數(shù)據(jù)分布、缺失、異常及相關性等情況;② 數(shù)據(jù)預處理:缺失值/異常值處理,數(shù)據(jù)離散化,數(shù)據(jù)標準化等;③ 特征提取:特征表示,特征衍生,特征選擇,特征降維等;

2.1 探索性數(shù)據(jù)分析

拿到數(shù)據(jù)后,可以先做探索性數(shù)據(jù)分析(EDA)去理解數(shù)據(jù)本身的內(nèi)部結構及規(guī)律,如果你對數(shù)據(jù)情況不了解也沒有相關的業(yè)務背景知識,不做相關的分析及預處理,直接將數(shù)據(jù)喂給傳統(tǒng)模型往往效果不太好。通過探索性數(shù)據(jù)分析,可以了解數(shù)據(jù)分布、缺失、異常及相關性等情況,利用這些基本信息做數(shù)據(jù)的處理及特征加工,可以進一步提高特征質(zhì)量,靈活選擇合適的模型方法。

2.2 數(shù)據(jù)預處理

異常值處理

收集的數(shù)據(jù)由于人為或者自然因素可能引入了異常值(噪音),這會對模型學習進行干擾。 通常需要處理人為引起的異常值,通過業(yè)務或技術手段(如3σ準則)判定異常值,再由(正則式匹配)等方式篩選異常的信息,并結合業(yè)務情況刪除或者替換數(shù)值。

缺失值處理

數(shù)據(jù)缺失值可以通過結合業(yè)務進行填充數(shù)值、不做處理或者刪除。根據(jù)特征缺失率情況及處理方式分為以下情況:① 缺失率較高,并結合業(yè)務可以直接刪除該特征變量。經(jīng)驗上可以新增一個bool類型的變量特征記錄該字段的缺失情況,缺失記為1,非缺失記為0;② 缺失率較低,結合業(yè)務可使用一些缺失值填充手段,如pandas的fillna方法、訓練回歸模型預測缺失值并填充;③ 不做處理:部分模型如隨機森林、xgboost、lightgbm能夠處理數(shù)據(jù)缺失的情況,不需要對缺失數(shù)據(jù)再做處理。

數(shù)據(jù)離散化

離散化是將連續(xù)的數(shù)據(jù)進行分段,使其變?yōu)橐欢味坞x散化的區(qū)間,分段的原則有等寬、等頻等方法。通過離散化一般可以增加抗噪能力、使特征更有業(yè)務解釋性、減小算法的時間及空間開銷(不同算法情況不一)。

數(shù)據(jù)標準化

數(shù)據(jù)各個特征變量的量綱差異很大,可以使用數(shù)據(jù)標準化消除不同分量量綱差異的影響,加速模型收斂的效率。常用的方法有:① min-max 標準化:可將數(shù)值范圍縮放到(0, 1)且無改變數(shù)據(jù)分布。max為樣本最大值,min為樣本最小值。

② z-score 標準化:可將數(shù)值范圍縮放到0附近, 經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布。是平均值,σ是標準差。

2.3 特征提取

特征表示

數(shù)據(jù)需要轉換為計算機能夠處理的數(shù)值形式,圖片類的數(shù)據(jù)需要轉換為RGB三維矩陣的表示。

字符類的數(shù)據(jù)可以用多維數(shù)組表示,有Onehot獨熱編碼表示(用單獨一個位置的1來表示)、word2vetor分布式表示等;

特征衍生

基礎特征對樣本信息的表達有限,可通過特征衍生可以增加特征的非線性表達能力,提升模型效果。另外,在業(yè)務上的理解設計特征,還可以增加模型的可解釋性。(如體重除以身高就是表達健康情況的重要特征。) 特征衍生是對現(xiàn)有基礎特征的含義進行某種處理(聚合/轉換之類),常用方法人工設計、自動化特征衍生(圖4.15):① 結合業(yè)務的理解做人工衍生設計:聚合的方式是指對字段聚合后求平均值、計數(shù)、最大值等。比如通過12個月工資可以加工出:平均月工資,薪資最大值 等等;轉換的方式是指對字段間做加減乘除之類。比如通過12個月工資可以加工出:當月工資收入與支出的比值、差值等等;

② 使用自動化特征衍生工具:如Featuretools等,可以使用聚合(agg_primitives)、轉換(trans_primitives)或則自定義方式暴力生成特征;

特征選擇

特征選擇的目標是尋找最優(yōu)特征子集,通過篩選出顯著特征、摒棄冗余特征,減少模型的過擬合風險并提高運行效率。特征選擇方法一般分為三類:① 過濾法:計算特征的缺失情況、發(fā)散性、相關性、信息量、穩(wěn)定性等類型的指標對各個特征進行評估選擇,常用如缺失率、單值率、方差驗證、pearson相關系數(shù)、chi2卡方檢驗、IV值、信息增益及PSI等方法。② 包裝法:通過每次選擇部分特征迭代訓練模型,根據(jù)模型預測效果評分選擇特征的去留,如sklearn的RFE遞歸特征消除。③ 嵌入法:直接使用某些模型訓練的到特征重要性,在模型訓練同時進行特征選擇。通過模型得到各個特征的權值系數(shù),根據(jù)權值系數(shù)從大到小來選擇特征。常用如基于L1正則項的邏輯回歸、XGBOOST特征重要性選擇特征。

特征降維

如果特征選擇后的特征數(shù)目仍太多,這種情形下常會有數(shù)據(jù)樣本稀疏、距離計算困難的問題(稱為 “維數(shù)災難”),可以通過特征降維解決。常用的降維方法有:主成分分析法(PCA)等。

3 模型訓練

模型訓練是利用既定的模型方法去學習數(shù)據(jù)經(jīng)驗的過程,這過程還需要結合模型評估以調(diào)整算法的超參數(shù),最終選擇表現(xiàn)較優(yōu)的模型。

3.1 數(shù)據(jù)集劃分

訓練模型前,常用的HoldOut驗證法(此外還有留一法、k折交叉驗證等方法),把數(shù)據(jù)集分為訓練集和測試集,并可再對訓練集進一步細分為訓練集和驗證集,以方便評估模型的性能。① 訓練集(training set):用于運行學習算法,訓練模型。② 開發(fā)驗證集(development set)用于調(diào)整超參數(shù)、選擇特征等,以選擇合適模型。③ 測試集(test set)只用于評估已選擇模型的性能,但不會據(jù)此改變學習算法或參數(shù)。###3.2 模型方法選擇 結合當前任務及數(shù)據(jù)情況選擇合適的模型方法,常用的方法如下圖 ,scikit-learn模型方法的選擇。此外還可以結合多個模型做模型融合。

3.3 訓練過程

模型的訓練過程即學習數(shù)據(jù)經(jīng)驗得到較優(yōu)模型及對應參數(shù)(如神經(jīng)網(wǎng)絡最終學習到較優(yōu)的權重值)。整個訓練過程還需要通過調(diào)節(jié)超參數(shù)(如神經(jīng)網(wǎng)絡層數(shù)、梯度下降的學習率)進行控制優(yōu)化的。調(diào)節(jié)超參數(shù)是一個基于數(shù)據(jù)集、模型和訓練過程細節(jié)的實證過程,需要基于對算法的原理理解和經(jīng)驗,借助模型在驗證集的評估進行參數(shù)調(diào)優(yōu),此外還有自動調(diào)參技術:網(wǎng)格搜索、隨機搜索及貝葉斯優(yōu)化等。

4 模型評估

機器學習的直接目的是學(擬合)到“好”的模型,不僅僅是學習過程中對訓練數(shù)據(jù)的良好的學習預測能力,根本上在于要對新數(shù)據(jù)能有很好的預測能力(泛化能力),所以客觀地評估模型性能至關重要。技術上常根據(jù)訓練集及測試集的指標表現(xiàn),評估模型的性能。

4.1 評估指標

評估分類模型

常用的評估標準有查準率P、查全率R及兩者調(diào)和平均F1-score 等,并由混淆矩陣的統(tǒng)計相應的個數(shù)計算出數(shù)值:

查準率是指分類器分類正確的正樣本(TP)的個數(shù)占該分類器所有預測為正樣本個數(shù)(TP+FP)的比例;查全率是指分類器分類正確的正樣本個數(shù)(TP)占所有的正樣本個數(shù)(TP+FN)的比例。F1-score是查準率P、查全率R的調(diào)和平均:

評估回歸模型

常用的評估指標有MSE均方誤差等。反饋的是預測數(shù)值與實際值的擬合情況。

評估聚類模型

可分為兩類方式,一類將聚類結果與某個“參考模型”的結果進行比較,稱為“外部指標”(external index):如蘭德指數(shù),F(xiàn)M指數(shù)等。另一類是直接考察聚類結果而不利用任何參考模型,稱為“內(nèi)部指標”(internal index):如緊湊度、分離度等。

4.2 模型評估及優(yōu)化

訓練機器學習模型所使用的數(shù)據(jù)樣本集稱之為訓練集(training set), 在訓練數(shù)據(jù)的誤差稱之為訓練誤差(training error),在測試數(shù)據(jù)上的誤差,稱之為測試誤差(test error)或泛化誤差 (generalization error)。

描述模型擬合(學習)程度常用欠擬合、擬合良好、過擬合,我們可以通過訓練誤差及測試誤差評估模型的擬合程度。從整體訓練過程來看,欠擬合時訓練誤差和測試誤差均較高,隨著訓練時間及模型復雜度的增加而下降。在到達一個擬合最優(yōu)的臨界點之后,訓練誤差下降,測試誤差上升,這個時候就進入了過擬合區(qū)域。

欠擬合是指相較于數(shù)據(jù)而言模型結構過于簡單,以至于無法學習到數(shù)據(jù)中的規(guī)律。過擬合是指模型只過分地匹配訓練數(shù)據(jù)集,以至于對新數(shù)據(jù)無良好地擬合及預測。其本質(zhì)是較復雜模型從訓練數(shù)據(jù)中學習到了統(tǒng)計噪聲導致的。分析模型擬合效果并對模型進行優(yōu)化,常用的方法有:

5 模型決策

決策應用是機器學習最終目的,對模型預測信息加以分析解釋,并應用于實際的工作領域。需要注意的是,工程上是結果導向,模型在線上運行的效果直接決定模型的成敗,不僅僅包括其準確程度、誤差等情況,還包括其運行的速度(時間復雜度)、資源消耗程度(空間復雜度)、穩(wěn)定性的綜合考慮。

6 機器學習項目實戰(zhàn)(數(shù)據(jù)挖掘)

6.1 項目介紹

項目的實驗數(shù)據(jù)來源著名的UCI機器學習數(shù)據(jù)庫,該數(shù)據(jù)庫有大量的人工智能數(shù)據(jù)挖掘數(shù)據(jù)。本例選用的是sklearn上的數(shù)據(jù)集版本:Breast Cancer Wisconsin DataSet(威斯康星州乳腺癌數(shù)據(jù)集),這些數(shù)據(jù)來源美國威斯康星大學醫(yī)院的臨床病例報告,每條樣本有30個特征屬性,標簽為是否良性腫瘤,即有監(jiān)督分類預測的問題。?項目的建模思路是通過分析乳腺癌數(shù)據(jù)集數(shù)據(jù),特征工程,構建邏輯回歸模型學習數(shù)據(jù),預測樣本的類別是否為良性腫瘤。

6.2 代碼實現(xiàn)

導入相關的Python庫,加載cancer數(shù)據(jù)集,查看數(shù)據(jù)介紹, 并轉為DataFrame格式。

import numpy as np  
import pandas as pd
import matplotlib.pyplot as plt

from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.utils import plot_model
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score, recall_score, f1_score
dataset_cancer = datasets.load_breast_cancer()    # 加載癌細胞數(shù)據(jù)集

print(dataset_cancer['DESCR'])

df = pd.DataFrame(dataset_cancer.data, columns=dataset_cancer.feature_names)

df['label'] = dataset_cancer.target

print(df.shape)

df.head()

探索性數(shù)據(jù)分析EDA:使用pandas_profiling庫分析數(shù)據(jù)數(shù)值情況,缺失率及相關性等。

import pandas_profiling

pandas_profiling.ProfileReport(df, title='Breast Cancer DataSet EDA')

特征工程方面主要的分析及處理有:

● 分析特征無明顯異常值及缺失的情況,無需處理;

● 已有mean/standard error等衍生特征,無需特征衍生;

● 結合相關性等指標做特征選擇(過濾法);

● 對特征進行標準化以加速模型學習過程;

# 篩選相關性>0.99的特征清單列表及標簽
drop_feas = ['label','worst_radius','mean_radius']

# 選擇標簽y及特征x
y = df.label
x = df.drop(drop_feas,axis=1) # 刪除相關性強特征及標簽列

# holdout驗證法: 按3:7劃分測試集 訓練集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

# 特征z-score 標準化
sc = StandardScaler()

x_train = sc.fit_transform(x_train) # 注:訓練集測試集要分別標準化,以免測試集信息泄露到模型訓練
x_test = sc.transform(x_test)

模型訓練:使用keras搭建邏輯回歸模型,訓練模型,觀察模型訓練集及驗證集的loss損失

_dim = x_train.shape[1]   # 輸入模型的特征數(shù)

# LR邏輯回歸模型
model = Sequential()

model.add(Dense(1, input_dim=_dim, activation='sigmoid',bias_initializer='uniform')) # 添加網(wǎng)絡層,激活函數(shù)sigmoid

model.summary()

plot_model(model,show_shapes=True)
model.compile(optimizer='adam', loss='binary_crossentropy')  #模型編譯:選擇交叉熵損失函數(shù)及adam梯度下降法優(yōu)化算法

model.fit(x, y, validation_split=0.3, epochs=200) # 模型迭代訓練: validation_split比例0.3, 迭代epochs200次

# 模型訓練集及驗證集的損失

plt.figure()

plt.plot(model.history.history['loss'],'b',label='Training loss')

plt.plot(model.history.history['val_loss'],'r',label='Validation val_loss')

plt.title('Traing and Validation loss')

plt.legend()

以測試集F1-score等指標的表現(xiàn),評估模型的泛化能力。最終測試集的f1-score有88%,有較好的模型表現(xiàn)。

def model_metrics(model, x, y):
"""

評估指標

"""
yhat = model.predict(x).round() # 模型預測yhat,預測閾值按默認0.5劃分

result = {
'f1_score': f1_score(y, yhat),

'precision':precision_score(y, yhat),

'recall':recall_score(y, yhat)
}

return result

# 模型評估結果

print("TRAIN")

print(model_metrics(model, x_train, y_train))

print("TEST")

print(model_metrics(model, x_test, y_test))

本文章轉載微信公眾號@算法進階

熱門推薦
一個賬號試用1000+ API
助力AI無縫鏈接物理世界 · 無需多次注冊
3000+提示詞助力AI大模型
和專業(yè)工程師共享工作效率翻倍的秘密
返回頂部
上一篇
機器學習十大熱門算法
下一篇
主動學習概述(ActiveLearning)
国内精品久久久久影院日本,日本中文字幕视频,99久久精品99999久久,又粗又大又黄又硬又爽毛片
久久新电视剧免费观看| 亚洲欧洲美洲综合色网| 欧美精品久久天天躁| 亚洲欧洲日韩综合一区二区| 国产在线看一区| 日韩一区二区电影网| 午夜不卡av免费| 91麻豆精品国产91久久久更新时间| 亚洲成人福利片| 91精品国产品国语在线不卡| 日韩福利视频网| 久久综合狠狠综合久久综合88 | 91麻豆精品视频| 亚洲精品日韩专区silk| 欧美体内she精高潮| 日韩精品一二三| xnxx国产精品| 在线欧美日韩精品| 美国毛片一区二区三区| 亚洲国产成人在线| 欧美性受极品xxxx喷水| 免费观看在线综合| 国产精品第五页| 欧美日韩国产小视频| 国产一区二区三区四区在线观看| 中文字幕一区二区日韩精品绯色| 欧美久久一二区| 91免费在线播放| 国产一区二区毛片| 偷窥少妇高潮呻吟av久久免费| 久久精品亚洲一区二区三区浴池| 色综合久久久久久久久久久| 寂寞少妇一区二区三区| 一区二区三区在线播放| 久久综合九色综合欧美亚洲| 欧美日韩午夜在线| 色就色 综合激情| 国产suv精品一区二区883| 蜜臀av亚洲一区中文字幕| 亚洲精品欧美二区三区中文字幕| 337p粉嫩大胆噜噜噜噜噜91av| 91国产福利在线| 91免费看`日韩一区二区| 国产伦理精品不卡| 精品在线观看免费| 蜜桃传媒麻豆第一区在线观看| 亚洲电影视频在线| 一区二区成人在线| 夜色激情一区二区| 亚洲成a人片在线不卡一二三区| 综合久久久久综合| 亚洲欧美综合网| 国产精品乱人伦中文| 国产精品无人区| 亚洲国产精品高清| 亚洲三级视频在线观看| 亚洲日本青草视频在线怡红院| 国产精品久久三区| 亚洲乱码一区二区三区在线观看| 成人欧美一区二区三区小说| 国产精品欧美久久久久一区二区| 久久久高清一区二区三区| 国产偷国产偷精品高清尤物| 国产亚洲va综合人人澡精品| 国产欧美日韩卡一| 国产精品久久久久久久久免费樱桃 | 欧美色区777第一页| 欧美私人免费视频| 日韩女优av电影在线观看| 久久伊人蜜桃av一区二区| 国产欧美日韩不卡免费| 国产精品毛片大码女人| 亚洲成在人线免费| 六月丁香婷婷久久| 成人综合婷婷国产精品久久| 99国产欧美久久久精品| 欧美精品免费视频| 国产亚洲一区二区三区四区| 亚洲美女免费在线| 日韩国产成人精品| 成人性生交大片免费看中文网站| 91蜜桃在线免费视频| 日韩免费高清视频| 亚洲欧美区自拍先锋| 蜜臀av亚洲一区中文字幕| 成人综合在线观看| 欧美一区二区三区爱爱| 中文字幕中文字幕在线一区| 日韩成人av影视| 99久久99久久久精品齐齐| 777久久久精品| 亚洲毛片av在线| 成人在线综合网| 欧美电影精品一区二区| 一区二区三区在线视频免费| 国产精品一二三| 制服丝袜一区二区三区| √…a在线天堂一区| 国产一区二区三区在线观看免费视频 | 欧美日韩国产综合一区二区三区| 精品国产一区a| 亚洲国产日产av| 97精品电影院| 亚洲少妇中出一区| 99re视频精品| 一区视频在线播放| 成人免费av在线| 中文字幕第一区第二区| 麻豆专区一区二区三区四区五区| 日本一区二区三区四区| 石原莉奈在线亚洲二区| 欧美理论片在线| 琪琪一区二区三区| 欧美日韩国产一二三| 三级一区在线视频先锋 | 精品国产乱码久久久久久图片| 午夜欧美电影在线观看| 欧美伊人久久久久久午夜久久久久| 中文字幕免费在线观看视频一区| 秋霞午夜鲁丝一区二区老狼| 欧美一区二区视频在线观看2020| 亚洲一区二区三区激情| 欧美综合视频在线观看| 日日摸夜夜添夜夜添国产精品| 91麻豆精品国产91久久久使用方法 | 一区二区三区四区中文字幕| 欧美亚洲另类激情小说| 午夜精品在线看| 欧美va亚洲va| 福利一区福利二区| 亚洲精选视频在线| 67194成人在线观看| 狠狠色综合播放一区二区| 国产欧美一区二区三区鸳鸯浴| 91在线视频免费观看| 日韩电影一区二区三区四区| 91精品国产高清一区二区三区蜜臀 | 亚洲一区二区三区精品在线| 日韩欧美在线观看一区二区三区| 狠狠狠色丁香婷婷综合激情| 亚洲欧洲av另类| 日韩一级在线观看| 99精品欧美一区二区蜜桃免费 | 日本美女一区二区| 国产精品久久久久精k8| 欧美日韩美少妇| 成人小视频在线观看| 日韩专区中文字幕一区二区| 国产午夜精品一区二区三区嫩草| 色综合久久88色综合天天6| 精品一区二区日韩| 天天影视色香欲综合网老头| 中文字幕一区二区三区不卡| 精品国产免费人成在线观看| 欧美丝袜自拍制服另类| 成人午夜精品一区二区三区| 日韩和欧美的一区| 亚洲午夜精品在线| 亚洲欧洲日韩av| 国产精品天天摸av网| 精品国产在天天线2019| 欧美日本精品一区二区三区| 99久久亚洲一区二区三区青草| 国产精品不卡视频| 国产精品第五页| 国产日产欧美一区| 国产精品亚洲成人| 国产成人无遮挡在线视频| 亚洲免费在线观看视频| 亚洲美女少妇撒尿| 一区二区三区四区在线| 偷偷要91色婷婷| 成人午夜视频在线| 精品视频免费看| 国产精品久久久久久久蜜臀| 亚洲成av人**亚洲成av**| 国产精品视频你懂的| 日韩欧美一级二级三级| 免费成人在线影院| 亚洲国产高清aⅴ视频| 日韩精品一区二区三区在线播放 | 日韩精品久久理论片| 亚洲老司机在线| 国产宾馆实践打屁股91| 亚洲尤物在线视频观看| 欧美激情一区二区三区不卡| 99久久综合色| 成人动漫一区二区在线| 丰满白嫩尤物一区二区| 偷拍日韩校园综合在线| 亚洲精品中文在线影院| 精品粉嫩超白一线天av| 日韩精品专区在线影院重磅| 在线播放国产精品二区一二区四区| 在线观看日韩精品| 日韩一级片网址| 精品区一区二区| 国产曰批免费观看久久久| 久久成人麻豆午夜电影| 在线一区二区三区四区五区 |