數(shù)據(jù)建模及模型優(yōu)化大賽輔導(dǎo)實(shí)戰(zhàn)

  培訓(xùn)講師:傅一航

講師背景:
傅一航,華為系大數(shù)據(jù)專(zhuān)家。傅一航,男,計(jì)算機(jī)軟件與理論碩士研究生(研究方向:數(shù)據(jù)挖掘、搜索引擎)。在華為工作十年,五篇國(guó)家專(zhuān)利,在華為工作期間獲得華為數(shù)項(xiàng)獎(jiǎng)項(xiàng),曾在英國(guó)、日本、荷蘭等國(guó)家做項(xiàng)目,對(duì)大數(shù)據(jù)有深入的研究。傅老師專(zhuān)注于大數(shù)據(jù)分析與 詳細(xì)>>

傅一航
    課程咨詢(xún)電話(huà):

數(shù)據(jù)建模及模型優(yōu)化大賽輔導(dǎo)實(shí)戰(zhàn)詳細(xì)內(nèi)容

數(shù)據(jù)建模及模型優(yōu)化大賽輔導(dǎo)實(shí)戰(zhàn)

大數(shù)據(jù)建模大賽輔導(dǎo)實(shí)戰(zhàn)
【課程目標(biāo)】
本課程主要面向?qū)I(yè)人士的大數(shù)據(jù)建模競(jìng)賽輔導(dǎo)需求(假定學(xué)員已經(jīng)完成Python建模及優(yōu)化--回歸篇/分類(lèi)篇的學(xué)習(xí))。
通過(guò)本課程的學(xué)習(xí),達(dá)到如下目的:
熟悉大賽常用集成模型
掌握模型優(yōu)化常用措施,掌握超參優(yōu)化策略
掌握特征工程處理,以及對(duì)模型質(zhì)量的影響
掌握建模工程管道類(lèi)(Pipeline, ColumnTransformer)的使用
【授課時(shí)間】
2-3天時(shí)間,大致內(nèi)容安排(會(huì)根據(jù)需求和學(xué)員水平調(diào)整進(jìn)度)
時(shí)間
主題
具體內(nèi)容
目的
第一天
上午
建模流程
建模步驟
模型評(píng)估指標(biāo)
模型基本原理
常用建模步驟,構(gòu)建通用common模型,完成模型訓(xùn)練、評(píng)估等的封裝
第一天
下午
數(shù)據(jù)清洗
數(shù)據(jù)清洗
缺失值填充
理解異常數(shù)據(jù)對(duì)模型的影響
缺失值常用的填充方式(固定值、分類(lèi)填充、拉格朗日、預(yù)測(cè)填充)
不同填充對(duì)模型的影響
第二天
上午
特征選擇
特征選擇模式
(Filter/Wrapper/Embedded)
特征選擇的封裝實(shí)現(xiàn)
優(yōu)缺點(diǎn)及應(yīng)用場(chǎng)景
(SelectKBest,REF,SelectFromModel)
第二天
下午
變量降維
因子分析
主成份分析
管道實(shí)現(xiàn)
變量降維PCA/FA
掌握管道處理技能 (Pipeline, FeatureUnion, ColumnsTransformer等)
第三天
上午
變量變換
變量派生
變量標(biāo)準(zhǔn)化
模型集成思想
利用探索性分析,指導(dǎo)變量派生
不同標(biāo)準(zhǔn)化對(duì)模型的影響
特征處理的不同順序?qū)δP托Ч挠绊?br /> 第三天下午
超參優(yōu)化
超參優(yōu)化方法
欠擬合優(yōu)化
過(guò)擬合優(yōu)化
其它優(yōu)化(性能、樣本均衡處理)
不同超參的作用(欠擬合/過(guò)擬合)
超參優(yōu)化方法
超參優(yōu)化策略
Stacking集成
【授課對(duì)象】
參加大數(shù)據(jù)建模大賽的IT專(zhuān)業(yè)人士。
要求精通Python語(yǔ)言,熟悉sklearn庫(kù)的基本使用等。
【授課方式】
理論框架 + 落地措施 + 實(shí)戰(zhàn)訓(xùn)練
【課程大綱】
常用集成模型
問(wèn)題:數(shù)據(jù)建模的基本步驟是什么?每一步要重點(diǎn)考慮哪些知識(shí)和技能?
數(shù)據(jù)建模六步法
選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
特征工程:選擇對(duì)目標(biāo)變量有顯著影響的屬性來(lái)建模
訓(xùn)練模型:采用合適的算法,尋找到最合適的模型參數(shù)
評(píng)估模型:進(jìn)行評(píng)估模型的質(zhì)量,判斷模型是否可用
優(yōu)化模型:如果評(píng)估結(jié)果不理想,則需要對(duì)模型進(jìn)行優(yōu)化
應(yīng)用模型:如果評(píng)估結(jié)果滿(mǎn)足要求,則可應(yīng)用模型于業(yè)務(wù)場(chǎng)景
模型集成思想
Bagging
Boosting
Stacking
競(jìng)賽常用的集成模型
RandomForest
Adaboosting/GBDT/XGBoost
各模型的原理及適用場(chǎng)景
數(shù)據(jù)清洗技巧
數(shù)據(jù)清洗處理
重復(fù)值
錯(cuò)誤值
離群值
缺失值
缺失值填充的常見(jiàn)方式
固定值填充
同類(lèi)別均值填充
相鄰值填充(向下/向上填充)
兩點(diǎn)插值(相鄰值均值填充)
拉格朗日插值
預(yù)測(cè)方法填充
不同填充方式對(duì)模型效果的影響
案例:泰坦尼克號(hào)沉船幸存者預(yù)測(cè)
特征選擇模式
降維的兩大方式:特征選擇與因子合并
特征選擇的三種模式
基于變量本身的重要性篩選
缺失值所占比例過(guò)大
標(biāo)準(zhǔn)差/變異系數(shù)過(guò)?。╒arianceThreshold)
類(lèi)別值比值失衡嚴(yán)重
類(lèi)別值與樣本量比例過(guò)大
Filter式(特征選擇與模型分離)
常用評(píng)估指標(biāo)(相關(guān)系數(shù)/顯著性/互信息等)
f_regression, f_classif, chi2,
mutual_info_regression, mutual_info_classif
案例:運(yùn)營(yíng)商流失預(yù)測(cè)的特征選擇
Wrapper式(利用模型結(jié)果進(jìn)行特征選擇)
Sklearn實(shí)現(xiàn)(RFE/RFECV-Recursive Feature Elimination)
Embedded式(模型自帶特征選擇功能)
L1正則項(xiàng)(Lasso/ElasticNet)
信息增益(決策樹(shù))
Sklearn實(shí)現(xiàn)(SelectFromModel)
不同模式的優(yōu)缺點(diǎn)及應(yīng)用場(chǎng)景
特征選擇的變量個(gè)數(shù)
特征合并方法
特征合并與特征選擇
因子分析(FactorAnalysis)
FA原理及思想
載荷矩陣相關(guān)概念(變量共同度/方差貢獻(xiàn)率)
如何確定降維的因子個(gè)數(shù)
主成份分析(Principal Component Analysis)
PCA原理
PCA的幾何意義
案例:汽車(chē)油效預(yù)測(cè)
變量變換影響
為何需要變換變換
假設(shè)條件需求,可比性需要,同權(quán)重需要
因變量變換對(duì)模型質(zhì)量的影響
案例:波士頓房?jī)r(jià)預(yù)測(cè)
特征標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化的作用: 縮小,消除/統(tǒng)一量綱
常用標(biāo)準(zhǔn)化方法:MinMaxScaler, StandardScaler,…
不同模型對(duì)標(biāo)準(zhǔn)化的要求
不同標(biāo)準(zhǔn)化對(duì)模型的影響
案例:醫(yī)院腫瘤預(yù)測(cè)
其它變換:正態(tài)化、正則化
變量派生:多項(xiàng)式等
案例:用戶(hù)收入預(yù)測(cè)
管道實(shí)現(xiàn),簡(jiǎn)化代碼
管道類(lèi)Pipeline
列轉(zhuǎn)換類(lèi)ColumnTransformer
特征合并類(lèi)FeatureUnion
XGBoost模型詳解及優(yōu)化
基本參數(shù)配置
框架基本參數(shù): n_estimators, objective
性能相關(guān)參數(shù): learning_rate
模型復(fù)雜度參數(shù):max_depth,min_child_weight,gamma
生長(zhǎng)策略參數(shù): grow_policy, tree_method, max_bin
隨機(jī)性參數(shù):subsample,colsample_bytree
正則項(xiàng)參數(shù):reg_alpha,reg_lambda
樣本不均衡參數(shù): scale_pos_weight
早期停止與基類(lèi)個(gè)數(shù)優(yōu)化(n_estimators、early_stopping_rounds)
樣本不平衡處理
欠抽樣與過(guò)抽樣
scale_pos_weight= neg_num/pos_num
XGBoost模型欠擬合優(yōu)化措施
增維,派生新特征
非線(xiàn)性檢驗(yàn)
相互作用檢驗(yàn)
降噪,剔除噪聲數(shù)據(jù)
剔除不顯著影響因素
剔除預(yù)測(cè)離群值(僅回歸)
多重共線(xiàn)性檢驗(yàn)(僅回歸)
變量變換
自變量標(biāo)準(zhǔn)化
殘差項(xiàng)檢驗(yàn)與因變量變換
增加樹(shù)的深度與復(fù)雜度
增大max_depth
減小min_child_weight, gamma等
禁止正則項(xiàng)生效
特征重要性評(píng)估與自動(dòng)特征選擇
超參優(yōu)化策略:
分組調(diào)參:參數(shù)分組分別調(diào)優(yōu)
分層調(diào)參:先粗調(diào)再細(xì)調(diào)
XGBoost模型過(guò)擬合優(yōu)化措施
降維,減少特征數(shù)量
限制樹(shù)的深度和復(fù)雜度
減小max_depth
增大min_child_weight,gamma等
采用dart模型來(lái)控制過(guò)擬合(引入dropout技術(shù))
啟用正則項(xiàng)懲罰:reg_alpha,reg_lambda等
啟用隨機(jī)采樣:subsample,colsample_bytree等
Stacking模式:XGBoost+LR、XGBoost+RF等
XGBoost的優(yōu)化模型:LightGBM
實(shí)戰(zhàn)訓(xùn)練篇
互聯(lián)網(wǎng)廣告判斷模型
客戶(hù)流失預(yù)測(cè)模型
直銷(xiāo)響應(yīng)模型
結(jié)束:課程總結(jié)與問(wèn)題答疑。

 

傅一航老師的其它課程

數(shù)據(jù)分析方法及生產(chǎn)運(yùn)營(yíng)實(shí)際應(yīng)用【課程目標(biāo)】本課程主要介紹數(shù)據(jù)分析在生產(chǎn)運(yùn)營(yíng)過(guò)程中的應(yīng)用,適用于制造行業(yè)/保險(xiǎn)行業(yè)的數(shù)據(jù)分析人員等。本課程的主要目的是,幫助學(xué)員了解大數(shù)據(jù)的本質(zhì),培養(yǎng)學(xué)員的數(shù)據(jù)意識(shí)和數(shù)據(jù)思維,掌握常用的統(tǒng)計(jì)分析方法和工具,以及生產(chǎn)、運(yùn)營(yíng)過(guò)程中的應(yīng)用,并以概率的方式來(lái)進(jìn)行決策,提升學(xué)員的數(shù)據(jù)分析及應(yīng)用能力。本課程具體內(nèi)容包括:數(shù)據(jù)決策邏輯,數(shù)據(jù)決

 講師:傅一航詳情


大數(shù)據(jù)時(shí)代的精準(zhǔn)營(yíng)銷(xiāo)【課程目標(biāo)】本課程從實(shí)際的市場(chǎng)營(yíng)銷(xiāo)問(wèn)題出發(fā),了解大數(shù)據(jù)在市場(chǎng)營(yíng)銷(xiāo)領(lǐng)域的價(jià)值以及應(yīng)用。并對(duì)大數(shù)據(jù)分析與挖掘技術(shù)進(jìn)行了介紹,通過(guò)從大量的市場(chǎng)營(yíng)銷(xiāo)數(shù)據(jù)中分析潛在的客戶(hù)特征,挖掘客戶(hù)行為特點(diǎn),實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo),幫助市場(chǎng)營(yíng)銷(xiāo)團(tuán)隊(duì)深入理解業(yè)務(wù)運(yùn)作,支持業(yè)務(wù)策略制定以及營(yíng)銷(xiāo)決策。通過(guò)本課程的學(xué)習(xí),達(dá)到如下目的:了解大數(shù)據(jù)營(yíng)銷(xiāo)內(nèi)容,掌握大數(shù)據(jù)在營(yíng)銷(xiāo)中的應(yīng)用。

 講師:傅一航詳情


大數(shù)據(jù)時(shí)代的精準(zhǔn)營(yíng)銷(xiāo)【課程目標(biāo)】本課程從實(shí)際的市場(chǎng)營(yíng)銷(xiāo)問(wèn)題出發(fā),了解大數(shù)據(jù)在市場(chǎng)營(yíng)銷(xiāo)領(lǐng)域的價(jià)值以及應(yīng)用。并對(duì)大數(shù)據(jù)分析與挖掘技術(shù)進(jìn)行了介紹,通過(guò)從大量的市場(chǎng)營(yíng)銷(xiāo)數(shù)據(jù)中分析潛在的客戶(hù)特征,挖掘客戶(hù)行為特點(diǎn),實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo),幫助市場(chǎng)營(yíng)銷(xiāo)團(tuán)隊(duì)深入理解業(yè)務(wù)運(yùn)作,支持業(yè)務(wù)策略制定以及營(yíng)銷(xiāo)決策。通過(guò)本課程的學(xué)習(xí),達(dá)到如下目的:了解大數(shù)據(jù)營(yíng)銷(xiāo)內(nèi)容,掌握大數(shù)據(jù)在營(yíng)銷(xiāo)中的應(yīng)用。

 講師:傅一航詳情


大數(shù)據(jù)決策思維與商業(yè)模式創(chuàng)新,賦能企業(yè)增長(zhǎng)【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價(jià)值,以及掌握實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的三個(gè)關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問(wèn)題的六個(gè)步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說(shuō)明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場(chǎng)景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營(yíng)銷(xiāo)更精準(zhǔn)!通過(guò)本課程的學(xué)習(xí),達(dá)到如

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價(jià)值,以及掌握實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的三個(gè)關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問(wèn)題的六個(gè)步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說(shuō)明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場(chǎng)景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營(yíng)銷(xiāo)更精準(zhǔn)!通過(guò)本課程的學(xué)習(xí),達(dá)到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價(jià)值,以及掌握實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的三個(gè)關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問(wèn)題的六個(gè)步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說(shuō)明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場(chǎng)景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營(yíng)銷(xiāo)更精準(zhǔn)!通過(guò)本課程的學(xué)習(xí),達(dá)到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價(jià)值,以及掌握實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的三個(gè)關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問(wèn)題的六個(gè)步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說(shuō)明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場(chǎng)景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營(yíng)銷(xiāo)更精準(zhǔn)!通過(guò)本課程的學(xué)習(xí),達(dá)到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)挖掘工具:SPSSStatistics入門(mén)與提高【課程目標(biāo)】本課程為數(shù)據(jù)分析和挖掘的工具篇,本課程面向數(shù)據(jù)分析部等專(zhuān)門(mén)負(fù)責(zé)數(shù)據(jù)分析與挖掘的人士,專(zhuān)注大數(shù)據(jù)挖掘工具SPSSStatistics的培訓(xùn)。IBMSPSS工具是面向非專(zhuān)業(yè)人士的高級(jí)的分析工具(挖掘工具),它提供大量的分析方法和分析模型,能夠解決更復(fù)雜的業(yè)務(wù)問(wèn)題,比如影響因素分析、客戶(hù)行為預(yù)測(cè)/精

 講師:傅一航詳情


金融行業(yè)風(fēng)險(xiǎn)預(yù)測(cè)模型實(shí)戰(zhàn)【課程目標(biāo)】本課程專(zhuān)注于金融行業(yè)的風(fēng)控模型,面向數(shù)據(jù)分析部等專(zhuān)門(mén)負(fù)責(zé)數(shù)據(jù)分析與建模的人士。本課程的主要目的是,培養(yǎng)學(xué)員的大數(shù)據(jù)意識(shí)和大數(shù)據(jù)思維,掌握常用的數(shù)據(jù)分析方法和數(shù)據(jù)分析模型,并能夠用于對(duì)客戶(hù)行為作分析和預(yù)測(cè),提升學(xué)員的數(shù)據(jù)分析綜合能力。通過(guò)本課程的學(xué)習(xí),達(dá)到如下目的:掌握數(shù)據(jù)分析和數(shù)據(jù)建模的基本過(guò)程和步驟掌握客戶(hù)行為分析中常用

 講師:傅一航詳情


大數(shù)據(jù)分析與挖掘綜合能力提升實(shí)戰(zhàn)【課程目標(biāo)】本課程為高階課程,面向所有業(yè)務(wù)支撐部門(mén)及數(shù)據(jù)分析部門(mén)。本課程的主要目的是,幫助學(xué)員掌握一些業(yè)務(wù)專(zhuān)題挖掘模型,幫助學(xué)員建立對(duì)復(fù)雜業(yè)務(wù)問(wèn)題的數(shù)據(jù)挖掘綜合能力。本課程具體內(nèi)容包括:數(shù)據(jù)挖掘流程,數(shù)據(jù)預(yù)處理用戶(hù)專(zhuān)題分析:用戶(hù)群劃分/客戶(hù)價(jià)值評(píng)估/客戶(hù)偏好分析/用戶(hù)行為預(yù)測(cè)產(chǎn)品專(zhuān)題分析:產(chǎn)品設(shè)計(jì)優(yōu)化、產(chǎn)品功能評(píng)估、產(chǎn)品最優(yōu)定

 講師:傅一航詳情


 發(fā)布內(nèi)容,請(qǐng)點(diǎn)我!  講師申請(qǐng)/講師自薦
清華大學(xué)卓越生產(chǎn)運(yùn)營(yíng)總監(jiān)高級(jí)研修班
清華大學(xué)卓越生產(chǎn)運(yùn)營(yíng)總監(jiān)高級(jí)研修班
COPYRIGT @ 2001-2018 HTTP://m.musicmediasoft.com INC. ALL RIGHTS RESERVED. 管理資源網(wǎng) 版權(quán)所有