數據建模及模型優(yōu)化大賽輔導實戰(zhàn)
數據建模及模型優(yōu)化大賽輔導實戰(zhàn)詳細內容
數據建模及模型優(yōu)化大賽輔導實戰(zhàn)
大數據建模大賽輔導實戰(zhàn)
【課程目標】
本課程主要面向專業(yè)人士的大數據建模競賽輔導需求(假定學員已經完成Python建模及優(yōu)化--回歸篇/分類篇的學習)。
通過本課程的學習,達到如下目的:
熟悉大賽常用集成模型
掌握模型優(yōu)化常用措施,掌握超參優(yōu)化策略
掌握特征工程處理,以及對模型質量的影響
掌握建模工程管道類(Pipeline, ColumnTransformer)的使用
【授課時間】
2-3天時間,大致內容安排(會根據需求和學員水平調整進度)
時間
主題
具體內容
目的
第一天
上午
建模流程
建模步驟
模型評估指標
模型基本原理
常用建模步驟,構建通用common模型,完成模型訓練、評估等的封裝
第一天
下午
數據清洗
數據清洗
缺失值填充
理解異常數據對模型的影響
缺失值常用的填充方式(固定值、分類填充、拉格朗日、預測填充)
不同填充對模型的影響
第二天
上午
特征選擇
特征選擇模式
(Filter/Wrapper/Embedded)
特征選擇的封裝實現
優(yōu)缺點及應用場景
(SelectKBest,REF,SelectFromModel)
第二天
下午
變量降維
因子分析
主成份分析
管道實現
變量降維PCA/FA
掌握管道處理技能 (Pipeline, FeatureUnion, ColumnsTransformer等)
第三天
上午
變量變換
變量派生
變量標準化
模型集成思想
利用探索性分析,指導變量派生
不同標準化對模型的影響
特征處理的不同順序對模型效果的影響
第三天下午
超參優(yōu)化
超參優(yōu)化方法
欠擬合優(yōu)化
過擬合優(yōu)化
其它優(yōu)化(性能、樣本均衡處理)
不同超參的作用(欠擬合/過擬合)
超參優(yōu)化方法
超參優(yōu)化策略
Stacking集成
【授課對象】
參加大數據建模大賽的IT專業(yè)人士。
要求精通Python語言,熟悉sklearn庫的基本使用等。
【授課方式】
理論框架 + 落地措施 + 實戰(zhàn)訓練
【課程大綱】
常用集成模型
問題:數據建模的基本步驟是什么?每一步要重點考慮哪些知識和技能?
數據建模六步法
選擇模型:基于業(yè)務選擇恰當的數據模型
特征工程:選擇對目標變量有顯著影響的屬性來建模
訓練模型:采用合適的算法,尋找到最合適的模型參數
評估模型:進行評估模型的質量,判斷模型是否可用
優(yōu)化模型:如果評估結果不理想,則需要對模型進行優(yōu)化
應用模型:如果評估結果滿足要求,則可應用模型于業(yè)務場景
模型集成思想
Bagging
Boosting
Stacking
競賽常用的集成模型
RandomForest
Adaboosting/GBDT/XGBoost
各模型的原理及適用場景
數據清洗技巧
數據清洗處理
重復值
錯誤值
離群值
缺失值
缺失值填充的常見方式
固定值填充
同類別均值填充
相鄰值填充(向下/向上填充)
兩點插值(相鄰值均值填充)
拉格朗日插值
預測方法填充
不同填充方式對模型效果的影響
案例:泰坦尼克號沉船幸存者預測
特征選擇模式
降維的兩大方式:特征選擇與因子合并
特征選擇的三種模式
基于變量本身的重要性篩選
缺失值所占比例過大
標準差/變異系數過?。╒arianceThreshold)
類別值比值失衡嚴重
類別值與樣本量比例過大
Filter式(特征選擇與模型分離)
常用評估指標(相關系數/顯著性/互信息等)
f_regression, f_classif, chi2,
mutual_info_regression, mutual_info_classif
案例:運營商流失預測的特征選擇
Wrapper式(利用模型結果進行特征選擇)
Sklearn實現(RFE/RFECV-Recursive Feature Elimination)
Embedded式(模型自帶特征選擇功能)
L1正則項(Lasso/ElasticNet)
信息增益(決策樹)
Sklearn實現(SelectFromModel)
不同模式的優(yōu)缺點及應用場景
特征選擇的變量個數
特征合并方法
特征合并與特征選擇
因子分析(FactorAnalysis)
FA原理及思想
載荷矩陣相關概念(變量共同度/方差貢獻率)
如何確定降維的因子個數
主成份分析(Principal Component Analysis)
PCA原理
PCA的幾何意義
案例:汽車油效預測
變量變換影響
為何需要變換變換
假設條件需求,可比性需要,同權重需要
因變量變換對模型質量的影響
案例:波士頓房價預測
特征標準化
標準化的作用: 縮小,消除/統(tǒng)一量綱
常用標準化方法:MinMaxScaler, StandardScaler,…
不同模型對標準化的要求
不同標準化對模型的影響
案例:醫(yī)院腫瘤預測
其它變換:正態(tài)化、正則化
變量派生:多項式等
案例:用戶收入預測
管道實現,簡化代碼
管道類Pipeline
列轉換類ColumnTransformer
特征合并類FeatureUnion
XGBoost模型詳解及優(yōu)化
基本參數配置
框架基本參數: n_estimators, objective
性能相關參數: learning_rate
模型復雜度參數:max_depth,min_child_weight,gamma
生長策略參數: grow_policy, tree_method, max_bin
隨機性參數:subsample,colsample_bytree
正則項參數:reg_alpha,reg_lambda
樣本不均衡參數: scale_pos_weight
早期停止與基類個數優(yōu)化(n_estimators、early_stopping_rounds)
樣本不平衡處理
欠抽樣與過抽樣
scale_pos_weight= neg_num/pos_num
XGBoost模型欠擬合優(yōu)化措施
增維,派生新特征
非線性檢驗
相互作用檢驗
降噪,剔除噪聲數據
剔除不顯著影響因素
剔除預測離群值(僅回歸)
多重共線性檢驗(僅回歸)
變量變換
自變量標準化
殘差項檢驗與因變量變換
增加樹的深度與復雜度
增大max_depth
減小min_child_weight, gamma等
禁止正則項生效
特征重要性評估與自動特征選擇
超參優(yōu)化策略:
分組調參:參數分組分別調優(yōu)
分層調參:先粗調再細調
XGBoost模型過擬合優(yōu)化措施
降維,減少特征數量
限制樹的深度和復雜度
減小max_depth
增大min_child_weight,gamma等
采用dart模型來控制過擬合(引入dropout技術)
啟用正則項懲罰:reg_alpha,reg_lambda等
啟用隨機采樣:subsample,colsample_bytree等
Stacking模式:XGBoost+LR、XGBoost+RF等
XGBoost的優(yōu)化模型:LightGBM
實戰(zhàn)訓練篇
互聯網廣告判斷模型
客戶流失預測模型
直銷響應模型
結束:課程總結與問題答疑。
傅一航老師的其它課程
數據分析方法及生產運營實際應用 06.20
數據分析方法及生產運營實際應用【課程目標】本課程主要介紹數據分析在生產運營過程中的應用,適用于制造行業(yè)/保險行業(yè)的數據分析人員等。本課程的主要目的是,幫助學員了解大數據的本質,培養(yǎng)學員的數據意識和數據思維,掌握常用的統(tǒng)計分析方法和工具,以及生產、運營過程中的應用,并以概率的方式來進行決策,提升學員的數據分析及應用能力。本課程具體內容包括:數據決策邏輯,數據決
講師:傅一航詳情
大數據時代下的精準營銷(1天) 06.20
大數據時代的精準營銷【課程目標】本課程從實際的市場營銷問題出發(fā),了解大數據在市場營銷領域的價值以及應用。并對大數據分析與挖掘技術進行了介紹,通過從大量的市場營銷數據中分析潛在的客戶特征,挖掘客戶行為特點,實現精準營銷,幫助市場營銷團隊深入理解業(yè)務運作,支持業(yè)務策略制定以及營銷決策。通過本課程的學習,達到如下目的:了解大數據營銷內容,掌握大數據在營銷中的應用。
講師:傅一航詳情
大數據時代下的精準營銷(1天-金融行業(yè)) 06.20
大數據時代的精準營銷【課程目標】本課程從實際的市場營銷問題出發(fā),了解大數據在市場營銷領域的價值以及應用。并對大數據分析與挖掘技術進行了介紹,通過從大量的市場營銷數據中分析潛在的客戶特征,挖掘客戶行為特點,實現精準營銷,幫助市場營銷團隊深入理解業(yè)務運作,支持業(yè)務策略制定以及營銷決策。通過本課程的學習,達到如下目的:了解大數據營銷內容,掌握大數據在營銷中的應用。
講師:傅一航詳情
大數據決策思維與商業(yè)模式創(chuàng)新,賦能企業(yè)增長【課程目標】本課程主要幫助大家理解大數據的基本概念,著重探索大數據的本質,理解大數據的核心價值,以及掌握實現大數據價值的三個關鍵環(huán)節(jié),大數據解決業(yè)務問題的六個步驟,然后聚焦大數據的七大核心思維,最后,再用案例說明了大數據在各行業(yè)的應用場景。大數據思維,讓決策更科學!讓管理更高效!讓營銷更精準!通過本課程的學習,達到如
講師:傅一航詳情
大數據思維與數字化轉型(2天) 06.20
大數據思維與應用創(chuàng)新【課程目標】本課程主要幫助大家理解大數據的基本概念,著重探索大數據的本質,理解大數據的核心價值,以及掌握實現大數據價值的三個關鍵環(huán)節(jié),大數據解決業(yè)務問題的六個步驟,然后聚焦大數據的七大核心思維,最后,再用案例說明了大數據在各行業(yè)的應用場景。大數據思維,讓決策更科學!讓管理更高效!讓營銷更精準!通過本課程的學習,達到如下目的:了解大數據基本
講師:傅一航詳情
大數據思維與應用創(chuàng)新(1天) 06.20
大數據思維與應用創(chuàng)新【課程目標】本課程主要幫助大家理解大數據的基本概念,著重探索大數據的本質,理解大數據的核心價值,以及掌握實現大數據價值的三個關鍵環(huán)節(jié),大數據解決業(yè)務問題的六個步驟,然后聚焦大數據的七大核心思維,最后,再用案例說明了大數據在各行業(yè)的應用場景。大數據思維,讓決策更科學!讓管理更高效!讓營銷更精準!通過本課程的學習,達到如下目的:了解大數據基本
講師:傅一航詳情
大數據思維與應用創(chuàng)新【課程目標】本課程主要幫助大家理解大數據的基本概念,著重探索大數據的本質,理解大數據的核心價值,以及掌握實現大數據價值的三個關鍵環(huán)節(jié),大數據解決業(yè)務問題的六個步驟,然后聚焦大數據的七大核心思維,最后,再用案例說明了大數據在各行業(yè)的應用場景。大數據思維,讓決策更科學!讓管理更高效!讓營銷更精準!通過本課程的學習,達到如下目的:了解大數據基本
講師:傅一航詳情
大數據挖掘工具:SPSSStatistics入門與提高【課程目標】本課程為數據分析和挖掘的工具篇,本課程面向數據分析部等專門負責數據分析與挖掘的人士,專注大數據挖掘工具SPSSStatistics的培訓。IBMSPSS工具是面向非專業(yè)人士的高級的分析工具(挖掘工具),它提供大量的分析方法和分析模型,能夠解決更復雜的業(yè)務問題,比如影響因素分析、客戶行為預測/精
講師:傅一航詳情
金融行業(yè)風險預測模型實戰(zhàn)【課程目標】本課程專注于金融行業(yè)的風控模型,面向數據分析部等專門負責數據分析與建模的人士。本課程的主要目的是,培養(yǎng)學員的大數據意識和大數據思維,掌握常用的數據分析方法和數據分析模型,并能夠用于對客戶行為作分析和預測,提升學員的數據分析綜合能力。通過本課程的學習,達到如下目的:掌握數據分析和數據建模的基本過程和步驟掌握客戶行為分析中常用
講師:傅一航詳情
- [潘文富]煙酒店別指望大客戶了,扎
- [潘文富]酒商當前的應急措施十一條
- [潘文富]錢給到位就能招到人?
- [潘文富]廠家招商之前的簡單自我評
- [潘文富]連鎖零售系統(tǒng)的打補丁
- [王曉楠]輔警轉正方式,定向招錄成為
- [王曉楠]西安老師招聘要求,西安各區(qū)
- [王曉楠]西安中小學教師薪資福利待遇
- [王曉楠]什么是備案制教師?備案制教
- [王曉楠]2024年陜西省及西安市最
- 1社會保障基礎知識(ppt) 21237
- 2安全生產事故案例分析(ppt) 20315
- 3行政專員崗位職責 19105
- 4品管部崗位職責與任職要求 16365
- 5員工守則 15522
- 6軟件驗收報告 15450
- 7問卷調查表(范例) 15193
- 8工資發(fā)放明細表 14639
- 9文件簽收單 14296