實踐方法與行業案例

內容簡介

.三位資深大數據專家近10年經驗總結，多位銀行、網際網路金融與Fintech公司大咖聯袂推薦。本書立足商業實踐，結合典型業務場景，詳細闡述數據從獲取、預處理、挖掘、建模、結論分析與展現到系統套用的整個流程。就完整性而言，覆蓋數據、平台、分析和套用等企業內數據流轉的主要環節；就內容而言，拋棄了理論與公式的堆積以及小明式的人造案例，選取大量翔實的案例展現數據從線下分析到線上套用的企業實戰過程；就寫作手法而言，力求兼顧實用主義和理論深度，用淺顯的語言介紹複雜的分析套用過程，從實戰角度詮釋理論技術和算法的具體套用；就布局而言，按照數據與平台篇、分析篇和套用篇分別撰寫。

作者簡介

陳春寶　上海交通大學工業工程博士，經濟學碩士。在銀行、信用卡、醫藥與電信等行業擁有近10年數據挖掘分析與SAS建模經驗，現就職於商業銀行，在數據挖掘、機器學習和業務諮詢方面有著獨到的見解。工作跨大數據、行銷、風險、運營等多個領域，擅長診斷各類業務問題，套用商業和數據分析手段獲得創新性的解決方案，並幫助業務部門落地。曾經擔任MSA諮詢顧問、交通銀行信用卡中心數據分析經理、上海交通大學工程碩士企業導師。在SCI&EI索引期刊發表論文10餘篇。

圖書目錄

第一部分　數據與平台篇
第1章　數據與數據平台 3
1.1　數據的基本形態 4
1.1.1　數據環境與數據形態 4
1.1.2　生產數據 5
1.1.3　原始數據 5
1.1.4　分析數據 6
1.2　數據平台 7
1.2.1　數據倉庫平台 9
1.2.2　大數據平台 13
1.2.3　MPP資料庫 22
1.2.4　NoSQL資料庫 23
1.3　套用系統 24
1.4　本章小結 25
第2章　數據體系 26
2.1　數據閉環 27
2.2　數據緩衝區 28
2.2.1　系統解耦 29
2.2.2　批量導出 31
2.2.3　FTP傳輸 40
2.2.4　批量導入 42
2.3　ETL 49
2.3.1　ETL工具 50
2.3.2　ETL作業 52
2.4　作業調度 56
2.5　監控和預警 56
2.5.1　使用監控工具進行監控 57
2.5.2　使用BI工具進行監控 57
2.6　本章小結 57
第3章　實戰：打造數據閉環 59
3.1　數據緩衝區的基本規則 60
3.1.1　檔案存儲規則 61
3.1.2　檔案命名規則 61
3.1.3　檔案清理規則 62
3.2　自動載入的流程 62
3.2.1　掃描檔案 63
3.2.2　下載檔案 64
3.2.3　解壓檔案 65
3.2.4　載入檔案 65
3.3　自動載入程式的資料庫設計 66
3.3.1　數據檔案信息表 67
3.3.2　數據檔案狀態表 68
3.3.3　載入配置信息表 69
3.3.4　數據緩衝區信息表 70
3.3.5　目標伺服器表 70
3.4　自動載入程式的多執行緒實現 71
3.4.1　ScanFiles 72
3.4.2　DownLoadAndUnZip 75
3.4.3　LoadToHive 77
3.4.4　LoadToOracle 78
3.4.5　自動載入程式的部署架構 79
3.4.6　程式的維護和最佳化 80
3.5　本章小結 80

實踐方法與行業案例

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條