數據分析技術（第2版）使用SQL和Excel工具

基本信息

作者：[美]Gordon S. Linoff 著陶佰明譯
定價：98元
印次：1-1
ISBN：9787302461395
出版日期：2017.03.01
印刷日期：2017.02.16圖書目錄

內容簡介

SQL是數據查詢的基本語言，Excel是數據分析和展示的最常見工具。兩者結合，可以組成一個強大且易於理解的業務數據分析工具。很多類重要的數據分析並不需要複雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。

這是一本實用指南，作者GordonS.Linoff是數據挖掘領域的權威專家。書中介紹了如何使用SQL和Excel來設計並完成複雜的數據分析。本書的第1版被廣泛認可，第2版涵蓋了對SQL和Excel新功能的介紹，同時包括新的技術和實際業務示例。第2版介紹了業務經理和數據分析人員所需掌握的最新信息。

本書首先介紹數據挖掘所用的SQL基礎知識，如何使用Excel展示結果，以及用於理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel後，本書介紹了核心分析技術。本書內容逐步從基礎查詢擴展到複雜的套用，使讀者能夠學習到某種數據分析的使用原因和時機，如何設計和實現，以及展示數據分析結果的強大方法。每一步都詳細解釋了業務環境、技術方法以及在所熟悉工具中的具體實現。

隨著對本書的閱讀，你會發現很多知識點，包括地理信息的重要性，圖表中的數據隨時間的變化方式，如何使用生存分析理解客戶任期和變動，以及影響生存率的因素。同時，還會探索到一些方法，包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外，本書還包含重要的SQL數據挖掘模型(線性回歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用於分析結果集的模型、包含累積增量圖表和ROC圖表、使用SQL的最佳實踐、提高查詢性能的方法等。

圖書目錄

第1章數據挖掘者眼中的SQL 1
1.1 資料庫、SQL和大數據 2
1.1.1 什麼是大數據？ 2
1.1.2 關係型資料庫 3
1.1.3 Hadoop和Hive 3
1.1.4 NoSQL和其他類型的資料庫 3
1.1.5 SQL 4
1.2 繪製數據結構 4
1.2.1 什麼是數據模型？ 5
1.2.2 什麼是表？ 5
1.2.3 什麼是實體-關係圖表？ 8
1.2.4 郵政編碼表 9
1.2.5 訂閱數據集 10
1.2.6 訂單數據集 11
1.2.7 關於命名的提示 12
1.3 使用數據流描述數據分析 12
1.3.1 什麼是數據流？ 13
1.3.2 數據流、SQL和關係代數 16
1.4 SQL查詢 16
1.4.1 做什麼，而不是怎么去做 16
1.4.2 SELECT語句 17
1.4.3 一個基礎的SQL查詢 17
1.4.4 一個基本的SQL求和查詢 19
1.4.5 聯接表的意義 20
1.4.6 SQL的其他重要功能 26
1.5 子查詢和公用表表達式 29
1.5.1 用於命名變數的子查詢 29
1.5.2 處理統計信息的子查詢 32
1.5.3 子查詢和IN 33
1.5.4 用於UNION ALL的子查詢 37
1.6 小結 38
第2章表中有什麼？開始數據探索 39
2.1 什麼是數據探索？ 40
2.2 Excel中的繪圖 40
2.2.1 基礎圖表：柱形圖 41
2.2.2 單元格中的條形圖...
2.2.3柱形圖的有用變化形式47
2.2.4其他類型的圖表50
2.3迷你圖53
2.4列中包含的值55
2.4.1直方圖55
2.4.2計數的直方圖58
2.4.3計數的累積直方圖60
2.4.4數字值的直方圖(頻率)60
2.5探索更多的值——最小值、最大
值和模式64
2.5.1最小值和最大值64
2.5.2最常見的值(模式)65
2.6探索字元串值66
2.6.1長度的直方圖66
2.6.2起始或結尾包含空白字元
的字元串66
2.6.3處理大小寫問題67
2.6.4字元串中存儲的字元是
什麼？67
2.7探索兩個列中的值69
2.7.1每個州的平均銷售額
是多少？70
2.7.2在一個單獨的訂單中，產品重複
出現的頻率是多少？70
2.7.3哪個州的AmericanExpress
用戶最多？73
2.8由一個列的數據擴展到所有列
的數據匯總73
2.8.1針對單列的匯總74
2.8.2返回表中所有列的查詢76
2.8.3使用SQL生成匯總編碼76
2.9小結78
第3章不同之處是如何不同？79
3.1基本的統計學概念80
3.1.1虛擬假設80
3.1.2可信度和機率81
3.1.3常態分配82
3.2平均值的區別有多大？85
3.2.1方法85
3.2.2子集平均值的標準差85
3.2.3三個方法87
3.3對表做抽樣89
3.3.1隨機抽樣89
3.3.2可重複的隨機樣本90
3.3.3分層比例抽樣91
3.3.4平衡的樣本92
3.4計數的可能性93
3.4.1有多少男性成員？96
3.4.2有多少加利福尼亞人？98
3.4.3虛擬假設和可信度99
3.4.4有多少客戶仍然是活躍
客戶？100
3.4.5比率或數字？103
3.5機率和它們的統計104
3.5.1機率的標準差104
3.5.2機率的置信區間105
3.5.3機率的不同106
3.5.4保守的下限值107
3.6卡方檢驗107
3.6.1期望值108
3.6.2卡方計算108
3.6.3卡方分布109
3.6.4SQL中的卡方檢驗111
3.6.5州和產品之間的特殊關係112
3.7月份和支付類型與不同產品
類型的特殊關係114
3.7.1多維卡方114
3.7.2使用SQL查詢115
3.7.3結果115
3.8小結116
第4章發生的地點在何處？119
4.1緯度和經度120
4.1.1緯度和經度的定義120
4.1.2度數、分鐘和秒121
4.1.3兩個位置之間的距離122
4.1.4包含郵政編碼的圖片128
4.2人口統計131
4.2.1極端情況：最富有的和最貧
窮的人132
4.2.2分別在使用訂單和不使用訂
單的情況下比較郵政編碼137
4.3地理等級142
4.3.1州中最富有的郵政編碼142
4.3.2州中擁有最多訂單的郵政
編碼143
4.3.3地理數據中有趣的層級
結構145
4.3.4計算郡的財富148
4.3.5財富值的分布150
4.3.6在郡中，哪個郵政編碼是相對
最富有的？151
4.3.7擁有最高的相對訂單占有
份額的郡152
4.4在Excel中繪製地圖155
4.4.1為什麼繪製地圖？155
4.4.2不能繪圖156
4.4.3網路地圖156
4.4.4郵政編碼散點圖之上的州
邊界157
4.5小結159
第5章關於時間161
5.1資料庫中的日期和時間162
5.2開始調研日期166
5.2.1確認日期中沒有時間166
5.2.2根據日期比較計數167
5.2.3訂單數和訂單大小172
5.2.4星期175
5.3兩個日期之間有多長？178
5.3.1以天為單位的持續時間178
5.3.2以星期為單位的持續時間180
5.3.3以月為單位的持續時間180
5.3.4有多少個星期一？181
5.3.5下一個周年紀念日(或生日)
是什麼時候？184
5.4跨年比較188
5.4.1以天為單位比較188
5.4.2以星期為單位比較189
5.4.3以月為單位比較190
5.5以天計算活躍客戶數量196
5.5.1某天的活躍客戶數量196
5.5.2每天的活躍客戶數量196
5.5.3有多少不同類型的客戶？198
5.5.4不同任期時段的客戶數量198
5.5.5隻使用SQL計算活躍客戶201
5.6Excel中的簡單圖表動畫203
5.6.1從訂單生成日期到運貨
日期203
5.6.2訂單延時在每年中的變化205
5.7小結208
第6章客戶的持續時間有多久？使用
生存分析理解客戶和他們的
價值209
6.1生存分析210
6.1.1平均壽命211
6.1.2醫學研究212
6.1.3關於風險率的示例212
6.2風險計算213
6.2.1數據調研214
6.2.2風險率216
6.2.3客戶可視化：時間與任期217
6.2.4截尾219
6.3生存率和保留率220
6.3.1生存率的點的估計220
6.3.2計算任意任期的生存率221
6.3.3在SQL中計算生存率222
6.3.4簡單的客戶保留率計算225
6.3.5保留率和生存率的區別226
6.3.6風險率和生存率的簡單
示例227
6.4對比不同的客戶分組230
6.4.1市場總結230
6.4.2市場分層231
6.4.3生存率比例234
6.4.4條件生存率234
6.5隨時間變化的生存率236
6.5.1特定風險率隨時間的變化236
6.5.2按照起始年份分類的客戶
生存率238
6.5.3之前的生存率什麼樣？239
6.6由生存率衍生出來的重要
指標241
6.6.1估算生存點241
6.6.2客戶任期的中間值242
6.6.3客戶生命周期的中間值242
6.6.4風險率的置信度243
6.7使用生存率計算客戶價值245
6.7.1估算收入246
6.7.2對個體的未來收入的估算247
6.7.3當前客戶分組的收入估算249
6.7.4所有客戶未來收入的估算251
6.8預測253
6.8.1對已有客戶的預測254
6.8.2對新開始者的預測258
6.9小結259
第7章影響生存率的因素：客戶
任期261
7.1哪些因素是重要的，何時
重要？262
7.1.1方法說明262
7.1.2使用平均值比較數字因素264
7.1.3風險比例268
7.2左截斷271
7.2.1認識左截斷271
7.2.2左截斷的影響273
7.2.3如何從理論上解決左截斷
問題274
7.2.4估算一個任期的風險率275
7.2.5估算所有任期的風險率276
7.2.6在SQL中計算277
7.3時間窗278
7.3.1一個商業問題278
7.3.2時間窗=左截斷+右截尾278
7.4競爭風險283
7.4.1競爭風險的示例283
7.4.2競爭風險的“風險率”284
7.4.3競爭風險的“生存率”286
7.4.4隨著時間的變化，客戶身上
發生了什麼？287
7.5事件前後291
7.5.1三種情況291
7.5.2使用生存率預測來理解一次
性事件293
7.5.3比較前後風險率294
7.5.4基於對列的方法294
7.5.5基於對列的方法：完全佇列295
7.5.6事件影響的直接估計297
7.6小結301
第8章多次購買以及其他重複事件303

數據分析技術（第2版）使用SQL和Excel工具

基本介紹

基本信息

內容簡介

圖書目錄

作者介紹

相關詞條

熱門詞條

數據分析技術（第2版） 使用SQL和Excel工具

基本介紹

基本信息

內容簡介

圖書目錄

作者介紹

相關詞條

熱門詞條

數據分析技術（第2版）使用SQL和Excel工具