注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)基于PySpark的高級(jí)數(shù)據(jù)分析

基于PySpark的高級(jí)數(shù)據(jù)分析

基于PySpark的高級(jí)數(shù)據(jù)分析

定 價(jià):¥78.00

作 者: Akash Tandon,Sandy Ryza,Uri Laserson,Sean Owen和Josh Wills 著
出版社: 中國(guó)電力出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787519891862 出版時(shí)間: 2024-10-01 包裝: 平裝-膠訂
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書的主要內(nèi)容有:熟悉Spark的編程模型和生態(tài)系統(tǒng)。學(xué)習(xí)數(shù)據(jù)科學(xué)的一般方法。檢查分析大型公共數(shù)據(jù)集執(zhí)行步驟的完整性。發(fā)現(xiàn)哪些機(jī)器學(xué)習(xí)工具對(duì)特定問題有幫助。探索可適應(yīng)多種用途的代碼。

作者簡(jiǎn)介

  Akash Tandon是Looppanel的聯(lián)合創(chuàng)始人兼首席技術(shù)官。曾在Atlan擔(dān)任高級(jí)數(shù)據(jù)工程師。Sandy Ryza是Apache Spark的核心貢獻(xiàn)人,領(lǐng)導(dǎo)了Dagster項(xiàng)目的開發(fā)。Uri Laserson是Patch Biosciences 的創(chuàng)始人兼首席技術(shù)官。曾在Cloudera從事大數(shù)據(jù)和基因組學(xué)的研究。Sean Owen是Apache Spark的核心貢獻(xiàn)人和PMC(項(xiàng)目管理委員會(huì))的成員,同時(shí)也是Databricks專注于機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的首席解決方案架構(gòu)師。Josh Wills是WeaveGrid的軟件工程師,也是Slack的前數(shù)據(jù)工程主管。

圖書目錄

目錄
前言 1
第1 章 大數(shù)據(jù)分析 7
11 使用大數(shù)據(jù) 8
12 Apache Spark 和PySpark10
121 組件 10
122 PySpark 12
123 生態(tài)系統(tǒng) 13
13 Spark 30 14
14 PySpark 處理數(shù)據(jù)科學(xué)問題 15
15 本章小結(jié)16
第2 章 PySpark 數(shù)據(jù)分析簡(jiǎn)介 17
21 Spark 架構(gòu) 19
22 安裝PySpark 21
23 設(shè)置我們的數(shù)據(jù) 24
24 使用DataFrame API 分析數(shù)據(jù) 31
25 DataFrames 的快速匯總統(tǒng)計(jì) 35
26 DataFrame 的透視和重塑 37
27 關(guān)聯(lián)DataFrame 并選擇特征40
28 評(píng)分和模型評(píng)估 42
29 本章小結(jié)44
第3 章 音樂推薦和音頻編碼器的數(shù)據(jù)集 47
31 設(shè)置數(shù)據(jù)48
32 我們對(duì)推薦系統(tǒng)的要求 51
33 數(shù)據(jù)準(zhǔn)備55
34 構(gòu)建第一個(gè)模型 58
35 算法篩查推薦 62
36 推薦質(zhì)量評(píng)估 64
37 計(jì)算AUC 66
38 選擇超參數(shù) 68
39 給出推薦71
310 本章小結(jié) 72
第4 章 使用決策樹和決策森林進(jìn)行預(yù)測(cè) 75
41 決策樹和決策森林 76
42 準(zhǔn)備數(shù)據(jù)79
43 第一顆決策樹 84
44 決策樹超參數(shù) 92
45 調(diào)試決策樹 94
46 重溫分類特征 98
47 隨機(jī)森林102
48 進(jìn)行預(yù)測(cè)105
49 本章小結(jié)105
第5 章 異常檢測(cè)與K-means 聚類算法 107
51 K-means 聚類 108
52 識(shí)別異常網(wǎng)絡(luò)流量 109
53 初次嘗試聚類 112
54 選擇K 值 114
55 利用SparkR 實(shí)現(xiàn)可視化 118
56 特征歸一化 123
57 分類變量124
58 使用熵(Entropy)標(biāo)簽 126
59 聚類實(shí)戰(zhàn)128
510 本章小結(jié) 130
第6 章 通過LDA、Spark NLP 了解維基百科 133
61 隱含狄利克雷分布 134
62 獲取數(shù)據(jù)135
63 Spark NLP 137
64 解析數(shù)據(jù)139
65 使用Spark NLP 準(zhǔn)備數(shù)據(jù) 141
66 TF-IDF 146
67 計(jì)算TF-IDF 147
68 創(chuàng)建LDA 模型 148
69 本章小結(jié)151
第7 章 基于出租車行程數(shù)據(jù)的時(shí)空序列數(shù)據(jù)分析 153
71 數(shù)據(jù)準(zhǔn)備155
711 將日期格式字符串轉(zhuǎn)換為時(shí)間戳 157
712 處理無效記錄 159
72 地理空間分析 161
721 介紹GeoJSON 161
722 GeoPandas 163
73 PySpark 會(huì)話化 166
74 本章小結(jié)170
第8 章 金融風(fēng)險(xiǎn)評(píng)估 171
81 金融術(shù)語172
82 VaR 的計(jì)算方法 173
821 方差與協(xié)方差 173
822 歷史模擬法 173
823 蒙特卡羅模擬 174
83 我們的模型 174
84 獲取數(shù)據(jù)175
85 準(zhǔn)備數(shù)據(jù)177
86 決定因子權(quán)重 180
87 抽樣 184
88 試驗(yàn)運(yùn)行187
89 可視化收益分布 191
810 本章小結(jié) 192
第9 章 分析基因組學(xué)數(shù)據(jù)和BDG 項(xiàng)目 193
91 從建模中解耦存儲(chǔ) 194
92 設(shè)置ADAM 197
93 介紹如何使用ADAM 處理基因組數(shù)據(jù) 198
931 使用ADAM CLI 進(jìn)行文件格式轉(zhuǎn)換 199
932 使用PySpark 和ADAM 采集基因組學(xué)數(shù)據(jù) 200
94 預(yù)測(cè)轉(zhuǎn)錄因子結(jié)合位點(diǎn) 206
95 本章小結(jié)212
第10 章 基于深入學(xué)習(xí)和PySpark LSH 的圖像相似度
檢測(cè) 215
101 PyTorch 216
102 準(zhǔn)備數(shù)據(jù) 217
103 圖像矢量表示的深度學(xué)習(xí)模型 219
1031 圖像嵌入 219
1032 將圖像嵌入導(dǎo)入 PySpark 222
104 使用PySpark LSH 進(jìn)行圖像相似搜索 223
105 本章小結(jié) 228
第11 章 使用MLflow 管理機(jī)器學(xué)習(xí)生命周期 229
111 機(jī)器學(xué)習(xí)生命周期 229
112 MLflow 231
113 實(shí)驗(yàn)跟蹤 232
114 管理和服務(wù)ML 模型 236
115 創(chuàng)建并使用MLflow 項(xiàng)目 239
116 本章小結(jié) 243

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)