新書推薦:

《
至高无上:一场颠覆世界的人工智能竞赛
》
售價:NT$
403.0

《
聪明钱
》
售價:NT$
398.0

《
大转型:我们时代的政治与经济起源
》
售價:NT$
500.0

《
约翰·巴勒斯:美国自然文学之父
》
售價:NT$
347.0

《
东线有战事1914一战爆发与帝国崩溃 与西线无战事遥相呼应的一战东线战事探寻帝国时代崩塌的根源
》
售價:NT$
449.0

《
奇岩馆事件(“这本推理小说了不起!”大奖获奖作者高野结史颠覆你的推理常识)
》
售價:NT$
254.0

《
暗斗:一个书生的文化抗战
》
售價:NT$
449.0

《
西周人的日常生活:中国贵族的蜕变之旅 西周人的一天 九鼎八簋的隐藏菜单
》
售價:NT$
500.0
|
內容簡介: |
現今無論在任何領域,資料都逐漸地變大,你該如何有效率的對他們進行處理 此書介紹了ApacheSpark,一個開放原始碼叢集運算系統。它使資料可以更快速的寫入以及執行。藉由Spark,你可以透過簡易的Pyhon,Java,或是Scala的API進行快速的大量資料處理。
此書為Spark的開發者親自撰寫,可以讓資料科學家以及工程師立即應用書中的知識展開工作。讀者將學會如何透過數行的程式碼進行一個平行處理的工作。本書涵蓋了基礎的批次工作到串流處理以及機器學習等相關的應用。
讓讀者可以快速地了解Spark,例如:分散式資料集、記憶體快取、以及交互式介面等。
利用Spark內建的強大資料庫,包含SparkSQL、SparkStreaming以及MLib。
使用一個Spark程式框架即可取代混合多種工具如Hive、Hadoop、Mahout以及Strom。
學習透過Spark進行交互式、批次、以及串流式的應用程式開發
與諸多資料來源進行連接,包含HDFS、HIVE、JSON以及S3
學習資料切割以及共享變數等進階議題
“本書是我在大數據處理應用程式指南推薦書單中的第一名”--Ben.Lorica資料科學家主席,O’ReillyMedia
|
關於作者: |
HoldenKarau
HoldenKarau任職於Databricks的軟體開發工程師,活耀於開放原始碼專案,同時也是《FastDataProcessingwithSpark》Packt出版社的作者
AndyKonwinski
AndyKonwinski是Databricks的共同創辦人,ApacheSpark的提交者。同時也是ApacheMesos專案的共同建立人
PatrickWendell
PatrickWendell是Databricks的共同創辦人,ApacheSpark的提交者。他也維護許多Spark核心引擎的子專案。
MateiZaharia
MateiZaharia是Databricks的CTO以及ApacheSpark的建立人,他也因為此專案名列Apache副董事
|
目錄:
|
Chapter1Spark資料分析導論
Chapter2下載及開始使用Spark
Chapter3RDD程式撰寫
Chapter4鍵值對RDD操作
Chapter5存取資料
Chapter6進階Spark程式撰寫
Chapter7在叢集執行Spark
Chapter8Spark調校與除錯
Chapter9SparkSQL
Chapter10Sparkstreaming
Chapter11MLlib機器學習函式庫
|
|