PySpark

PySpark

PySpark 是 Spark 為 Python 開發者提供的 API。

以下是 PySpark 提供的每個模組每個類的詳解及示例代碼。

基本介紹

  • 外文名:PySpark
  • 含義:Spark為 Python開發者提供的API
  • 最新版本:2.1.0
  • 對應的版本:0.10.4
子模組,PySpark 提供的類,pyspark.SparkConf,pyspark.SparkContext,pyspark.SparkFiles,pyspark.RDD,pyspark.Accumulator,pyspark.Broadcast,pyspark.Accumulator,
PySpark 是 Spark 為 Python 開發者提供的 API,位於 $SPARK_HOME/bin 目錄,其依賴於 Py4J
隨Spark 2.1.0發布的 Py4J位於 $SPARK_HOME/python/lib 目錄,對應的版本是 0.10.4。

子模組

pyspark.sql 模組
pyspark.streaming 模組
pyspark.ml 包
pyspark.mllib 包

PySpark 提供的類

pyspark.SparkConf

pyspark.SparkConf 類提供了對一個 Spark 應用程式配置的操作方法。用於將各種Spark參數設定為鍵值對。

pyspark.SparkContext

pyspark.SparkContext 類提供了套用與 Spark 互動的主入口點,表示套用與 Spark 集群的連線,基於這個連線,套用可以在該集群上創建 RDD 和 廣播變數 (pyspark.Broadcast)

pyspark.SparkFiles

SparkFiles 只包含類方法,開發者不應創建 SparkFiles 類的實例。

pyspark.RDD

這個類是為 PySpark 操作 RDD􏵌􏱯􏰯􏱎􏲑􏰭􏰮􏰽 提供了基礎方法。
first() 是 pyspark.RDD 類提供的方法,返回 RDD 的第一個元素。
aggregate() 方法使用給定的組合函式和中性“零值,先聚合每個分區的元素,然後再聚合所有分區的結果。
cache() 使用默認存儲級別(MEMORY_ONLY)對此 RDD 進行持久化。
collect() 返回一個列表,包含此 RDD 中所有元素。

pyspark.Accumulator

一種“只允許添加”的共享變數,Spark 任務只能向其添加值。

pyspark.Broadcast

Spark 提供了兩種共享變數:廣播變數 和 累加器,pyspark.Broadcast 類提供了對廣播變數的操作方法。

pyspark.Accumulator

pyspark.Accumulator 提供了對累加器變數的操作方法。
累加器是僅僅被相關操作累加的變數,因此可以在並行中被有效地支持。

相關詞條

熱門詞條

聯絡我們