全部教程· Python语言· PySpark · PySpark 环境设置

PySpark 环境设置

在本章中，我们将了解PySpark的环境设置。

注 - 这是考虑到您的计算机上安装了Java和Scala。

现在让我们通过以下步骤下载并设置PySpark。

第1步 - 转到官方Apache Spark 下载页面并下载最新版本的Apache Spark。在本教程中，我们使用 spark-2.1.0-bin-hadoop2.7 。

第2步 - 现在，解压缩下载的Spark tar文件。默认情况下，它将下载到Downloads目录中。

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

它将创建一个目录 spark-2.1.0-bin-hadoop2.7 。在启动PySpark之前，需要设置以下环境来设置Spark路径和 Py4j路径 。

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

或者，要全局设置上述环境，请将它们放在 .bashrc文件中 。然后运行以下命令以使环境正常工作。

# source .bashrc

现在我们已经设置了所有环境，让我们转到Spark目录并通过运行以下命令调用PySpark shell：

# ./bin/pyspark

这将启动你的PySpark shell。

Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<

下一章：PySpark SparkContext

SparkContext 是任何 Spark 功能的入口点。当我们运行任何 Spark 应用程序时，启动一个驱动程序，它具有 main 函数，并在此处启动 SparkContext。然后，驱动程序在 ...

上一章：PySpark 简介

下一章：PySpark SparkContext