wake-up-neo.com

Installation von Apache Spark unter Ubuntu 14.04

Zuerst habe ich eine VM, auf die ich über Ubuntu zugreife, und diese VM ist auch Ubuntu 14.04. Ich muss Apache Spark so bald wie möglich installieren, aber ich kann nichts finden, was mir helfen kann, oder mir Referenzen geben, wo es am besten erklärt wird. Ich habe einmal versucht, es auf meinem lokalen Rechner Ubuntu 14.04 zu installieren, aber es ist fehlgeschlagen, aber die Sache ist, dass ich es nicht auf einem Cluster installieren möchte.

12
JPerk

Sie können spark in drei einfachen Schritten installieren und verwenden:

  • Laden Sie die neueste Version von Spark von hier herunter.
  • Navigieren Sie vom Terminal zum heruntergeladenen Ordner und führen Sie den folgenden Befehl aus:

    tar -xvf spark-x.x.x.tgz        //replace x's with your version
    
  • Navigieren Sie zum extrahierten Ordner und führen Sie einen der folgenden Befehle aus:

    ./bin/spark-Shell               // for interactive scala Shell
    ./bin/pyspark                   // for interactive python Shell
    

Sie können jetzt funken.

24

Der folgende Prozess ist hauptsächlich:

Stellen Sie sicher, dass Sie Version 7 oder 8 des Java Development Kit installiert haben

Im nächsten Schritt installieren Sie Scala.

Fügen Sie dann Folgendes am Ende der ~/.bashrc-Datei hinzu

export SCALA_HOME=<path to Scala home>
export PATH=$SCALA_HOME/bin:$PATH

bashrc neu starten.

$ . .bashrc

Im nächsten Schritt installieren Sie git. Funkenaufbau hängt von Git ab.

Sudo apt-get install git

Schließlich Funkenverteilung von hier herunterladen

$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz
$ tar xvf spark-1.4.0.tgz 

Gebäude

SBT (Simple Build Tool) wird zum Erstellen von Spark verwendet, das im Paket enthalten ist. Um den Code zu kompilieren

$ cd spark-1.4.0
$ build/sbt Assembly

Das Bauen dauert einige Zeit. 

Siehe diesen Blogeintrag , hier finden Sie detailliertere Schritte zur Installation von Apache Spark unter Ubuntu-14.04

6
prabeesh

In diesem Beitrag werden detaillierte Schritte zum Einrichten von Apache Spark-2.0 auf einem Ubuntu/Linux-Computer beschrieben. Für die Ausführung von Spark in Ubuntu sollten Java und Scala installiert sein. Spark kann mit oder ohne Hadoop installiert werden. Hier in diesem Beitrag befassen wir uns nur mit der Installation von Spark 2.0 Standalone. Die Installation von Spark-2.0 über Hadoop wird in einem anderen Beitrag erläutert. Wir werden auch die Installation von Jupyter-Notebooks für die Ausführung von Spark-Anwendungen mit Python mit dem Pyspark-Modul .. durchführen. Beginnen wir mit der Überprüfung und Installation von Java und Scala.

$ scala -version
$ Java –version

Diese Befehle sollten die Versionen ausdrucken, wenn scala und Java bereits installiert sind. Andernfalls können Sie diese mit den folgenden Befehlen installieren. 

$ Sudo apt-get update
$ Sudo apt-get install Oracle-Java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ Sudo mkdir /usr/local/src/scala
$ Sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/

Sie können erneut mit den Versionsbefehlen überprüfen, ob Java und Scala ordnungsgemäß installiert sind. Daraufhin wird - Angezeigt. Scala-Code-Runner-Version 2.10.4 - Copyright 2002-2013, LAMP/EPFL und für Java sollte es angezeigt werdenJava Version "1.8.0_101" Java (TM) SE-Laufzeitumgebung (Build 1.8.0_101-b13) Java HotSpot (TM) 64-Bit-Server VM (Build 25.101-b14, gemischter Modus) Aktualisieren Sie die .bashrc-Datei, indem Sie diese Zeilen am Ende hinzufügen. 

export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH

Und starten Sie bashrc mit diesem Befehl erneut 

$ . .bashrc

Installation von Spark Laden Sie zunächst Spark von https://spark.Apache.org/downloads.html mit diesen Optionen herunter Spark Realease: 2.0.0 Pakettyp: Mit Hadoop 2.7 und Direct vorgefertigt herunterladen.

Gehen Sie nun zu $ ​​HOME/Downloads und verwenden Sie den folgenden Befehl, um die Spark-Tar-Datei zu extrahieren und an den angegebenen Ort zu verschieben.

$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/` 
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark

Fügen Sie der Datei ~/.bashrc die folgende Zeile hinzu. Dies bedeutet, dass Sie den Ort hinzufügen, an dem sich die Spark-Softwaredatei der Variablen PATH befindet.

export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH

Starten Sie die Umgebung .bashrc erneut mit den folgenden Befehlen source ~/.bashrc oder

. .bashrc

Jetzt können Sie spark-Shell mit diesen Befehlen starten 

$spark-Shell    for starting scala API
$ pyspark       for starting Python API
4
Abir J.

Ich habe es geschafft, indem ich ein Maven-Projekt erstellt habe, und dann die Abhängigkeit von spark in die Datei pom.xml eingefügt. So hat es einfach für mich funktioniert, weil ich mit Java und nicht mit Scala programmieren musste. 

0
JPerk

Sie können mit dem Aufruf von http://spark.Apache.org/downloads.html beginnen, um Apache Spark herunterzuladen. Wenn Sie noch keinen Hadoop-Cluster/keine vorhandene Installation haben, können Sie eine der Optionen auswählen. Dadurch erhalten Sie eine .tgz-Datei, die Sie mit tar -xvf [filename] extrahieren können. Von dort aus können Sie die Spark-Shell starten und im lokalen Modus starten. Weitere Informationen finden Sie in der Kurzanleitung unter http://spark.Apache.org/docs/latest/ .

0
Holden