Gibt es Abhängigkeiten zwischenSparkundHadoop?
Wenn nicht, gibt es Funktionen, die ich vermisse, wenn ichSparkohneHadooplaufe?
Spark kann ohne Hadoop ausgeführt werden, einige Funktionen sind jedoch auf den Code von Hadoop angewiesen (z. B. Behandlung von Parkettdateien). Wir verwenden Spark für Mesos und S3, was ein wenig kompliziert einzurichten war, aber es funktioniert wirklich gut, wenn Sie fertig sind (Sie können eine Zusammenfassung dessen lesen, was erforderlich ist, um es richtig einzustellen hier ).
Spark ist eine verteilte In-Memory-Computing-Engine.
Hadoop ist ein Framework für verteilte Speicherung (HDFS) und verteilte Verarbeitung (ARN).
Spark kann mit oder ohne Hadoop-Komponenten (HDFS/YARN) laufen)
Da Spark über kein eigenes verteiltes Speichersystem verfügt, muss es sich bei einem verteilten Computing auf eines dieser Speichersysteme verlassen.
S3 - Nicht dringende Stapeljobs. S3 eignet sich für sehr spezifische Anwendungsfälle, bei denen die Datenlokalität nicht kritisch ist.
Cassandra - Perfekt für die Streaming-Datenanalyse und einen Overkill für Stapeljobs.
HDFS - Sehr gut geeignet für Stapeljobs ohne Kompromisse bei der Datenlokalität.
Sie können Spark in drei verschiedenen Modi ausführen: Standalone, YARN und Mesos.
In der folgenden SE-Frage finden Sie detaillierte Informationen zu verteilter Speicherung und verteilter Verarbeitung.
Standardmäßig verfügt Spark nicht über einen Speichermechanismus.
Um Daten zu speichern, ist ein schnelles und skalierbares Dateisystem erforderlich. Sie können S3 oder HDFS oder ein anderes Dateisystem verwenden. Hadoop ist aufgrund der geringen Kosten eine kostengünstige Option.
Wenn Sie Tachyon verwenden, erhöht dies zusätzlich die Leistung mit Hadoop. Es wird dringend empfohlen, Hadoop für Apache spark processing . zu verwenden.
Ja, der Funke kann ohne hadoop laufen. Alle Kernfunkenfunktionen werden weiterhin funktionieren, aber Sie werden Dinge wie das einfache Verteilen aller Dateien (Code sowie Daten) an alle Knoten im Cluster über HDFS usw. verpassen.
Ja, Sie können den Spark ohne den Hadoop installieren Das wäre etwas schwierig Sie können einen Link verwenden, um Parkett zu verwenden, um ihn auf S3 als Datenspeicher zu konfigurieren http://arnon.me/2015/08/funkenparkett-s3/
Spark führt nur die Verarbeitung durch und verwendet dynamischen Speicher, um die Aufgabe auszuführen, aber um die Daten zu speichern, benötigen Sie ein Datenspeichersystem. Hier hatte hadoop die Rolle von Spark übernommen, es stellt den Speicher für Spark bereit. Ein weiterer Grund für die Verwendung von Hadoop mit Spark ist, dass sie Open Source sind und beide sich problemlos miteinander integrieren lassen, verglichen mit anderen Datenspeichersystemen. Für andere Speicher wie S3 sollte es schwierig sein, ihn wie oben erwähnt zu konfigurieren.
Hadoop hat jedoch auch eine Verarbeitungseinheit namens Mapreduce.
Willst du den Unterschied in beiden wissen?
Überprüfen Sie diesen Artikel: https://www.dezyre.com/article/hadoop-mapreduce-vs-Apache-spark-who-wins-the-battle/83
Ich denke, dieser Artikel wird Ihnen helfen zu verstehen
was zu benutzen,
wann man und benutzt
wie benutzt man !!!
Gemäß der Spark-Dokumentation kann Spark ohne Hadoop ausgeführt werden.
Sie können es als Standalone-Modus ohne Ressourcenmanager ausführen.
Wenn Sie jedoch mit mehreren Knoten arbeiten möchten, benötigen Sie einen Ressourcenmanager wie YARN oder Mesos und ein verteiltes Dateisystem wie HDFS, S3 usw.
Ja bitte. Spark ist ein unabhängiges Berechnungssystem. Hadoop ist ein Distributionsspeichersystem (HDFS) mit MapReduce-Berechnungsframework. Spark kann Daten von HDFS sowie von jeder anderen Datenquelle wie JDBC (Traditional Database), Kafka oder sogar lokaler Festplatte abrufen.
Ja, Spark kann mit oder ohne Hadoop-Installation ausgeführt werden. Weitere Informationen finden Sie unter - https://spark.Apache.org/docs/latest/