Spark on Apache Software Foundationin avoimen lähdekoodin ohjelmisto yleiskäyttöiseen klusteripohjaiseen laskentaan.

Spark
Kehittäjä Apache Software Foundation
Kehityshistoria
Vakaa versio 3.5.4 ()[1]
Tiedot
Ohjelmointikielet Scala, Java, Python, R, SQL ja Java Database Connectivity
Lisenssi Apache-lisenssi, versio 2.0 ja BSD-lisenssi
Aiheesta muualla
Verkkosivusto
Versiohallinta

Spark laajentaa ja yleistää MapReducen käyttöä ns. Big data käytössä ja mahdollistaa laajemman eri muotoisten tietolähteiden käytön (esimerkiksi tekstitiedostot ja SQL-kyselyt).

Spark tarjoaa ohjelmointirajapinnat muun muassa Java, Python, R ja Scala -kielille ja sitä voidaan käyttää Apache Hadoop ja Apache Mesos -klustereissa.[2] Spark on usein mukana Hadoopin kanssa, mutta on korvannut MapReducen käytön nopeusedun vuoksi.[2]

Spark käyttää välimuistina RAM-muistia eikä tiedostojärjestelmää kuten Hadoop, minkä ansiosta Sparkilla on mahdollista käsitellä tapauksia, joita Hadoopilla ei voi.[3] Pienissä kuormituksissa Spark voi olla sata kertaa nopeampi.[3]

Lähteet

muokkaa
  1. Release 3.5.4, (viitattu ). Tieto on haettu Wikidatasta.
  2. a b Pointer, Ian: What is Apache Spark? The big data analytics platform explained 13.11.2017. Infoworld. Viitattu 31.3.2018.
  3. a b Hadoop vs. Spark: What's the Difference? ibm.com. 27.5.2021. Viitattu 27.9.2021. (englanniksi)

Kirjallisuutta

muokkaa
  • Karau, Holden & Konwinski, Andy & Wendell, Patrick & Zaharia, Matei: Learning Spark. O'Reilly. ISBN 978-1-449-35862-4

Aiheesta muualla

muokkaa