Pyspark – podstawowe transformacje i akcje

wpis w: Apache, Python, Spark | 0

Transformacje tworzą nowe obiekty RDD , również na podstawie innego obiektu RDD. Silnik Apache Spark potrafi przeanalizować sekwencję transformacji. Akcje wykonują na obiektach RDD działania, których wynikiem nie jest RDD i działania te wymuszają wykorzystanie definicji RDD wraz z sekwencją … Continued

Apache Spark – pierwsze początki

wpis w: Apache, Big Data, Python, Spark | 2

Poradnik: Jak uruchomić na komputerze z MS Windows lokalną instancję Apache Sparka pracującą na jednym nodzie z gotową obsługą skryptów w Pythonie (pyspark) i przykładowymi zbiorami danych. Na podstawie materiałów ze strony http://semantica.cs.lth.se/pyspark/#/pyspark-vm Dla tych, którzy na co dzień korzystają … Continued