Zajęcia 13 - Uruchomienie przykładowych programów dla danych masywnych

Instrukcja laboratoryjna

Cele

Zapoznanie się z koncepcją RDD
Utworzenie przykładowych RDD
Podstawowe operacje
Próbkowanie (sampling)
Operacje na zbiorach
Agregacje
Operacje klucz/wartość

Notatnik

Zainicjować nowy klaster obliczeniowy
Zaimportować i notatnik z następującego URL: https://raw.githubusercontent.com/khozzy/pwr-hadoop/master/spark/notebooks/databricks/lab13.ipynb
Zapoznać się z treścią oraz wykonać zadania.

<aside> 💡 Problem z importem pliku

W przypadku problemem z importem pliku z danymi należy spróbować wykonać następującą komendę. Dodatkowo, należy sprawdzić czy kontekst Spark ma dołączone biblioteki niezbędne do czytania plików z S3 (ewentualnie można umieścić plik lokalnie).

raw_data_rdd = sc.textFile('s3://pwr-hurtownie-danych/kddcup.data_10_percent.gz')

</aside>

Materiały pomocnicze

https://github.com/jadianes/spark-py-notebooks
https://www.tutorialspoint.com/apache_spark/apache_spark_rdd.htm

kddcup.data_10_percent.gz