Instrukcja laboratoryjna

Cele

Notatnik

  1. Zainicjować nowy klaster obliczeniowy
  2. Zaimportować i notatnik z następującego URL: https://raw.githubusercontent.com/khozzy/pwr-hadoop/master/spark/notebooks/databricks/lab13.ipynb
  3. Zapoznać się z treścią oraz wykonać zadania.

<aside> 💡 Problem z importem pliku

W przypadku problemem z importem pliku z danymi należy spróbować wykonać następującą komendę. Dodatkowo, należy sprawdzić czy kontekst Spark ma dołączone biblioteki niezbędne do czytania plików z S3 (ewentualnie można umieścić plik lokalnie).

raw_data_rdd = sc.textFile('s3://pwr-hurtownie-danych/kddcup.data_10_percent.gz')

</aside>

Materiały pomocnicze