https://raw.githubusercontent.com/khozzy/pwr-hadoop/master/spark/notebooks/databricks/lab13.ipynb
<aside> 💡 Problem z importem pliku
W przypadku problemem z importem pliku z danymi należy spróbować wykonać następującą komendę. Dodatkowo, należy sprawdzić czy kontekst Spark ma dołączone biblioteki niezbędne do czytania plików z S3 (ewentualnie można umieścić plik lokalnie).
raw_data_rdd = sc.textFile('s3://pwr-hurtownie-danych/kddcup.data_10_percent.gz')
</aside>