Cel
Implementacja wybranego zadania projektowego w paradygmacie obliczeń masywnych.
<aside>
💡 Dobrym źródłem zbiorów danych jest Google Cloud Public Datasets, Kaggle, UC Irvine Machine Learning Repository, Registry of Open Data on AWS, Hugging Face Datasets.
</aside>
Wymagania
- Wszystkie obliczenia wykonane za pomocą framework'a Apache Spark (lokalnie lub przez platformę Databricks)
- Użycie zewnętrznego zbioru danych (co najmniej 50 000 rekordów)
- Analiza danych przedstawiona w postaci interaktywnego notatnika (szablon znajduje się w
https://raw.githubusercontent.com/khozzy/pwr-hadoop/master/spark/notebooks/databricks/project_template.ipynb
- należy go zaimportować analogicznie do poprzednich notatników)
- Podstawowa analiza danych
- Import danych z zewnętrznego źródła
- Agregacja danych różnymi sposobami (RDD, DataFrame, SQL)
- Przykład wizualizacji zmiennych
- Tworzenie własnych funkcji UDF
- Wykorzystanie dowolnego algorytmu z modułu MLlib
- Notatnik zostanie zaprezentowany przez grupę