Cel

Implementacja wybranego zadania projektowego w paradygmacie obliczeń masywnych.

<aside> 💡 Dobrym źródłem zbiorów danych jest Google Cloud Public Datasets, Kaggle, UC Irvine Machine Learning Repository, Registry of Open Data on AWS, Hugging Face Datasets.

</aside>

Wymagania

  1. Wszystkie obliczenia wykonane za pomocą framework'a Apache Spark (lokalnie lub przez platformę Databricks)
  2. Użycie zewnętrznego zbioru danych (co najmniej 50 000 rekordów)
  3. Analiza danych przedstawiona w postaci interaktywnego notatnika (szablon znajduje się w https://raw.githubusercontent.com/khozzy/pwr-hadoop/master/spark/notebooks/databricks/project_template.ipynb - należy go zaimportować analogicznie do poprzednich notatników)
  4. Podstawowa analiza danych
    1. Import danych z zewnętrznego źródła
    2. Agregacja danych różnymi sposobami (RDD, DataFrame, SQL)
    3. Przykład wizualizacji zmiennych
    4. Tworzenie własnych funkcji UDF
    5. Wykorzystanie dowolnego algorytmu z modułu MLlib
  5. Notatnik zostanie zaprezentowany przez grupę