Cel

Implementacja wybranego zadania projektowego w paradygmacie oblicze艅 masywnych.

<aside> 馃挕 Dobrym 藕r贸d艂em zbior贸w danych jest Google Cloud Public Datasets, Kaggle, UC Irvine Machine Learning Repository, Registry of Open Data on AWS, Hugging Face Datasets.

</aside>

Wymagania

  1. Wszystkie obliczenia wykonane za pomoc膮 framework'a Apache Spark (lokalnie lub przez platform臋 Databricks)
  2. U偶ycie zewn臋trznego zbioru danych (co najmniej 50 000 rekord贸w)
  3. Analiza danych przedstawiona w postaci interaktywnego notatnika (szablon znajduje si臋 w https://raw.githubusercontent.com/khozzy/pwr-hadoop/master/spark/notebooks/databricks/project_template.ipynb - nale偶y go zaimportowa膰 analogicznie do poprzednich notatnik贸w)
  4. Podstawowa analiza danych
    1. Import danych z zewn臋trznego 藕r贸d艂a
    2. Agregacja danych r贸偶nymi sposobami (RDD, DataFrame, SQL)
    3. Przyk艂ad wizualizacji zmiennych
    4. Tworzenie w艂asnych funkcji UDF
    5. Wykorzystanie dowolnego algorytmu z modu艂u MLlib
  5. Notatnik zostanie zaprezentowany przez grup臋