Cel
Implementacja wybranego zadania projektowego w paradygmacie oblicze艅 masywnych.
<aside>
馃挕 Dobrym 藕r贸d艂em zbior贸w danych jest Google Cloud Public Datasets, Kaggle, UC Irvine Machine Learning Repository, Registry of Open Data on AWS, Hugging Face Datasets.
</aside>
Wymagania
- Wszystkie obliczenia wykonane za pomoc膮 framework'a Apache Spark (lokalnie lub przez platform臋 Databricks)
- U偶ycie zewn臋trznego zbioru danych (co najmniej 50 000 rekord贸w)
- Analiza danych przedstawiona w postaci interaktywnego notatnika (szablon znajduje si臋 w
https://raw.githubusercontent.com/khozzy/pwr-hadoop/master/spark/notebooks/databricks/project_template.ipynb
- nale偶y go zaimportowa膰 analogicznie do poprzednich notatnik贸w)
- Podstawowa analiza danych
- Import danych z zewn臋trznego 藕r贸d艂a
- Agregacja danych r贸偶nymi sposobami (RDD, DataFrame, SQL)
- Przyk艂ad wizualizacji zmiennych
- Tworzenie w艂asnych funkcji UDF
- Wykorzystanie dowolnego algorytmu z modu艂u MLlib
- Notatnik zostanie zaprezentowany przez grup臋