Instrukcja laboratoryjna
Cele
- Zalogowanie się na koncie platformy Databricks,
- Zapoznanie się z koncepcją interaktywnych notatników,
- Zapoznanie się z obiektami Python przechowującymi kontekst,
- Zapoznanie się z podstawową składnią języka Python (opcjonalnie).
Platforma Databricks
W celu ułatwienia nauki działania frameworka Apache Spark wykorzystane zostanie darmowe konto obliczeniowe na platformie Databricks oferujące 15 GB RAM i 2 vCPU. Klaster jest domyślnie usypiany po godzinie nieaktywności.
Założenie konta
- Wypełnij formularz kontaktowy na stronie https://www.databricks.com/try-databricks naciśnij “Continue”. UWAGA: w przypadku błędów należy skorzystać z adresu mailowego spoza domeny
@pwr.edu.pl
.
- W kolejnym kroku należy wybrać “Get started with Community Edition”
- Kliknąć maila weryfikującego i ustawić hasło do konta
<aside>
💡 Adres do przestrzeni roboczej: https://community.cloud.databricks.com
</aside>
Utworzenie klastra obliczeniowego
Przed rozpoczęciem obliczeń musimy zainicjalizować klaster obliczeniowy:
- W zakładce “Compute” wybrać “Create Compute”.
- W polu “Cluster name” wprowadzić dowolną nazwę klastra, natomiast “Databricks run version” sugeruję zostawić
Runtime 12.2 LTS (Scala 2.12, Spark 3.3.2)
- Nacisnąć “Create cluster” (proces trwa ok 5 minut)
Interaktywne notatniki