Zajęcia 12 - Zapoznanie się z ekosystemem Apache Spark i platformą Databricks

Instrukcja laboratoryjna

Cele

Zalogowanie się na koncie platformy Databricks,
Zapoznanie się z koncepcją interaktywnych notatników,
Zapoznanie się z obiektami Python przechowującymi kontekst,
Zapoznanie się z podstawową składnią języka Python (opcjonalnie).

Platforma Databricks

W celu ułatwienia nauki działania frameworka Apache Spark wykorzystane zostanie darmowe konto obliczeniowe na platformie Databricks oferujące 15 GB RAM i 2 vCPU. Klaster jest domyślnie usypiany po godzinie nieaktywności.

Założenie konta

Wypełnij formularz kontaktowy na stronie https://www.databricks.com/try-databricks naciśnij “Continue”. UWAGA: w przypadku błędów należy skorzystać z adresu mailowego spoza domeny @pwr.edu.pl .
W kolejnym kroku należy wybrać “Get started with Community Edition”

Untitled

Kliknąć maila weryfikującego i ustawić hasło do konta

<aside> 💡 Adres do przestrzeni roboczej: https://community.cloud.databricks.com

</aside>

Utworzenie klastra obliczeniowego

Przed rozpoczęciem obliczeń musimy zainicjalizować klaster obliczeniowy:

W zakładce “Compute” wybrać “Create Compute”.
W polu “Cluster name” wprowadzić dowolną nazwę klastra, natomiast “Databricks run version” sugeruję zostawić Runtime 12.2 LTS (Scala 2.12, Spark 3.3.2)
Nacisnąć “Create cluster” (proces trwa ok 5 minut)

Instrukcja laboratoryjna

Cele

Platforma Databricks

Interaktywne notatniki