Instrukcja laboratoryjna

Cele

Platforma Databricks

W celu ułatwienia nauki działania frameworka Apache Spark wykorzystane zostanie darmowe konto obliczeniowe na platformie Databricks oferujące 15 GB RAM i 2 vCPU. Klaster jest domyślnie usypiany po godzinie nieaktywności.

Założenie konta

  1. Wypełnij formularz kontaktowy na stronie https://www.databricks.com/try-databricks naciśnij “Continue”. UWAGA: w przypadku błędów należy skorzystać z adresu mailowego spoza domeny @pwr.edu.pl .
  2. W kolejnym kroku należy wybrać “Get started with Community Edition

Untitled

  1. Kliknąć maila weryfikującego i ustawić hasło do konta

<aside> 💡 Adres do przestrzeni roboczej: https://community.cloud.databricks.com

</aside>

Utworzenie klastra obliczeniowego

Przed rozpoczęciem obliczeń musimy zainicjalizować klaster obliczeniowy:

  1. W zakładce “Compute” wybrać “Create Compute”.
  2. W polu “Cluster name” wprowadzić dowolną nazwę klastra, natomiast “Databricks run version” sugeruję zostawić Runtime 12.2 LTS (Scala 2.12, Spark 3.3.2)
  3. Nacisnąć “Create cluster” (proces trwa ok 5 minut)

Interaktywne notatniki