Was ist Databricks Training?

Der dreitägige Databricks-Workshop von Thinkport bietet eine umfassende Einführung in die mächtige Datenplattform, die sowohl für Data Engineering als auch für Machine Learning und Data Science optimiert ist.

Module 1: Databricks Intro

  • Delta Lake: Grundlagen und Konzepte von Delta Lake, einschließlich Transaktionen und Versionierung.

  • Data Engineering: Überblick über Datenengineering in Databricks, einschließlich grundlegender Transformationen und Operationen.

  • Data Streaming: Einführung in die Verarbeitung von Echtzeitdaten und Streaming mit Databricks.

  • Data Warehousing: Konzepte und Anwendungen von Data Warehousing in Databricks.

  • Data Sharing: Methoden und Werkzeuge zum Teilen von Daten in Databricks.

  • Machine Learning / Data Science: Grundlagen der maschinellen Lern- und Datenwissenschaftsanwendungen in Databricks.

  • Data Governance: Überblick über die Datenverwaltung und -kontrolle in Databricks.

Module 2: Databricks Architektur

  • Control plane and data plane: Unterscheidung zwischen Steuerungsebene und Datenebene in der Databricks-Architektur.

  • Data plane: Cluster- und SQL-Warehouse-Konzepte, einschließlich serverloser Implementierungen.

Module 3: Unity Catalog

    • Intro: Einführung in den Unity Catalog und seine Rolle in der Datenorganisation.

    • Setup: Einrichtung des Unity Catalog in einer Cloud-Umgebung mit einem Data Lake.

    • Hierarchy: Struktur von Metastore, Katalog, Schema und Tabelle im Unity Catalog.

    • Storage Credentials und Access Connectors: Sicherheitsaspekte für den Zugriff auf Daten im Unity Catalog.

    • Managed Tables und Unmanaged Tables: Unterschiede und Anwendungen.

    • (Materialized) Views: Verwendung von Ansichten im Unity Catalog.

    • Unity catalog vs. Legacy Access Model: Vergleich mit dem alten Zugriffsmodell (Hive Metastores + Table Access Control).

    • Hands-on Lab: Praktische Einrichtung von Unity Catalog-Objekten (Externer Speicherort, Katalog, Schema).

Module 4: Data Integration

  • Intro: Einführung in die Datenintegration in Databricks.

  • Hands-on Lab: Praktische Übungen zum Abrufen von CSV-Daten über eine API.

  • Optional: On-prem Integration, Databricks Partner Connect: Erweiterungsmöglichkeiten für Datenintegration.

Module 5: Data Engineering

  • Delta Lake Features: Fortgeschrittene Funktionen von Delta Lake.

  • History and „Time Travel“: Historische Datenansichten und Zeitreisen in Delta Lake.

  • Vacuuming: Bereinigung und Verwaltung von Daten in Delta Lake.

  • Hands-on Lab: Datenverarbeitung mit PySpark auf einem Spark-Cluster.

  • Hands-on Lab: Datenverarbeitung mit SQL auf einem SQL-Warehouse.

  • Intro Databricks Jobs (Workflows): Überblick über Workflows in Databricks.

  • Hands-on Lab: Workflow zur Orchestrierung von Datenverarbeitungspipelines.

  • Good Practices: Best Practices für Cluster- und SQL-Warehouse-Konfiguration, Tabellepartitionierung und ODBC-Zugriff auf Databricks.

Module 6: DevOps

  • Repositories in Databricks: Nutzung von Repositories für die Codeverwaltung in Databricks.

  • Introduce CI/CD with dbx: Einführung in Continuous Integration und Continuous Deployment mit dbx.

  • Optional: Hands-on Lab: Praktische Einrichtung von Workflow CI/CD mit dbx.

Module 7: Structured Streaming and ML

  • Intro: Einführung in die strukturierte Datenverarbeitung und maschinelles Lernen.

  • Hands-on Lab: Datenverarbeitung mit der Structured Streaming API.

  • Delta Live Tables Introduction: Konzepte und Anwendungen von Delta Live Tables.

  • Hands-on Lab: Beispiel für Delta Live Tables.

  • ML and ML-Ops Introduction: Überblick über maschinelles Lernen und ML Operations.

  • Hands-on Lab: Beispiel für maschinelles Lernen.

Portrait Alex

Alex Ortner

Cloud & Big Data Architect