Artificial Intelligence (AI)

Demystifying CDC: Understanding Change Data Capture in Plain Words | by Antonio Grandinetti | Mar, 2024

Written by smirow

Ihr unverzichtbarer Leitfaden zur Änderungsdatenerfassung

Antonio Grandinetti
Auf dem Weg zur Datenwissenschaft

Aufgrund meiner beruflichen Erfahrungen (im Bereich Big-Data-Analyse und Data Engineering) sind die Projekte zwar immer unterschiedlich, folgen aber immer einem einheitlichen Muster: Ziel ist es, ein Datenplattform das Daten aus verschiedenen Quellen sammelt, eine Reihe von Ausarbeitungen durchführt und die konsolidierten Daten denjenigen zur Verfügung stellt, die sie dann verwenden.

Foto von Ian Dooley auf Unsplash

Das gerade beschriebene Diagramm wird häufig in den Konzepten Data Lake/Data Lakehouse und ETL-Flüsse (Extract-Transform-Load) zusammengefasst. Die verschiedenen Möglichkeiten, Daten aus Quellsystemen zu extrahieren, lassen sich in zwei Kategorien einteilen:

  • Charge: Alle Daten werden in einem einzigen Vorgang aus der Quelle extrahiert
  • Streaming: Die Extraktion wird kontinuierlich durchgeführt, wobei die Quelle auf etwaige Änderungen überwacht wird. Daten werden extrahiert, sobald sie geändert werden

Jedes Jahr entstehen neue Technologien, neue Architekturen und neue Ansätze, aber eine Methode wird weiterhin häufig verwendet Datenerfassung bearbeiten.

Was ist Change Data Capture (CDC)? 🤓

Die Änderungsdatenerfassung ist ein Entwurfsmuster, mit dem Sie Änderungen erfassen können, die in einer Datenquelle auftreten. Es bietet einen kontinuierlichen Strom von Datenaktualisierungen, die für verschiedene Zwecke verwendet werden können, wie zum Beispiel:

  • Daten Lakehouse: Füllen eines Datensees mit inkrementellen Änderungen
  • Echtzeitanalysen: Ermöglichen Sie die Echtzeitanalyse von Datenänderungen
  • Ereignisgesteuerte Anwendungen: Auslösen von Aktionen basierend auf Datenänderungen
  • Datenreplikation: Synchronisieren mehrerer Kopien von Daten

Wie funktioniert die CDC? 🧐

Es gibt viele Ansätze zur Umsetzung dieses Modells, die modernsten sind jedoch die Kombination zweier Konzepte:

  • Transaktionsprotokoll: Datenbanken erstellen ein Protokoll mit allen an den Daten durchgeführten Vorgängen
  • Pub/Sub-Warteschlangen: Das CDC-System fragt die Datenquelle regelmäßig nach Änderungen ab (neue Zeilen im Transaktionsprotokoll) und stellt die Änderungen dann in eine Warteschlange

Das Der Ansatz beinhaltet die Verwendung mehrerer Komponenten und ist ideal für Anwendungsfälle, in denen Echtzeit- und entkoppelte…

About the author

smirow

Leave a Comment