Full Load, Delta Load oder CDC: Welche Datenintegration passt wirklich?
Die beste Integrationsmethode hängt nicht vom Architekturdiagramm ab, sondern vom Business-Ziel: Datenvolumen, benötigte Aktualität, Quellsystem, Datenqualität und Wartungskapazität entscheiden, ob Full Load, Delta Load oder Change Data Capture sinnvoll ist.
Die falsche Startfrage: Welche Technologie wollen wir nutzen?
Viele Integrationsprojekte starten mit einer technischen Vorliebe: Wir wollen CDC, Streaming, Events oder eine neue Plattform nutzen. Das ist verständlich, führt aber im Reporting häufig zu unnötiger Komplexität. Nicht jeder Report braucht eine Änderungserfassung in nahezu Echtzeit.
Gute Datenintegration beginnt pragmatischer. Erst muss klar sein, welche Daten wirklich benötigt werden, wie häufig sie aktualisiert werden müssen und wie viel Betrieb das Team realistisch tragen kann.
Die bessere Startfrage: Welche Entscheidung soll der Report unterstützen?
Ein Monatsreport für Geschäftsleitung oder Treuhand hat andere Anforderungen als ein operatives System, das sofort auf einzelne Events reagieren muss. Für viele KMU ist die entscheidende Frage: Sind die Zahlen verlässlich, aktuell genug und verständlich?
Daraus folgt die passende Strategie. Manchmal zählt einfache Restartbarkeit mehr als niedrige Latenz. Manchmal ist ein Delta Load der beste Kompromiss. Und manchmal ist CDC tatsächlich sinnvoll, zum Beispiel bei hohen Datenmengen oder wenn Deletes revisionsnah nachvollziehbar sein müssen.
Full Load: Einfach und oft unterschätzt
Beim Full Load wird der relevante Datenbestand vollständig aus der Quelle gelesen und im Ziel neu aufgebaut oder ersetzt. Das klingt grob, ist für Reporting aber oft eine Stärke: Die Logik ist nachvollziehbar, Tests sind einfacher und ein fehlerhafter Lauf kann sauber wiederholt werden.
Kleine Tabellen, Produktstammdaten, Referenzdaten und viele tägliche oder monatliche Reports kommen damit gut aus. Problematisch wird Full Load erst, wenn Datenmengen gross werden, Quellsysteme stark belastet werden oder Laufzeiten nicht mehr in das Zeitfenster passen.
Delta Load: Der pragmatische Standard für viele Reports
Ein Delta Load lädt nur neue oder geänderte Datensätze. Meist
geschieht das über Felder wie updated_at,
last_modified oder eine fachliche Änderungsnummer. Für
wiederkehrende Reports ist das häufig der pragmatische Standard:
deutlich effizienter als Full Load, aber einfacher zu betreiben als
CDC.
Die Voraussetzung ist, dass die Quelle zuverlässige Änderungsmarker liefert. Wenn Zeitstempel fehlen, nicht gepflegt werden oder harte Deletes wichtig sind, muss man Delta Load bewusst ergänzen oder ein anderes Muster wählen.
CDC: Stark, aber nicht kostenlos
Change Data Capture erfasst Änderungen sehr granular, oft direkt aus Datenbanklogs oder Änderungsfeeds. Das ist stark bei hohen Datenmengen, niedriger Latenz, Deletes, Event-Reihenfolgen, operativen Prozessen oder wenn wiederholte Quellscans zu teuer sind.
Der Preis ist Betriebskomplexität: Initiale Snapshots, Offsets, Log-Retention, Schemaänderungen, Reprocessing und Monitoring müssen sauber gelöst werden. Im Artikel CDC wird oft überschätzt geht es vertieft darum, warum Realtime im Reporting oft zu früh gefordert wird.
Entscheidungsmatrix
Die folgende Übersicht ist keine starre Regel. Sie hilft, die technische Diskussion auf die Reporting-Anforderung zurückzuführen.
| Methode | Geeignet für | Vorteile | Nachteile | Typische Aktualität |
|---|---|---|---|---|
| Full Load | Kleine Tabellen, Stammdaten, tägliche oder monatliche Reports | Einfach, robust, leicht zu testen, leicht neu zu starten | Bei grossen Datenmengen langsam und ineffizient | Täglich, wöchentlich oder monatlich |
| Delta Load | Wiederkehrende Reports mit neuen oder geänderten Datensätzen | Effizienter als Full Load, deutlich einfacher als CDC | Benötigt zuverlässige Zeitstempel wie updated_at oder last_modified | Stündlich, täglich oder nach Zeitplan |
| CDC / Change Data Capture | Hohe Datenmengen, niedrige Latenz, Deletes, Events, operative Prozesse | Erfasst Änderungen sehr granular und zeitnah | Komplexer Betrieb, Monitoring, Reprocessing, Datenbankabhängigkeiten | Near realtime |
Full Load
- Geeignet für
- Kleine Tabellen, Stammdaten, tägliche oder monatliche Reports
- Vorteile
- Einfach, robust, leicht zu testen, leicht neu zu starten
- Nachteile
- Bei grossen Datenmengen langsam und ineffizient
- Typische Aktualität
- Täglich, wöchentlich oder monatlich
Delta Load
- Geeignet für
- Wiederkehrende Reports mit neuen oder geänderten Datensätzen
- Vorteile
- Effizienter als Full Load, deutlich einfacher als CDC
- Nachteile
- Benötigt zuverlässige Zeitstempel wie updated_at oder last_modified
- Typische Aktualität
- Stündlich, täglich oder nach Zeitplan
CDC / Change Data Capture
- Geeignet für
- Hohe Datenmengen, niedrige Latenz, Deletes, Events, operative Prozesse
- Vorteile
- Erfasst Änderungen sehr granular und zeitnah
- Nachteile
- Komplexer Betrieb, Monitoring, Reprocessing, Datenbankabhängigkeiten
- Typische Aktualität
- Near realtime
Beispiele aus der Praxis
Monatlicher Finanzreport
Für Monatsabschlüsse, Kostenstellen, offene Posten und Management- KPIs reichen häufig Full Load oder Delta Load. Wichtig ist weniger Millisekunden-Latenz, sondern ein nachvollziehbarer Datenstand.
Shopify-Margenreport
Bei Umsatz, Produktkosten, Versand, Gebühren und Kampagnendaten ist oft ein Delta Load plus geplanter Refresh sinnvoll. Die Aktualität orientiert sich am Reporting-Zyklus, nicht an jedem einzelnen Event.
Produktstammdaten
Produkt- oder Kontenstammdaten ändern sich meist überschaubar. Ein Full Load ist hier oft robust, leicht zu prüfen und ausreichend.
Operativer Event-Stream
Wenn sehr viele Ereignisse schnell verarbeitet werden müssen, kann CDC oder ein Event-Ansatz sinnvoll sein. Das gilt besonders, wenn nachgelagerte Prozesse zeitnah reagieren müssen.
Audit-kritisches Delete-Tracking
Wenn Löschungen fachlich oder regulatorisch relevant sind, kann CDC helfen, Deletes sauberer zu erfassen als ein einfacher Delta Load. Trotzdem braucht es klare Betriebs- und Kontrollprozesse.
Fazit
Full Load, Delta Load und CDC sind keine Qualitätsstufen, sondern Werkzeuge für unterschiedliche Situationen. Für viele Reports ist ein einfacher, stabiler Load wertvoller als eine komplexe Pipeline, die mehr Betrieb erzeugt als Nutzen.
Klarzahlen positioniert Datenintegration deshalb pragmatisch: Reporting-Ziel verstehen, Aktualität realistisch festlegen, Datenqualität prüfen und dann das einfachste zuverlässige Muster wählen.
Weiterlesen
Wenn Sie CDC als Option prüfen, lesen Sie auch warum CDC im Reporting oft überschätzt wird. Für den Betrieb von Datenläufen ist der Artikel Weniger On-Call-Stress durch robuste ETL-Pipelines der nächste sinnvolle Schritt.