
Pseudonymisierung vor OCR-Aufrufen, Hinweise vor Bild-Upload.
Vor der OCR-Extraktion aus Mietverträgen und Rechnungen entfernt eine spaCy-NER-Pipeline mit Regex-Filterung lokal personenbezogene Daten, bevor die Anfrage an Google Gemini geht (fail-closed). Bei der KI-Bildbearbeitung über Replicate (USA, SCC) findet keine automatische Anonymisierung statt; identifizierbare Personen sind vor dem Upload zu entfernen.
Auf einen Blick
Beim Mietvertrag- und Rechnungs-Import in Immorium läuft der OCR-Text zuerst durch einen Pseudonymisierungs-Layer in lib/document-processing/anonymize.ts. Eine spaCy-NER-Pipeline (de_core_news_lg) erkennt Personennamen, zusätzliche Regex-Pattern fangen IBANs, Telefon, E-Mails, Geburtsdaten und Personalausweis-Nummern ab. Erkannte PII werden durch Platzhalter ersetzt; die pseudonymisierte Anfrage geht an Google Gemini über Google Ireland Ltd. (EU-Verarbeitung). Nach Rückgabe werden die Platzhalter lokal wieder ersetzt; das Token-Mapping wird nicht persistiert. Fail-closed: bei Ausfall der Pipeline bricht die Anfrage mit HTTP 503 ab, Klartext verlässt den Server nicht. Wichtig: Bei der KI-Bildbearbeitung über Replicate Inc. (USA, SCC) findet keine automatische Anonymisierung statt; entfernen Sie identifizierbare Personen vor dem Upload selbst. Konfiguration nach Art. 25 DSGVO (Privacy by Design).
Fail-closed
Bei Ausfall der Pseudonymisierungs-Pipeline bricht die OCR-Anfrage mit HTTP 503 ab
Gemini EU
OCR über Google Ireland Ltd., Bildbearbeitung über Replicate Inc. USA (SCC)
Art. 25
DSGVO. Privacy by Design ist Architektur-Default
Lokal
Token-Mapping bleibt in Immorium, keine Persistenz nach Request-Ende
So funktioniert’s
Sieben Schritte pro KI-Aufruf.
Trigger durch Nutzer
Jeder KI-Aufruf wird ausschließlich auf Aktion des Nutzers ausgelöst (Mietvertrag-Import, Rechnungs-Import, KI-Bildbearbeitung, KI-Beschreibung). Keine versteckten oder Hintergrund-Aufrufe: Sie sehen vor jedem Aufruf, welche Funktion KI verwendet und wie viele Credits sie kostet.
PII-Detection (nur OCR-Pfad)
Beim Mietvertrag- und Rechnungs-Import durchläuft der OCR-Text einen Pseudonymisierungs-Layer in lib/document-processing/anonymize.ts. Erkennung von Personennamen via spaCy NER (de_core_news_lg), zusätzlich Regex-Pattern für IBANs, Telefonnummern, E-Mail-Adressen, Geburtsdaten, Personalausweis-Nummern.
Ersatz durch Platzhalter
Erkannte PII werden durch Platzhalter ersetzt: „Max Mustermann" → „[VORNAME] [NACHNAME]", „DE89 3704 0044 0532 0130 00" → „[IBAN]". Das Token-Mapping bleibt nur im Speicher der Server-Anfrage und wird nach Re-Identifikation verworfen.
Fail-closed
Wenn die Pseudonymisierungs-Pipeline (spaCy oder Regex-Layer) ausfällt, bricht die Anfrage mit HTTP 503 ab. Klartext verlässt den Server in keinem Fall. Vermerk in lib/document-processing/anonymize.ts.
Anfrage an Google Gemini (EU)
Die pseudonymisierte Anfrage wird über TLS 1.3 an Google Gemini (Google Ireland Ltd., EU-Verarbeitung) gesendet. Gemini sieht ausschließlich pseudonymisierte Inhalte.
Antwort empfangen
Strukturierte Antwort kommt zurück (extrahierte Felder mit Platzhaltern, z. B. „Mieter [VORNAME] [NACHNAME], Mietbeginn 01.07.2024").
Re-Identifikation lokal
In Immorium werden die Platzhalter mit dem lokalen Mapping aus Schritt 03 zurückübersetzt. „[VORNAME] [NACHNAME]" → „Max Mustermann". Das Ergebnis sehen Sie mit den korrekten Werten; das Token-Mapping wird verworfen.
KI-Bildbearbeitung: keine automatische Anonymisierung
Beim Aufruf der KI-Bildbearbeitung (Virtual Staging, Declutter über Replicate Inc., USA, SCC) findet KEINE automatische PII-Filterung statt. Bevor Sie ein Bild hochladen, sollten Sie identifizierbare Personen entfernen oder unkenntlich machen. Diese Hinweispflicht ist in der Datenschutzerklärung verankert.
Was wird anonymisiert?
Acht Typen personenbezogener Daten.
| Typ | Beispiel | Platzhalter |
|---|---|---|
| Namen | Max Mustermann | [VORNAME] [NACHNAME] |
| Adressen | Königsallee 12, 40212 Düsseldorf | [STRASSE] [HAUSNUMMER], [PLZ] [STADT] |
| IBAN | DE89 3704 0044 0532 0130 00 | [IBAN] |
| Telefon | +49 211 9876543 | [TELEFON] |
| max@example.de | [EMAIL] | |
| Geburtsdatum | 15.03.1985 | [GEBURTSDATUM] |
| Personalausweis | L0CT8FH4Q | [PA-NR] |
| Steuer-ID | 12 345 678 901 | [STEUER-ID] |
Anwendungsfälle
Wo Anonymisierung in Immorium greift.
KI-Bildbearbeitung
Wohnungsfoto wird hochgeladen. WICHTIG: Es findet keine automatische Personen-Anonymisierung statt. Bevor Sie hochladen, sollten Sie identifizierbare Personen aus dem Bild entfernen. Replicate Inc. (USA, SCC) bearbeitet das Bild gemäß Ihrer Anweisung (Virtual Staging, Declutter).
OCR-Mietvertrag-Import
PDF-Mietvertrag wird hochgeladen. Lokale OCR (Sandwich-PDF, ohne KI) erkennt Layout und Text. Vor Übergabe an Google Gemini für die strukturierte Feldextraktion läuft die spaCy-NER-Pseudonymisierung: „Mieter [VORNAME] [NACHNAME], Mietbeginn 01.07.2024". Gemini antwortet, lokale Re-Identifikation setzt Namen wieder ein.
KI-Beschreibung für Inserate
Vermieter wählt eine Wohnung aus. Aus den strukturierten Apartment-Daten (Zimmer, Fläche, Stadt, Ausstattung) wird ein Prompt für Google Gemini gebaut. Hier sind keine personenbezogenen Mieter-Daten enthalten, da die Eingabe rein objektbezogen ist.
OCR-Rechnungs-Import
Rechnung wird fotografiert oder als PDF hochgeladen. OCR erkennt Betrag, Datum, Lieferant. Vor Gemini-Übergabe läuft die Pseudonymisierung; Geschäfts-Daten Dritter werden nicht durch den NER-Filter erfasst, da sie keine schützenswerten Mieter-PII sind.
Sechs Garantien
Was Immorium technisch und vertraglich zusichert.
Nutzer löst aus
Kein KI-Aufruf ohne explizite Nutzer-Aktion. Jeder Aufruf erfordert vorher eine Einwilligung über das Cookie-Banner oder die Konto-Einstellungen (lib/api/with-ai-consent.ts).
OCR über Google Gemini (EU)
OCR/Text-Extraktion läuft über Google Gemini via Google Ireland Ltd. (EU-Verarbeitung). Bildbearbeitung über Replicate Inc. (USA) mit EU-Standardvertragsklauseln. Eine Datenschutz-Folgenabschätzung für die KI-Verarbeitung liegt vor.
Kein KI-Training mit Ihren Daten
Google Cloud's Standard-Terms für Gemini-Enterprise-Nutzung und Replicate's Standard-Terms schließen die Verwendung der API-Inhalte für Modell-Training aus. Die jeweiligen DPAs der Anbieter dokumentieren das vertraglich.
Audit-Log und Rate-Limiting
Jeder /api/ai/*-Endpoint ist consent-gated und rate-limited (lib/rate-limit/). Aufrufe werden für den Credit-Verbrauch protokolliert. Token-Mappings aus der Pseudonymisierung werden nicht persistiert.
Opt-out möglich
Über das Cookie-Banner oder die Konto-Einstellungen lassen sich KI-Features global widerrufen. Verwaltung läuft ohne KI weiter; OCR-Import und KI-Bildbearbeitung sind dann nicht verfügbar.
Transparente Credits
OCR-Aufrufe (Mietvertrag, Rechnung) kosten ca. 0,1 Credits pro Seite, KI-Bildbearbeitung 1 Credit pro Aktion. Inkludiert je nach Tarif: Privat 30 Credits/Monat, Profi 50 Credits + 30 Bonus-Credits einmalig, Bestand 100 Credits + 100 Bonus-Credits einmalig. Vor jeder Aktion sehen Sie den Credit-Verbrauch.
Rechtsgrundlagen
Fünf Vorschriften, die Immorium umsetzt.
DSGVO Art. 25
Privacy by Design. Datenschutz als Default-Setting
DSGVO Art. 28
Auftragsverarbeitung mit KI-Anbieter
DSGVO Art. 32
TOMs. Anonymisierungs-Layer als zentrale Maßnahme
DSGVO Art. 35
DSFA für KI-Verarbeitung (Anlage docs/dsfa-ai.md)
AI Act (EU)
EU-KI-Verordnung. Immorium nutzt nur Low-Risk-KI-Anwendungen
FAQ
Häufige Fragen zur KI-Anonymisierung.
Wie funktioniert die Pseudonymisierung konkret?
Beim Mietvertrag- und Rechnungs-Import durchläuft der OCR-Text vor der Übergabe an Google Gemini einen Pseudonymisierungs-Layer in lib/document-processing/anonymize.ts. Eine spaCy-NER-Pipeline (de_core_news_lg) erkennt Personennamen, ergänzt durch Regex-Pattern für IBANs, Telefon, E-Mail, Geburtsdaten und Personalausweis-Nummern. Erkannte PII werden durch Platzhalter ersetzt („Max Mustermann" → „[VORNAME] [NACHNAME]"). Das Token-Mapping bleibt nur im Speicher der Request; nach der Re-Identifikation der KI-Antwort wird es verworfen.
Sieht Gemini Mieter-Namen?
Nein, beim OCR-Pfad nicht. Google Gemini (Google Ireland Ltd., EU-Verarbeitung) erhält die pseudonymisierten OCR-Texte, z. B.: „Mieter [VORNAME] [NACHNAME] mietet ab [DATUM] eine Wohnung in [STADT]". Wichtige Einschränkung: Bei der KI-Bildbearbeitung über Replicate Inc. findet KEINE automatische Pseudonymisierung statt. Wenn Sie ein Bild hochladen, auf dem Personen identifizierbar sind, sieht Replicate diese Personen. Bitte entfernen Sie identifizierbare Personen vor dem Upload.
Trainieren die KI-Anbieter mit meinen Daten?
Nein. Google Cloud's Standard-Terms für die Gemini-Enterprise-Nutzung und Replicate's Standard-Terms schließen die Verwendung der API-Inhalte für Modell-Training aus. Die jeweiligen DPAs der Anbieter dokumentieren das vertraglich.
Welche KI-Funktionen gibt es bei Immorium?
Vier Bereiche: (1) Mietvertrag-Import: PDF/Foto, OCR mit Pseudonymisierung, Feldextraktion über Google Gemini. (2) Rechnungs-Import: gleiches Verfahren für Rechnungen, automatische Zuordnung zur BetrKV-Kostenkategorie. (3) KI-Bildbearbeitung: Virtual Staging, Declutter über Replicate Inc. (USA, SCC). (4) KI-Beschreibungen für Inserate: aus strukturierten Apartment-Daten über Google Gemini.
Kann ich KI komplett abschalten?
Ja. Über das Cookie-Banner (KI-Features-Kategorie) oder die Konto-Einstellungen lässt sich die Einwilligung zur KI-Verarbeitung widerrufen. Verwaltung läuft ohne Einschränkungen weiter; nur die vier KI-Funktionen (Mietvertrag-Import, Rechnungs-Import, KI-Bildbearbeitung, KI-Beschreibungen) sind dann nicht verfügbar.
Was kostet die KI-Verarbeitung?
Tarif-abhängig. Erstvermieter (kostenlos, 2 Einheiten): keine inkludierten Credits, KI-Features per Top-up. Privatvermieter (30 €/Monat, 12 Einheiten): 30 inkludierte Credits/Monat. Eigentümer/Profi (50 €/Monat, 48 Einheiten): 50 Credits/Monat + 30 Bonus-Credits einmalig. Bestandshalter (100 €/Monat, 120 Einheiten): 100 Credits/Monat + 100 Bonus-Credits einmalig. OCR-Aufrufe (Mietvertrag, Rechnung) kosten ca. 0,1 Credits pro Seite, KI-Bildbearbeitung 1 Credit pro Aktion. Aktuelle Konditionen in der Tarif-Übersicht.
Wo sitzen die KI-Anbieter?
OCR und Textgenerierung: Google Gemini über Google Ireland Ltd. mit EU-Verarbeitung. KI-Bildbearbeitung: Replicate Inc. (USA, abgesichert durch EU-Standardvertragsklauseln nach Art. 46 Abs. 2 lit. c DSGVO). Beide Anbieter sind im Subprozessoren-Verzeichnis der Datenschutzerklärung namentlich aufgeführt.
Was ist mit Bildern, auf denen Personen zu sehen sind?
Bei der KI-Bildbearbeitung über Replicate findet KEINE automatische Personen-Anonymisierung statt. Sie sind verpflichtet, vor dem Upload sicherzustellen, dass keine identifizierbaren Personen abgebildet sind (Hinweis in der Datenschutzerklärung). Für Virtual Staging und Declutter sind nur Räume und Möbel relevant; Personen entfernen Sie vorher manuell aus dem Foto.
Gibt es eine DSFA?
Ja. Eine Datenschutz-Folgenabschätzung nach Art. 35 DSGVO liegt für die KI-Verarbeitung vor und dokumentiert die Risiken (Re-Identifikation, unbeabsichtigt abgebildete Personen, Datenleck), Wahrscheinlichkeiten und Gegenmaßnahmen (spaCy-NER-Layer fail-closed für OCR, EU-Standardvertragsklauseln für Replicate, Nutzerhinweis vor Bild-Upload). Wir senden Ihnen die DSFA auf Anfrage als PDF an datenschutz@immorium.ch.
Welche Pattern werden pseudonymisiert?
Im OCR-Pfad: Personennamen über spaCy NER (Pre-Trained-Modell de_core_news_lg) ergänzt durch Regex für IBAN, BIC, Telefon, E-Mail-Adressen, Geburtsdaten, Personalausweis-Nummern, Steuer-IDs. Bei Unsicherheit wird konservativ ersetzt: was eindeutig wie PII aussieht, geht als Platzhalter durch. Bei Ausfall der Pipeline bricht die Anfrage fail-closed mit HTTP 503 ab.
Wie schnell ist die KI-Verarbeitung mit Pseudonymisierung?
Der Pseudonymisierungs-Layer fügt nur einen kleinen Overhead hinzu; die Gesamtlatenz dominiert die KI-Anfrage selbst. OCR-Extraktion typisch wenige Sekunden, KI-Bildbearbeitung mehrere Sekunden bis ca. 30 Sekunden je nach Komplexität.
Welche AI-Act-Klassifizierung gilt?
Die EU-KI-Verordnung (AI Act, 2024) klassifiziert KI-Anwendungen nach Risiko. Immorium-KI-Funktionen (Mietvertrag-Import, Rechnungs-Import, Bildbearbeitung, Beschreibungstexte) fallen in die Kategorie Minimal-Risk: keine biometrische Identifikation, keine automatisierten Entscheidungen mit Rechtsfolgen, keine Verarbeitung von Daten besonders schutzwürdiger Gruppen. Damit gelten keine zusätzlichen AI-Act-Pflichten über die DSGVO hinaus.
Immorium-Hausverwaltung im Überblick · DSFA: Datenschutz nach DSGVO. Stand Mai 2026.
