Im Zuge des technologischen Fortschritts dringt die künstliche Intelligenz (KI) unaufhaltsam in alle Bereiche des Lebens und der Wirtschaft vor. Insbesondere die Versicherungsbranche steht vor der Herausforderung, sich mit den Potenzialen und Risiken dieser Revolution auseinanderzusetzen. In dieser Interviewreihe diskutieren renommierte Experten über die strategische Ausrichtung in Bezug auf KI im Versicherungswesen. Von der Bewertung der aktuellen Situation bis hin zur Entwicklung praktischer Handlungsstrategien werden wichtige Aspekte beleuchtet, die für die zukünftige Wettbewerbsfähigkeit von Versicherungsunternehmen entscheidend sind. Das Interview führen René Pausch und Matthias Blum mit Bernd Lehmkuhl.
Matthias: Willkommen Bernd, schön, dass du heute Teil unserer Reihe zum Thema KI im Versicherungsbereich bist. Als Partner bei der PPI AG beschäftigst du dich seit mittlerweile mehr als 30 Jahren mit KI. Insofern freuen wir uns, dass du uns an dieser Stelle mit deinem großen Erfahrungsschatz Rede und Antwort stehst.
Bernd: Vielen Dank, ich freue mich auch!
Matthias:
Wir haben in unserem letzten Interview mit Tobias Kohl und Benjamin Kraatz auf die strategische Perspektive zum Thema KI geschaut und darüber gesprochen, in welchen Dimensionen man sich diesem Thema nähern sollte. Ein Punkt wurde von beiden wiederholt betont: Die Versicherungen sollten Wissen aufbauen und sich mit ersten, kleineren Use-Cases beschäftigen.
Wir würden jetzt gerne mit dir die Perspektive wechseln und aus technischer Sicht auf das Thema schauen. Welche Use-Cases fallen dir ein, die sowohl klar absteckbar und mit den verfügbaren Werkzeugen produktionstauglich lösbar sind als auch einen direkten Mehrwert bieten?
Bernd:
(lacht) Dann können wir das hier kurz machen, die gibt es meines Erachtens nicht: Entweder sind die Use-Cases zu klein, um die notwenigen Investitionen zu rechtfertigen, oder sie verletzen die bekannte SETT-Regel, sind also nicht „Safe Enough To Try“.
Nein, ernsthaft: Die Situation bei dem Hype um generative KI ist tatsächlich etwas – sagen wir … – originell: Unternehmen zahlen Geld, um an Veranstaltungen teilzunehmen, auf denen überlegt werden soll, welche Use-Cases mit generativer KI umsetzbar sind. Das erinnert ziemlich an ein gängiges Bonmot: „Wir haben eine tolle Lösung, jetzt müssen wir nur noch passende Probleme finden“.
Bitte versteht mich hier aber nicht falsch: Die Erfahrung zeigt, dass bisher nach jedem „KI-Winter“ neue, leistungsfähige Werkzeuge überbleiben, für die es lukrative Einsatzszenarien gibt, die mit dem Werkzeugkasten davor nicht angegangen werden konnten.
Aktuell wird generative KI, insbesondere in Form des Produktes ChatGPT von openAI, für KI als das wahrgenommen, was „Uhu“ für Klebstoff ist: Ein Produkt wird zum Synonym eines komplexen Marktangebotes – auch wenn das in vielen Fällen zu kurz greift, wie alle bestätigen können, die einmal versucht haben, Styropor mit Uhu zu verkleben.
Auch KI ist kein monolithisches Werkzeug, sondern ein ganzer Werkzeugkoffer verschiedener Algorithmen und Verfahren. Und wie bei „normalen“ Werkzeugen, sind auch KI-Werkzeuge für jeweils eine bestimmte Aufgabenklasse besonders geeignet oder sogar ausschließlich für eine konkrete Aufgabenart einsetzbar.
In jedem Falle ist KI immer Hardcorestatistik und benötigt viel Fachwissen und Erfahrung, um sie sinnstiftend und risikoarm einsetzen zu können.
Der aktuelle Hype kommt meines Erachtens daher, dass man plötzlich, z. B. durch Interaktion mit ChatGPT, einen leichtgewichtigen Zugang zu KI erhalten hat, ohne Statistiker:in oder ähnliches sein zu müssen.
Das war der große Sprung für generative KI heraus aus Fachkreisen und in den „Mainstream“: Anwender konnten ohne steile Lernkurve „KI machen“ und z. B. aus wenigen Stichworten ganze Briefe erstellen lassen oder sich komplizierte Sachverhalte beantworten lassen – natürlichsprachlich und individuell zugeschnitten. KI ist damit „anfassbar“, emotional berührend und auf persönlicher Ebene hilfreich geworden.
Bei multimodaler generativer KI erleben wir außerdem eine „Demokratisierung“ der KI bei Bildbearbeitung, Bilderstellung, Videoerzeugung, Musik und so weiter. Hier sind meiner Meinung nach auch am ehesten „disruptive“ Effekte der KI auf die Wirtschaft zu erwarten – Disney zum Beispiel wird sich warm anziehen müssen …
Spannend finde ich in dem Kontext, dass generative KI in unserer Branche wiederum das am wenigsten geeignete Tool für einen produktiven Einsatz ist – zumindest mit den heute verfügbaren Transformer-Modellen.
Das 80 % aller KI-Projekte scheitern oder zumindest nie produktiv gehen, ist mittlerweile eine Binse – wenn wir nicht aufpassen, wird sich dieser Anteil bei Projekten, die auf generativer KI aufbauen, noch erhöhen: Die Geschwindigkeit, mit der selbst Laien „fast fertige“ transformerbasierte Lösungen als Proof-of-Concept erstellen können, führt oft zu massiven Fehleinschätzungen bei darauf aufsetzenden Projekt- und Use-Case-Szenarien.
Diese Fehleinschätzungen haben nach meiner Erfahrung ihre Ursachen in drei wesentlichen Effekten bei Nutzung generativer KI:
Entwicklungen auf Basis generativer KI unterliegen salopp gesagt einem „verschobenen“ Pareto-Effekt: Die ersten 80 % des gewünschten Ergebnisses werden mit 1 % des Aufwands erreicht, die restlichen 20 % erfordern die übrigen 99 % des Aufwands.
Und das gilt auch nur, wenn das Ergebnis überhaupt erreicht werden kann: Generativer KI auf Transformer-Basis kann systembedingt weder das Halluzinieren noch die Context Evasion ausgetrieben werden.
In Bereichen, wo Prozesse einen ständigen Wechsel zwischen KI- und Human-Arbeitsschritten vorsehen, können negative Auswirkungen beider Probleme durch menschliches Wissen und Verstehen oft so weit zurückgedrängt werden, dass der KI-Einsatz trotzdem wirtschaftlich sein kann – bei einem Einsatz von generativer KI in längeren vollautomatisierten Prozessen oder Prozessabschnitten, der so genannten „Dunkelverarbeitung“, sieht die Lage anders aus. Hier schlägt der dritte Effekt zu: die fehlende Möglichkeit, automatisiert zu prüfen, ob die KI halluziniert oder vorgegebene Kontexte verlässt.
In Abläufen, wo geringe Fehlertoleranz besteht, z. B. bei Schadenregulierungen, verbietet sich damit ein Einsatz von KI bis auf Weiteres von selbst.
Mal ein fiktives Szenario dazu: Einem Versicherer wird von einem Kunden ein abgedecktes Dach gemeldet. Ein trainiertes KI-Modell erkennt, dass es sich um einen Wohngebäude-Versicherungsschaden handelt und prüft danach, ob der Kunde eine entsprechende Versicherung hat. Alles passt, die KI sagt sich „alles klar, kann reguliert werden“. Jetzt ist es aber so, dass abgedeckte Dächer oft erst bei einer Windstärke von mindestens 7 versichert sind, was im Training nicht berücksichtigt wurde – oder im Betrieb von der KI einfach mal „weghalluziniert“ wurde. In diesem Fall würde der Versicherer also fälschlicherweise ein Dach bezahlen. Das ist auf Dauer wohl nicht so gut für die Kennzahlen oder das Kollektiv.
Jetzt drehen wir den Fall einfach mal um: Die KI bewertet den Schaden als nicht versichert, und der Kunde bezahlt sein Dach erstmal selbst. Bei der Reparatur erfährt unser Kunde vom Dachdecker nun aber „Wieso ist das nicht versichert? Wir hatten doch Sturm!“ In Zeiten von Social Media und Shitstorm braucht es nicht viel Fantasie, welche Auswirkungen das auf die Reputation des Versicherers hat, zusätzlich zu den eventuellen Rechtskosten und dem am Ende zusätzlich noch zu bezahlendem Dach.
Ich will sagen: Fehler in dieser Form können sehr schnell mehr als nur teuer werden. Versicherungskernprozesse sind leider in der Mehrzahl nicht fehlertolerant. Daher meine etwas flapsige Antwort zu Beginn unseres Gesprächs.
René:
Danke für den Themenüberblick und die Einordnung, Bernd! Den Begriff Werkzeugkasten für die KI als Oberbegriff finde ich sehr treffend. Jetzt haben wir zuletzt über generative KI und die damit verbundenen Einschränkungen und Risiken gesprochen. Ich habe letztens einen Artikel gelesen, bei dem es darum geht, mit möglichst kleinen Modellansätzen das gewünschte Ziel zu erreichen. Könnten Unternehmen, und Versicherer im Speziellen, die angesprochenen Probleme damit etwas relativieren? Wie ist hier deine Perspektive?
Bernd:
Mit kleineren Modellen löst oder reduzierst du oft einen Teil der Probleme von KI-Ansätzen. Trainingszeiten etwa werden deutlich kürzer, und aufgrund geringerer Komplexität werden Modelle gegebenenfalls leichter erklärbar – übrigens bei einigen Prozessen ein regulatorisches Erfordernis.
Allerdings gehen die Modelle, die aktuell den Diskurs der Medien dominieren, einen anderen Weg: Es geht immer darum, mit immer größeren Modellen, mehr Parametern, längeren Kontexten und so weiter, die nächste willkürlich gewählte Benchmark zu knacken – ein bisschen erlebe ich es wie ein pubertäres Kräftemessen. Für unsere konkreten Anwendungen ist das nämlich vermutlich nicht der richtige Ansatz: Wie eigentlich immer in der Programmierung gilt, mit dem kleinstmöglichen Ansatz zum Ziel zu kommen.
Es geht zusammenfassend auch bei KI darum, für das vorliegende Problem das richtige Werkzeug zu wählen. Ich würde mit einem Bohrhammer auch keinen Nagel in die Wand schlagen. Das wird nur teuer, das Ergebnis ist schlecht, und ich muss mir alle Nase lang neue Werkzeuge kaufen.
René:
Deine Erläuterungen zahlen auf einen Gedankengang von uns ein, der uns zu dieser Interview-Reihe motiviert hat: Anstatt große Projekte ohne klares Ziel vom Zaun zu brechen, lasst uns Versicherer fit für KI machen.
Wenn wir bei einer Versicherung das Thema KI-Readiness betrachten: Kannst du uns ein paar Beispiele nennen, die eine Versicherung wirklich „fit für KI“ machen.
Bernd:
Meine Empfehlung an Versicherer lautet: Entwickelt eure Data Fluency! Als Unternehmen brauche ich Leute, die Datenqualität spüren. Die müssen das fast schon schmecken können. Wenn irgendwo ein neues Datum erzeugt wird, müssen die im Prinzip sofort weiterdenken: „Wie lege ich das ab?“ „Welche Metriken muss ich anlegen, um die Qualität zu prüfen und so weiter?“
Ich kenne aktuell wenige Unternehmen, die regelmäßig ihre Datenbestände, ob operativ oder dispositiv, auf Konsistenz, Lücken und so weiter prüfen. Dazu braucht es jemanden, der “hauptamtlich” dafür verantwortlich ist – ähnlich wie ein CFO, der regelmäßig den Puls seines Unternehmens an den kaufmännischen Zahlen fühlt.
Zusätzlich wird jemand benötigt, der überwacht, ob die Datengrundlage, die zum Training verwendet wurde, weiterhin die Realität abbildet. Sobald Drifts oder andere Effekte erkennbar werden, müssen diese analysiert werden und gegebenenfalls Modelle neu trainiert werden.
Die Alternative, über sogenanntes Onlinelearning die Modelle im Betrieb aktuell zu halten, birgt wiederum andere Risiken: Data Poisoning oder auch „nur“ malignes Prompting. Wenn jemand „da draußen“ merkt, dass er durch gezielte Datenlieferungen oder Prompts ein Modell manipulieren kann und das ausnutzt, müssen die betroffenen Unternehmen sehr schnell reagieren – was in der Regel heißt: das Modell abschalten. Wenn Unternehmen in einer solchen Situation keinen „Plan B“ für die Übernahme der Aufgaben des abgeschalteten Modells haben, kann es eng werden, weil es unter Umständen Wochen dauern kann, bis ein neues Modell fertig trainiert wurde.
Verantwortliche Chief Risk Officer müssen also sehr stark auf die Qualität des MLOps achten. Wir reden hier nicht mehr von einfachen DevOps-Ansätzen und dem Betrieb von einigen Stückchen Software. MLOps ist mehr so etwas wie DevOps auf Steroiden.
Matthias:
Wir haben also das interne Datenmanagement und die dahinterstehende -logistik als Dreh- und Angelpunkt sowohl in der Umsetzung einer KI-Lösung als auch in deren Betrieb identifiziert. Gibt es für dich noch weitere Komponenten, die wir uns für eine mögliche KI-Readiness einer Versicherung anschauen müssten?
Bernd:
Auf einer fachlich abstrakten Ebene sind der kritische Punkt definitiv die Daten. Wenn ich die nicht wirklich im Griff habe, kann ich KI-Lösungen in naher Zukunft erstmal vom Tisch nehmen.
Die unterschiedlichen ML-Verfahren (Machine Learning) zu beherrschen, würde ich nicht als so essenziell bewerten. Das Know-how kann ich mir situativ extern einkaufen, es ergibt aus meiner Sicht wenig Sinn, wenn sich Unternehmen die komplette Bandbreite der Verfahren warmhalten – dafür entwickelt sich die Technik viel zu schnell und vielfältig.
Wenn ich tatsächlich KI-Lösungen für mein Haus anstrebe, muss ich mir allerdings auch über technologische Infrastruktur Gedanken machen. Für die Trainingsprozesse brauche ich punktuell immens hohe Rechenkapazitäten, die im Betrieb nicht mehr benötigt werden. Die Peak-Rechenkapazitäten als Unternehmen selbst vorrätig zu halten, ergibt betriebswirtschaftlich also überhaupt keinen Sinn. Die Herausforderung liegt hier in der Skalierung. Wie schnell kann ich hoch- und dann wieder herunterfahren?
Ich brauche also ein eingespieltes Dienstleistermanagement an dieser Stelle, um den Anforderungen gerecht werden zu können.
Abgesehen davon ist auch der Datenschutz relevant. Ich muss mir also einmal ansehen, wie ich die Daten gesetzeskonform verwenden darf. Ich kann mir allerdings nicht viele Use-Cases vorstellen, bei denen ich beispielsweise tatsächlich reale Vor- und Nachnamen verknüpft mit weiteren Metadaten für das Anlernen einer KI-Lösung brauche.
Nichtsdestotrotz ist hier natürlich Einiges zu beachten – insbesondere bei unterschiedlichen Kritikalitätslevel der Daten. Ich muss mir Gedanken machen, wie ich so viel Information wie möglich erhalten kann und gleichzeitig alles Nötige anonymisiere, damit es die Anforderungen der DSGVO erfüllt.
René:
Danke Bernd. Hast du noch einen abschließenden Ratschlag an die Kolleginnen und Kollegen, die sich mit diesem Themengebiet in den Versicherungen beschäftigen?
Bernd:
Wenn ihr etwas ohne KI lösen könnt, dann löst es ohne KI!
Sicherlich eine provokante Aussage, ich weiß (lacht). Aber sie sollte als erster Reflex auf “Lasst uns das mit KI machen!” immer wieder ins Gedächtnis gerufen werden, denn aus meiner Sicht sind der Mehraufwand und die Risiken, die KI-Lösungen mit heutiger Technik mit sich bringen, nur selten zu rechtfertigen – aber es gibt natürlich auch Ausnahmen.
Und ein zweiter etwas plakativer Hinweis: Daten sind das Öl unserer Zeit, aber in Rohform meist genauso dreckig. Kümmert euch also rechtzeitig um eure Datenqualität und Datenbeschaffungs- und -haltungsinfrastruktur.
Matthias:
Vielen Dank für das Gespräch und deine wertvollen Einblicke!