Wie bereits im letzten Artikel dieser Serie angekündigt, werden wir im Folgenden unterschiedliche mathematische Modelle auf eine mögliche Anwendbarkeit in der Cybermodellierung prüfen und untersuchen. Auf dem Markt beschäftigen sich unterschiedlichste Gruppen mit der Risikomodellierung von Cyberversicherungen. Ergebnis ist häufig, dass die aktuelle Datenlage eine Modellierung nach bekannten Modellen nicht ermöglicht. Insbesondere die fehlenden Schadenhistorien sind hier ein Faktor.
Aus diesem Grund versuchen wir einen Perspektivwechsel. Gibt es die Möglichkeit, ein bestehendes mathematisches Modell mit technischem Know-how anzureichern, sodass die bekannten Schwierigkeiten umgangen werden können?
Verteilungsbasierte Ansätze basieren auf einem Modell mit einer geschätzten A-priori-Verteilung, welches mit historischen Daten kalibriert wird. Verteilungsbasierte Ansätze sind sowohl für Erst- als auch für Rückversicherer, im Pricing und in einfacher Risikobewertung anwendbar. Die wichtigste Voraussetzung ist, dass eine umfangreiche Datenhistorie homogener Risiken vorhanden ist. Eine zu geringe Datenmenge würde zu Ungenauigkeiten in der Kalibrierung führen.
In den meisten Versicherungen wurden bis dato zu wenige Cyberfälle gemeldet und somit ist der Umfang der Daten zu gering. In diesem Fall sinkt die Aussagekraft der verteilungsbasierten Ansätze und diese sind somit nicht mehr sinnvoll anwendbar.
Ein weiteres Problem der Cybermodellierung ist die Homogenität der Risiken. In den meisten Fällen gibt es eine Ursache, die dann zu mehreren Schäden führt. Die Schadenfälle sind damit voneinander abhängig. Die Ursachen sind weiterhin sehr dynamisch und dadurch ist der Aufbau von homogenen historischen Daten nur begrenzt möglich.
Die Idee eines faktorbasierten Ansatzes ist die Approximation eines verteilungsbasierten Modells. Für die Modellierung werden hier Risikotreiber bestimmt, die im Modell die Schadenanfälligkeit beschreiben sollen. Im Allgemeinen werden hierfür Unternehmensgrößen oder unternehmensspezifische Sicherheitssysteme (Firewall, etc.) verwendet.
Eine Schwäche in diesem Modell ist, dass diese Faktoren mittels Fragebogen vom Versicherungsnehmer selbst befüllt oder per Expertenschätzung pauschal festgelegt werden. Letztere sind kaum objektiv und somit nur schwer validierbar. Dadurch kann der Ansatz sehr kosten- und zeitintensiv sein.
Ein weiteres Modell sind die Netzwerkmodelle. Hier werden Gefahren modelliert, bei dem ein Virus/Wurm eine Netzwerktopologie angreift. Bei einer Netzwerkstruktur handelt es sich um einen ungerichteten Grafen mit Knoten und Kanten. Der Wurm/Virus bewegt sich entlang der Kanten zu den Knoten und kann diese infizieren. Infizierte Knoten führen anschließend zu Schäden.
Somit wird als Input eine Netzwerkstruktur von ungerichteten Graphen benötigt. Des Weiteren müssen verschieden Faktoren bestimmt werden. Dazu zählt die Infektionswahrscheinlichkeit, die „Heilungsrate“ und die Verteilung der Schadenhöhen.
Das Aufstellen solcher Netzwerkmodelle ist in der Regel sehr zeit- und damit auch kostenintensiv. Das Modell wird zur Analyse einzelner Szenarien genutzt und ist somit gut zur Validierung anderer Methoden anwendbar.
Das Predictive Model ist ein weiteres Verfahren. Dazu zählen Ansätze wie das allgemeine lineare Modell (GLM) oder auch Verfahrensklassen des Machine Learnings. All diese Verfahren sollen in großen Datenmengen neue Strukturen finden oder zur Prognose helfen. Dafür werden aus einer großen Datenbank zu Schadenfällen bei Unternehmen die wesentlichen Risikotreiber identifiziert. Wie in den verteilungsbasierten Ansätzen auch, haben wir bei diesen Verfahren die gleiche Problematik, dass eine große Datenmenge benötigt wird. Ist diese nicht vorhanden, können keine zuverlässigen Strukturen gefunden werden und die Verfahren nicht zur Prognose verwendet werden.
Bei probabilistischen Modellen werden bestimmte Schadenereignisse generiert und anschließend wird deren Auswirkung auf den Versicherungsbestand modelliert. Die Schadenereignisse werden dafür im Vorfeld in einem Ereigniskatalog definiert. Modelliert wird der Erwartungswert des Gesamtschadens aus den Ereignissen. Dabei ist es wichtig, dass sowohl Ereignisse, die zu hohen Schäden führen können, als auch Ereignisse, die niedrige Schadenzahlungen, aber dafür eine hohe Frequenz besitzen, einbezogen werden. Somit liegt der Vergleich zu gängigen CAT-Modellen, etwa Sturm, nahe. Dabei könnte beispielsweise der Cyberereignistyp die modellierte Gefahr und die Nutzung einer entsprechenden Infrastruktur (Cloud, Server, …) der “Ort” des Risikos sein.
Das Verfahren dient sehr gut zur Abbildung von Extremszenarien und es lässt sich sehr gut mit einer Expertenschätzung abgleichen.
Ein großer Nachteil der probabilistischen Modelle ist, dass man nur explizit modellierte Schadenvektoren betrachtet und somit unklar ist, ob alle möglichen Schadentreiber berücksichtigt wurden. Ein weiterer Nachteil ist die starke Abhängigkeit von zentralen Annahmen wie beispielsweise der Schadenhäufigkeit, die entweder durch historische Daten oder durch entsprechende Modelle abgesichert werden sollte.
Die gesamthafte Betrachtung all dieser Modelle zur Risikobewertung führt zu der Erkenntnis, dass die Grundlagen für eine sinnvolle Anwendung nicht oder nur teilweise erfüllbar sind.
Geht es um große homogene Datenpools, wird es einen Punkt in der Zukunft geben, an dem dieses Problem gelöst ist. Ein ähnliches Szenario ist auch für eine sinnvolle Expertenbewertung (sei es für faktorbasierte Ansätze oder probabilistische Modelle) vorstellbar. Netzwerkmodelle haben das Problem, dass sie sehr aufwendig in der Erstellung sind, sich aber auf ein stetig und schnell veränderndes Umfeld (nämlich IT-Infrastrukturen) beziehen. Die Eignung solch „klassischer Modelle“ ist also in Frage zu stellen. Der Ansatz einer Art „CAT-Modellierung“ erscheint auf den ersten Moment am vielversprechendsten. Schafft man es, einen geeigneten Katalog an Schadenvektoren zu erstellen, der den Spagat zwischen Spezifika und Allgemeingültigkeit schafft, könnte von dort aus ein sinnvolles Modellierungskonzept für Cyberrisiken entwickelt werden.
Auch hier ist jedoch die Erwartungshaltung, dass ein solcher Katalog selbst bei einem größeren Investment einige Zeit und gesammelte Erfahrungswerte braucht.
Wie ist also in der Zwischenzeit mit der Modellierung im Bereich Cyberrisiko zu verfahren?
Geht man etwas tiefer in die Betrachtung von CAT-Risiken beziehungsweise der erstellten Schadenvektoren zur Modellierung, stellt man fest, dass hinter den Modellen der Risikomodellierung weitere Modelle für die Modellierung realistischer Sachzusammenhänge stehen. Ein Beispiel hierfür sind etwa Klima- oder andere geophysikalische Modelle.
Überträgt man diese Idee auf die Cyberrisikomodellierung, so könnte man an dieser Stelle differenzierte Topologien unterschiedlicher IT-Infrastrukturen betrachten.
Da dieser Artikel allerdings jetzt schon länger ist als seine beiden Vorgänger, werden wir uns die Weiterführung dieses Gedankens für den folgenden und letzten Artikel dieser Serie aufsparen.
Möchten Sie schon jetzt Ideen gemeinsam mit uns besprechen?
Kontaktieren Sie uns: Team cysmo®
Gastautoren: Matthias Blum, David Oliver Michalski