Insight

Large Language Models in der Versicherung: Hype oder echter Produktivitätsschub?

Veröffentlicht am 17. Mai 2024

Daten & Künstliche Intelligenz
Versicherungen

Ein Drittel der Unternehmen weltweit setzt bereits generative KI vom Pilotprojekt bis zur flächendeckenden Umsetzung ein. Doch warum könnte generative KI im Vergleich zum bisherigen Machine Learning ein Gamechanger sein? Wir geben Einblick, welche Large Language Models (LLMs) es gibt, was es beim kommerziellen Einsatz zu beachten gilt und welchen echten Mehrwert Sprachmodelle in der Versicherungsbranche bieten können.

Was sind Large Language Models?

LLMs sind Sprachmodelle, die auf Sequenzvorhersagen basieren, das heißt, sie verwenden statistische Verteilungen. LLMs sind mit riesigen Mengen von Texten aus dem Internet, zum Beispiel Wikipedia, sowie Daten aus privaten Quellen, zum Beispiel Nachrichtenartikeln, trainiert. Wird eine Anfrage, ein sogenannter Prompt, an ein Modell gesendet, ermittelt dieses, welches Wort am sinnvollsten auf das erste folgt. Das geht hervor aus den häufigsten Wortfolgen in den Trainingsdaten. Technisch basieren LLMs auf der Transformer-Architektur – das heißt auf einem neuronalen Netz, das Kontext und Bedeutung lernt, indem es Beziehungen in sequenziellen Daten, wie Wörter in Sätzen, nachvollzieht.

Transformer basieren auf Encodern und Decodern. Encoder verstehen Sprache und werden häufig zur Klassifizierung und Stimmungsanalyse verwendet, ein Beispiel hierfür ist BERT von Google. Decoder generieren Inhalte und Sprache, wie zum Beispiel die GPT-Modelle von OpenAI.

Betrachtet man bisherige Machine Learning-Algorithmen, basieren diese auf festen Merkmalen und einem eindeutig definierten Input. Sie sind also auf eine bestimmte Aufgabe spezialisiert. LLMs können dagegen selbstständig komplexe Muster aus großen Mengen unstrukturierter Daten erlernen. Im Gegensatz zu traditionellen Algorithmen benötigen LLMs weniger manuelle Vorverarbeitung und können durch Transferlernen vielseitig auf verschiedene Aufgaben angepasst werden. Sie zeigen vor allem in der natürlicher Sprachverarbeitung Vorteile, benötigen jedoch erhebliche Rechenressourcen auf leistungsfähigen Hardwareplattformen.

Welche Large-Language-Modelle gibt es und wie unterscheiden sich diese?

Es gibt verschiedene Anbieter von LLMs – die derzeit bekanntesten sind OpenAI mit den GTP-Modellen oder Google mit Gemini. Sie unterscheiden sich in drei Dimensionen:

Datengrundlage
Modellgewichte
Lizensierung

LLMs lassen sich in zwei Gruppen aufteilen: Geschlossene beziehungsweise private Modelle und Open-Source-Modelle. Bei der Verwendung der Open-Source-Modelle ist zu prüfen, ob die Lizensierung des gewählten Open-Source-Modells überhaupt eine kommerzielle Nutzung zulässt. LlaMA von Meta lässt dies beispielsweise nicht zu, LlaMA2 hingegen schon. Bekannte Open-Source-Modelle sind beispielsweise LlaMa2 von Meta, Falcon vom Technology Innovation Institute der Vereinigten Arabischen Emirate und StableLM von Stable Diffusion. Geschlossene Modelle sind kostenpflichtig und können auch stark auf bestimmte Aufgaben spezialisiert sein, wie BloombergGPT von Bloomberg. Bekannte geschlossene Modelle sind die GPT-Modelle von OpenAI, Gemini von Google, Claude von Anthropic und Dolly von DataBricks.

Doch wie unterscheiden sich diese Modelle? Bei der Datengrundlage unterscheiden sich die Modelle vor allem hinsichtlich der Aktualität der Daten: OpenAI trainierte die Modelle GPT-1 bis GPT-3 beispielsweise nur mit Daten bis ins Jahr 2021, während Gemini von Google auf Echtzeitdaten zugreift. Betracht man ein LLM technisch, besteht dieses aus mehreren Milliarden Gewichten, die einem Wort oder Satz eine „Stärke“ beziehungsweise „Wichtigkeit“ zuweisen. Diese Gewichte werden mit den Datenpunkten aus den Trainingssets definiert und sind somit der Fingerabdruck eines Modells. Die initialen Gewichte werden zunächst durch das Training auf vorhandenen Daten festgelegt. Das darauffolgende Finetuning der Modelle wird durch sogenanntes „Reinforcement Learning with Human Feedback“ durchgeführt, um gute und schlechte Antworten zu definieren.

Aktuelle Modelle haben mehr als 100 Milliarden Gewichte, wobei die genaue Zahl von neueren Modellen wie GPT-4 oder Gemini Ultra nicht bekannt sind – GPT-3 hat 175 Milliarden Gewichte und das ältere Modell PalM2 von Google hat 530 Milliarden Gewichte. Die steigende Anzahl der Gewichte führt zu einer Limitierung der relevanten Anbieter, da sie für das Training enorme Rechenkapazitäten benötigen.

Übrigens: Die benötigten Rechenleistungen stellen auch ein Problem für unsere Umwelt dar. So entsprechen die Kohlendioxid-Emissionen von über 550 Tonnen, die beispielsweise beim Training von GPT-3 entstanden sind, ungefähr der Menge an Kohlendioxid-Emission, die eine Person bei knapp 550 Flügen von New York nach San Francisco produziert. Jedoch unterscheiden sich die Emissionen auch von Modell zu Modell und sind abhängig von der Aktualität der Hardware, dem Land und essenziell auch von der Größe der Modelle. Genau dieses Problem wird mit der aktuellen Forschung angegangen, indem kleinere und dafür deutlich spezialisiertere Modelle, sogenannte Mixtures of Experts (MoE), entwickelt werden.

Large Language Models: Wie gelingt der Einstieg?

LLMs sind einfach auszuprobieren: eine Aufforderung ins Eingabefeld schreiben und sich über die fantastische Antwort freuen. Die Antworten der LLMs können auch faszinierend sein, wenn ein Modell anfängt zu halluzinieren. Halluzinieren bedeutet in diesem Kontext, dass Modelle sehr plausibel wirkende, aber dennoch falsche Inhalte generieren. Dies kann vor allem im geschäftlichen Kontext zu Problemen führen. Wie es dazu kommt? Die Ursache können zu kurze und zu ungenaue Eingaben oder schlicht fehlende Informationen sein. Und das soll auch zu einem begrenzten Maß so sein. Denn ein LLM ist keine Enzyklopädie, die faktische Erklärungen liefern soll, sondern ein Instrument, um neue, plausible Inhalte zu erstellen. Das Halluzinieren kann unter anderem durch präzises Prompt Engineering, also die Eingabe spezifischer Handlungsanweisungen und die Eingabe von Kontext limitiert werden. Prompt Engineering kann in drei Komplexitätskategorien unterteilt werden: zero-shot, one-shot und few-shot.

Zero-shot:

Hierbei wird ein LLM mit einem Prompt konfrontiert, für den es nicht spezifisch trainiert wurde. Das LLM soll die Fähigkeit haben, den Prompt zu verstehen und darauf zu antworten, obwohl es während des Trainings kein direktes Beispiel für diesen Prompt gesehen hat.

One-shot und few-shot:

Ein LLM erhält per Prompt ein einzelnes Beispiel (one-shot) oder eine geringe Anzahl (few-shot) von Beispielen für eine bestimmte Aufgabe und soll daraus lernen, diese Prompts zu verstehen und zu bewältigen. Diese Ansätze ermöglichen es, LLMs auf vielfältige Weise einzusetzen, ohne eine umfassende Menge an Beispielen für spezifische Prompts bereitzustellen.

Welches Modell nun das Beste für einen bestimmten Use Case ist, hängt von unterschiedlichen Parametern ab. So zum Beispiel, ob Zugriff auf Echtzeitdaten benötigt wird oder ob das Modell nochmals auf eigenen Daten trainiert werden muss. Verschiedene Benchmarks wie der MMLU-Benchmark, der 57 Fragen aus verschiedenen Bereichen wie Mathematik, US-Geschichte und Recht enthält, können zwar einen ersten Hinweis darauf geben, welche Modelle möglicherweise für den Use Case geeignet sind. Dennoch sind speziell entwickelte Testfälle, die genau auf den Use Case zugeschnitten sind, die beste Methode, um das geeignetste Modell zu finden.

Welche Herausforderungen gibt es bei der praktischen Nutzung von Large Language Models?

Wollen Unternehmen LLMs einführen, sollten vier Dimensionen beachtet werden:

Technisch:

Die technische Einbindung von LLMs via Schnittstelle (API) in die Systemlandschaft ist einfach: Es braucht nur 4 bis 5 Zeilen Code, um die API anzusprechen. Die eigentliche Arbeit liegt im Prompt Engineering und Training. An welcher Stelle der Systemlandschaft man ein LLM anbindet, kommt auf den Use Case an – als Service zur Generierung von Texten für den Chat- beziehungsweise Voice-Bot kann das LLM in der Middleware zwischen Front- und Backend integriert werden oder als Entity Extractor weiter hinten zwischen Prozess-Engine und Backend.

Finanziell:

Die Kosten für die Verwendung privater LLMs liegen pro Interaktion zwischen einigen zehntel eines Cents bis zu wenigen Cents für 500 Wörter als Input und oder Output. Abhängig von der Größe der Prompts, der Größe der daraus resultierenden Outputs und der Häufigkeit der Interaktionen können die Kosten bei weniger als 1.000 € pro Jahr liegen oder auch bei mehr als 100.000 € pro Jahr. Die Kosten unterscheiden sich von Anbieter zu Anbieter stark und können auch durch neue Modelle schnell um den Faktor 10 steigen oder um den Faktor 100 sinken. Wer sich ein eigenes LLM über den Service von Hugging Face trainieren lassen möchte, kann das kleinste verfügbare Modell für etwas über 40.000 € und das größte Modell für knapp 17,3 Millionen € bekommen.

Rechtlich:

Die datenschutzrechtlichen Anforderungen an Versicherungen sind bei der aktuellen Verwendung von LLMs besonders wichtig, denn bei vielen der bisherigen Modelle werden Eingaben in den USA verarbeitet. Damit würden Unternehmen bei der Nutzung der LLMs gegen die EU-DSGVO verstoßen, da nicht bekannt ist, was mit den Daten passiert. Dieses Problem lässt sich beispielsweise durch die Wahl eines Anbieters lösen, der sein LLM in Europa hostet oder die Möglichkeit bietet, das Modell auf einem eigenen Server zu hosten. Zusätzlich dürfen keine personenbezogenen Daten beim Training des Models verwendet werden. Dies würde ansonsten gegen das „Recht auf Vergessenwerden“ verstoßen oder man müsste mit jeder Anfrage zur Löschung von personenbezogenen Daten ein neues Modell trainieren. Doch neben der DSGVO ist der noch nicht verabschiedete EU AI Act ein Damoklesschwert für die Zukunft der Verwendung von LLMs. Forschende der Stanford University haben aktuelle LLMs und darüber verfügbare Informationen analysiert und für jede Kategorie des EU AI Acts eine Einschätzung abgegeben. Das Ergebnis zeigte, dass alle LLMs entsprechend des aktuellen Entwurfs nicht komplett konform sind. Gerade die Einhaltung der Anforderungen in Bezug auf Urheberrecht, Energie, Risiko und die Einhaltung von Branchen Benchmarks sind bei allen LLMs besonders schlecht. Sollte der EU AI so oder so ähnlich in Kraft treten, wird dieser erhebliche positive Einfluss auf alle LLMs haben.

Organisatorisch:

Das beste LLM bringt keinen signifikanten Mehrwert, solange im Unternehmen nicht die richtigen Fähigkeiten verfügbar sind. Für den Einsatz von LLMs werden einerseits neue Rollen benötigt, ein Beispiel hierfür ist der:die Prompt Engineer. Diese:r beschäftigt sich mit der Konzeption von gezielten Prompts für das Training und die Evaluierung von LLMs für den Use Case. Anderseits sollten Unternehmen so früh wie möglich mit dem Change Management starten, um die Mitarbeiter:innen nicht in Panik zu versetzen und sie über die anstehenden Veränderungen ihrer Tätigkeiten zu informieren. Außerdem sollten möglichst frühzeitig denkbare Fortbildungen für die Mitarbeiter:innen angeboten werden.

Können Large Language Models Versicherung?

LLMs sind mit den Informationen aus dem Internet und aus privaten Datenquellen gefüttert – so macht ihr Wissen über Versicherungen nur einen sehr kleinen Anteil aus. Open-Source-Modelle können für ihre Verwendung in der Versicherung spezialisiert – also auf die branchenspezifischen Stichworte trainiert werden. Der Mehrwert von LLMs hängt von ihrem jeweiligen Einsatz ab. Deshalb stellen wir im Folgenden einen versicherungsspezifischen Use Case aus dem Bereich Vertriebspotenzial dar.

Use Case: Ob Vertrieb, Schadenmeldung oder Fragen zum Vertrag, werden Sie zum Champion im Kundendialog

Interaktionen mit Kunden bieten vielfältige Aufgaben:

Bekommen die Kunden die richtigen Informationen, die sie zum Abschluss eines Vertrages benötigen?
Können Kunden ihren Schaden schnell melden und bekommen sie die angemessene Aufmerksamkeit?

LLMs bieten bei der Sprach- und Textinteraktion mit Kunden ein enormes Potenzial. Die drei essenziellsten Vorteile durch die Integration von LLMs sind:

1. Die Interaktion mit Kunden gestaltet sich individueller und natürlicher

Formularartiges Abfragen von Informationen und Chatbots, die nur wenige Formulierungen verstehen, führen lediglich zu Frustration bei Kunden. Wirklich funktionierende Chat- und Voicebots, die dank der Integration von LLMs kontextuelle Informationen und vielfältige Formulierungen verstehen, stellen einen enormen Mehrwert für Kunden dar und steigern durch eine natürliche und individuelle Unterhaltung die Zufriedenheit.

2. Fokussieren auf die wirklich wichtigen Interaktionen

Steigendes Volumen im Customer Contact Center und die schwindende Zahl an Fachkräften führt zu steigendem Zeitdruck und lässt Mitarbeiter:innen wenig Zeit für individuelle und kritische Anliegen. Die Verwendung von LLMs in Voicebots ermöglicht es, einfache und unkritische Interaktionen schnell und effizient zu lösen und gibt Mitarbeiter:innen genügend Zeit zur Betreuung von kritischen Anliegen.

3. Schnelle Integrationsmöglichkeiten und einfache Skalierbarkeit

Bisherige Lösungen im Chat- und Voicebot-Bereich benötigten entweder ein umfangreiches Training oder umfangreiches Customizing, um Use Cases dann nur mit einer teils befriedigenden Qualität zu lösen. LLMs sind schnell und einfach in bestehende Bots und Kontaktpunkte integriert und lassen sich bei steigendem Bedarf einfach skalieren.

Eine zentrale Voraussetzung für die Integration von LLMs in Versicherungsprozesse ist eine Omnichannel-Plattform, die den gleichen Informationsstand auf allen Vertriebs- und Servicekanälen gewährleistet.

LLMs bieten ein enormes Potenzial für die Sprach- und Textinteraktion mit Kunden

Eine beispielhafte User Journey für Abschluss eines Vertrages

Viola ist Bestandskundin bei einer Versicherung und hat sich vor einer Woche ein Angebot für eine neue Hausratversicherung online errechnen lassen. Nachdem sie sich für das Angebot entschieden hat, möchte Viola die Police jetzt aber doch persönlich über ein Kontaktcenter abschließen und greift zum Hörer.

1. Einstieg:

Viola ruft über die im Angebot und in der E-Mail hinterlegten Telefonnummer im Service Center des Versicherers an und gelangt innerhalb weniger Minuten an den Service-Mitarbeiter Thomas.

2. Übergang zum Service Center:

Während einer kurzen Wartezeit wird im Hintergrund die Stimme von Viola mit einer KI analysiert und diese erkennt, dass es sich um Viola handelt. Die Zeit, bis der Mitarbeiter Thomas frei ist, wird genutzt, um Viola nach ihrem Anliegen zu fragen. Mittels eines Speech-2-Text-Frameworks (z. B. AWS Polly) sowie der Auswertung des Textes via eines LLMs und mithilfe der vorhandenen Daten aus der Omnichannel-Plattform werden Thomas bereits alle notwendigen Informationen aus den letzten Kontaktpunkten mit Viola auf den Bildschirm geladen.

3. Gespräch und Abschluss:

Thomas kann Viola im Gesprächseinstieg direkt auf das erstellte Angebot ansprechen und individuell auf die Fragen von Viola eingehen. Innerhalb weniger Klicks und durch Bestätigung von Viola ist der Abschluss erfolgt. Im Hintergrund wird die Beratungsdokumentation erstellt und ein künstlicher Weiterempfehlungs-Score, ähnlich dem Net Promoter Score (NPS), anhand des aufgezeichneten Gesprächsverlaufs generiert. In beiden Fällen kann auch hier durch Speech-2-Text-Frameworks und die Anbindung von LLMs zur Textauswertung durch das natürliche Sprachverständnis eine sehr gute Qualität erreicht werden. Im Fall des Weiterempfehlungs-Scores können Algorithmen zur Berechnung des Scores deutlich besser auf die verarbeiteten LLM-Textpassagen aufsetzen und erhöhen dadurch die Scoring-Genauigkeit.

Der Use Case aus dem Vertrieb zeigt: Die Art der Kommunikation und wie Unternehmen mit ihren Kunden in Kontakt treten, wird sich verändern. In Zukunft wird es weiterhin wenige Kontaktpunkte mit den Kunden geben. Genau deshalb sind diese wenigen Kontaktpunkte aber so wertvoll und müssen zukünftig bestens gestaltet und genutzt werden. LLMs in Verbindung mit einer Omnichannel-Plattform können innerhalb der Kontaktpunkte zwischen Kunden und Versicherern ein sehr positives Erlebnis schaffen. Und die Anwendung von LLMs beschränkt sich dabei natürlich nicht nur auf den Vertrieb, ein äquivalenter Use Case könnte in der Schadenbearbeitung analog umgesetzt werden. In der Bearbeitung von Schadenmeldungen bieten LLMs sogar die Chance, die Bearbeitung komplett zu automatisieren. Durch ihre Fähigkeit, Informationen zu verknüpfen und komplexe Schilderungen zu verstehen, könne LLMs beispielsweise eine Validierung der Schadendeckung durchführen und Versicherungsmitarbeiter:innen Zeit für Schadenfälle verschaffen, in denen eine persönliche Interaktion nötig ist.

Hype oder echter Produktivitätsschub?

Large Language Models sind leistungsstarke KI-Modelle, die auf neuronalen Netzwerken basieren und selbstständig komplexe Muster aus großen Mengen unstrukturierter Textdaten lernen. LLMs zeichnen sich durch ihre Fähigkeit zum Transferlernen aus und finden insbesondere in der natürlichen Sprachverarbeitung, der maschinellen Textgenerierung und in Frage-Antwort-Systemen Anwendung.
Ob LLMs tatsächlich einen echten Produktivitätsschub für Versicherung bringen, hängt von verschiedenen Faktoren ab. Dazu gehört die Auswahl des richtigen LLMs, die Integration in die bestehenden Systeme und die Qualifizierung der Mitarbeiter:innen. Die Vorteile von LLMs in der Versicherung sind jedoch eindeutig. Sie können dazu beitragen, die Kundenzufriedenheit zu erhöhen, die Effizienz zu steigern und die Kosten zu senken. Wenn die Implementierung den Erwartungen der Nutzer:innen entspricht, ist es nur eine Frage der Zeit, bis LLMs in der Versicherungsbranche weit verbreitet sein werden. Doch bei all dem Hype um neue Technologien gibt es eine klare Priorität: Die Datengrundlage nutzbar machen. Dazu gehört, die benötigten Daten zu definieren, zu erfassen, die Datenqualität zu steigern und zur Nutzung zugänglich zu machen. Hier stehen alle Unternehmen, egal welcher Branche noch vor Herausforderungen.

Verfasst von

Dr. Annika Bergbauer

Senior Manager – Deutschland, München

Wavestone
LinkedIn
Nico Gerhard

Manager – Deutschland, Frankfurt am Main

Wavestone
LinkedIn
Noah Hennes

Senior Consultant – Deutschland, Köln

Wavestone
LinkedIn
Matthias Pierzyna

Senior Consultant – Deutschland, Frankfurt am Main

Wavestone
LinkedIn
Uta Niendorf

Partner – Deutschland, Hamburg

Wavestone
LinkedIn