Les Large Language Models en assurances : mythe ou facteur de productivité ?
Publié le 17 mai 2024
- Assurance
- Data & Intelligence artificielle
Un tiers des entreprises dans le monde utilisent déjà l’IA générative, du projet pilote à la mise en œuvre à grande échelle. Mais pourquoi l’IA générative pourrait-elle marquer une révolution par rapport au Machine Learning actuel ?
Nous vous donnons un aperçu des LLM (Large Language Models) existants, des aspects à prendre en compte lors de leur utilisation commerciale et de la véritable valeur ajoutée que les modèles de langage peuvent offrir dans le secteur des assurances.
Qu’est-ce que les LLM ?
Les LLM sont des modèles de langage basés sur des prédictions de séquences ; autrement dit, ils utilisent des distributions statistiques. Les LLM sont entrainés à l’aide d’énormes quantités de textes provenant d’Internet, par exemple de Wikipédia, et de données provenant de sources privées, par exemple d’articles de presse. Lorsqu’une requête, appelée prompt, est envoyée à un modèle, celui-ci détermine quel est le mot qui suit le plus logiquement le premier. C’est ce qui ressort des séquences de mots les plus fréquentes dans les données d’entrainement. Techniquement, les LLM sont basés sur l’architecture Transformer, c’est-à-dire sur un réseau neuronal qui apprend le contexte et la signification en reproduisant des relations dans des données séquentielles, comme des mots dans des phrases.
Les transformers sont basés sur des encodeurs et des décodeurs. Les encodeurs captent la parole et sont souvent utilisés pour la classification et l’analyse de l’humeur, à l’instar de BERT de Google. Les décodeurs génèrent du contenu et de la parole, à l’instar des modèles GPT d’OpenAI.
Si l’on considère les algorithmes Machine Learning actuels, ceux-ci se basent sur des caractéristiques fixes et des input clairement définis. Ils sont donc spécialisés dans une tâche précise. En revanche, les LLM peuvent apprendre de manière autonome des modèles complexes à partir de grandes quantités de données non structurées. Contrairement aux algorithmes traditionnels, les LLM nécessitent moins de pré-traitement manuel et peuvent être adaptés de manière polyvalente à différentes tâches grâce à l’apprentissage par transfert. Bien qu’ils offrent des avantages significatifs en traitement du langage naturel, ils exigent des ressources informatiques considérables et un matériel puissant.
Quels sont les LLM existants et comment se distinguent-ils les uns des autres ?
Il existe plusieurs fournisseurs de LLM. Parmi les plus populaires aujourd’hui, on peut citer les modèles GPT d’OpenAI et Google Gemini. La différence se situe à trois niveaux :
- La base de données
- Le poids du modèle
- La licence
Les LLM se répartissent en deux groupes : les modèles fermés ou privés et les modèles open source. Lors de l’utilisation de modèles open source, il convient de vérifier si la licence du modèle open source utilisé autorise une quelconque utilisation commerciale. Le modèle LIaMA de Meta ne l’autorise pas par exemple, tandis que le modèle LlaMA2 l’autorise. Les modèles open source connus sont par exemple LlaMa2 de Meta, Falcon du Technology Innovation Institute des Émirats arabes unis et StableLM de Stable Diffusion. Les modèles fermés sont payants et peuvent également être fortement spécialisés dans certaines tâches, comme BloombergGPT de Bloomberg. Parmi les modèles fermés populaires, on a les modèles GPT d’OpenAI, Gemini de Google, Claude d’Anthropic et Dolly de DataBricks.
Cependant, où se situe la différence entre ces modèles ? En ce qui concerne la base de données, les modèles se distinguent surtout par l’actualité des données : Par exemple, OpenAI a entraîné les modèles GPT-1 à GPT-3 en utilisant uniquement des données allant jusqu’en 2021, tandis que Gemini de Google utilise des données en temps réel. Si l’on considère un LLM d’un point de vue technique, celui-ci se compose de plusieurs milliards de poids qui attribuent une « force » ou une « importance » à un mot ou à une phrase. Ces poids sont définis à l’aide des points de données issus des ensembles d’entraînement et constituent donc l’empreinte numérique d’un modèle. Les poids initiaux sont d’abord définis par l’entraînement sur des données existantes. Les modèles sont ensuite affinés grâce à « l’apprentissage par renforcement avec rétroaction humaine », afin de définir les bonnes et les mauvaises réponses.
Les modèles actuels ont plus de 100 milliards de poids, bien que le nombre exact de modèles plus récents comme GPT-4 ou Gemini Ultra ne soit pas connu ; GPT-3 a 175 milliards de poids, contre 530 milliards pour l’ancien modèle PalM2 de Google. Le nombre croissant de poids entraîne une limitation des fournisseurs pertinents, car ils ont besoin d’énormes capacités de calcul pour l’entraînement.
Au demeurant, la puissance de calcul nécessaire pose également un problème pour notre environnement. Par exemple, l’entraînement de GPT-3 génère plus de 550 tonnes d’émissions de dioxyde de carbone, ce qui correspond à peu près à la quantité d’émissions de dioxyde de carbone produite par une personne qui ferait 550 vols entre New York et San Francisco. Cependant, les émissions varient également d’un modèle à l’autre et dépendent de l’âge du matériel, du pays et, surtout, de la taille des modèles. C’est précisément à ce problème que s’attaque la recherche actuelle, en développant des modèles plus petits mais nettement plus spécialisés, appelés Mixtures of Experts (MoE).
Large Language Models : comment se lancer ?
Les LLM sont faciles à prendre en main : il suffit de rédiger une demande dans le champ de saisie et une réponse vous est automatiquement retournée. Les réponses des LLM peuvent également vous laisser perplexe lorsqu’un modèle se met à halluciner. L’hallucination ici signifie que les modèles génèrent des contenus très plausibles, mais qui ne sont pas vrais. Cela peut notamment poser des problèmes dans un contexte d’entreprise. D’où provient ce problème ? Il peut provenir d’inputs trop courts et imprécis, ou encore simplement d’un manque d’informations. Mais ce cas devrait se produire dans une mesure limitée. En effet, les LLM ne sont pas des encyclopédies conçues pour fournir des explications factuelles, mais plutôt des outils aidant à concevoir de nouveaux contenus plausibles. L’hallucination peut être limitée, entre autres, par le prompt engineering (l’ingénierie de requête), c’est-à-dire la saisie d’instructions d’action spécifiques et la saisie du contexte. L’ingénierie de prompt peut être divisé en trois catégories de complexité : zero shot, one shot et few shot.
Zero-shot:
Ici, le LLM est confronté à une requête pour laquelle il n’a pas reçu d’entraînement spécifique. Le LLM doit être en mesure de comprendre la requête et d’y répondre, même s’il n’a pas vu un exemple direct pour cette requête pendant l’entraînement.
One-shot et few-shot:
Un LLM reçoit par requête un seul exemple (one shot) ou une poignée d’exemples (few shot) pour une tâche donnée et doit apprendre à comprendre et à maîtriser ces requêtes. Ces approches permettent d’utiliser les LLM de diverses manières sans fournir un ensemble complet d’exemples de requêtes spécifiques.
Le meilleur modèle pour un cas d’utilisation particulier dépend de divers paramètres. Par exemple, s’il est nécessaire d’avoir accès à des données en temps réel ou si le modèle doit être re-entraîné sur ses propres données. Divers benchmarks tels que le benchmark MMLU, qui contient 57 questions de différents domaines tels que les mathématiques, l’histoire des États-Unis et le droit, peuvent fournir une indication initiale des modèles susceptibles de convenir au cas d’utilisation. Néanmoins, les tests spécialement conçus pour répondre précisément au cas d’utilisation sont la meilleure méthode pour trouver le modèle le plus approprié.
Quels sont les défis liés à l’utilisation pratique des LLM ?
Toute entreprise qui souhaite intégrer des LLM devrait prendre en compte quatre aspects :
L’intégration technique des LLM dans un environnement système via une interface (API) est simple : il suffit de 4 ou 5 lignes de code pour adresser l’API. Le gros du travail repose dans le prompt engineering et l’entraînement. Le point d’intégration d’un LLM dans l’environnement système dépend du cas d’utilisation – en tant que service pour la génération de textes pour le chat ou le bot vocal, le LLM peut être intégré dans le middleware entre le front-end et le back-end ou en tant qu’Entity Extractor plus loin entre le moteur de processus et le back-end.
Le coût de l’utilisation de LLM privés par interaction varie de quelques dixièmes de centimes à quelques centimes pour 500 mots en entrée et/ou en sortie. En fonction de la taille des requêtes, de la taille des outputs qui en résultent et de la fréquence des interactions, les coûts peuvent être inférieurs à 1 000 € par an ou supérieurs à 100 000 € par an. Les coûts varient considérablement d’un fournisseur à l’autre et peuvent aussi rapidement se multiplier par 10 ou se diviser par 100 en raison de nouveaux modèles. Ceux qui souhaitent se faire entraîner leur propre LLM via le service de Hugging Face peuvent obtenir le plus petit modèle disponible pour un peu plus de 40 000 € et le plus grand modèle pour près de 17,3 millions €.
Les exigences en matière de protection des données pour les assurances sont particulièrement importantes dans le cadre de l’utilisation actuelle des LLM, car de nombreux modèles existants traitent les données aux États-Unis. En raison des incertitudes liées au traitement des données, les entreprises seraient donc en infraction avec le RGPD de l’UE lorsqu’elles utilisent les LLM. Ce problème peut par exemple être résolu en choisissant un fournisseur qui héberge son LLM en Europe ou qui offre la possibilité d’héberger le modèle sur son propre serveur. De plus, aucune donnée personnelle ne peut être utilisée lors de l’entraînement du modèle. Dans le cas contraire, cela irait à l’encontre du « droit à l’oubli » ou il faudrait entraîner un nouveau modèle à chaque demande de suppression de données à caractère personnel. Mais outre le RGPD, la loi européenne sur l’IA, qui n’a pas encore été adopté, est une épée de Damoclès pour l’avenir de l’utilisation des LLM. Des chercheurs de l’université de Stanford ont analysé les LLM actuels et les informations disponibles à leur sujet et ont ont fourni une évaluation pour chaque catégorie de la loi européenne sur l’IA. Il en résulte entre autres que tous les LLM correspondant au projet actuel ne sont pas totalement conformes. C’est justement le respect des exigences en matière de droits d’auteur, d’énergie, de risque et de respect des références sectorielles qui pose particulièrement problème pour tous les LLM. Si la loi sur l’IA de l’UE entre en vigueur sous une forme ou une autre, elle aura un impact positif significatif sur tous les MLD.
Le meilleur modèle de langage (LLM) n’apportera pas de valeur ajoutée tant que l’entreprise ne possède pas les compétences adéquates. D’une part, de nouveaux rôles sont nécessaires pour l’utilisation des LLMs, comme celui « d’ingénieur en prompt ». Cette personne est chargée de la conception de requêtes ciblées pour entraîner et évaluer des LLM pour chaque cas d’utilisation. Par ailleurs, les entreprises doivent également se lancer le plus rapidement possible dans la gestion du changement, afin de ne pas affoler les employés et de les informer des changements à venir dans leurs activités. De plus, des formations adaptées doivent être proposées aux employés.
Est-ce que les LLM peuvent être utilisés dans le secteur de l’assurance ?
Les LLM sont alimentés par des informations provenant d’Internet de sources de données privées, d’où la très faible portion de données relatives aux assurances. Les modèles open source peuvent être entraînés pour une utilisation dans les assurances, notamment à l’aide de mots-clés spécifiques au domaine. La constitution des LLM dépend majoritairement de leur utilisation spécifique. Voici un cas d’utilisation spécifique aux assurances dans le domaine du potentiel de vente.
Cas d’utilisation : Devenir un champion du dialogue avec les clients, qu’il s’agisse de ventes, de déclarations de sinistres ou de questions sur les contrats.
Les interactions avec les clients suscitent plusieurs questions :
- Les clients reçoivent-ils les informations précises dont ils ont besoin pour conclure un contrat ?
- Les clients peuvent-ils rapidement déclarer leur sinistre et sont-ils suffisamment pris en charge ?
Les LLM présentent un potentiel considérable dans les interactions vocales et textuelles avec les clients. Les trois principaux avantages de l’intégration des LLM sont les suivants :
1. Vers une interaction plus personnalisée et plus naturelle avec les clients
Les requêtes sous forme de formulaires et les chatbots qui ne comprennent que quelques formulations créent de la frustration chez les clients. Des chatbots et des voicebots réellement fonctionnels et qui comprennent les informations contextuelles et les formulations variées grâce à l’intégration des LLM représentent une énorme valeur ajoutée pour les clients et augmentent leur satisfaction grâce à une conversation naturelle et personnalisée.
2. Priorité aux interactions réellement importantes
L’augmentation du volume dans le centre de contact client et la diminution du nombre de spécialistes entraînent une pression temporelle croissante et laissent peu de temps au personnel pour répondre aux demandes individuelles et critiques. L’utilisation de LLM dans les voicebots permet de résoudre rapidement et efficacement les interactions simples et non critiques, tout en laissant au personnel suffisamment de temps pour traiter les demandes critiques.
3. Possibilités d’intégration rapides et évolutivité facile
Jusqu’à présent, les solutions dans le domaine des chatbots et des voicebots nécessitaient soit une formation approfondie, soit une personnalisation importante, tandis que la qualité de résolution des cas d’utilisation reste approximative. Les LLM s’intègrent rapidement et en toute simplicité dans les bots et les contacts existants et permettent une évolutivité facile en cas de besoin croissant.
Une condition centrale pour l’intégration des LLM dans les processus d’assurance est une plateforme omnicanale qui garantit le même niveau d’information sur tous les canaux de vente et de service.
Exemple de parcours utilisateur pour la conclusion d’un contrat
Viola est cliente d’une compagnie d’assurance et a demandé un devis en ligne pour une nouvelle assurance ménage il y a une semaine. Après avoir opté pour l’offre, Viola souhaite tout de même souscrire la police en personne via un centre de contact et décide de passer un appel.
Viola appelle le centre de service de l’assureur au moyen du numéro de téléphone indiqué dans l’offre et dans l’e-mail et parvient en quelques minutes à joindre Thomas du SAV.
Pendant une courte période d’attente, la voix de Viola est analysée en arrière-plan par une IA qui la reconnaît. En attendant que Thomas soit disponible, Viola reçoit des questions sur l’objet de son appel. Grâce à un framework Speech-2-Text (par exemple AWS Polly) ainsi qu’à l’évaluation du texte via un LLM et à l’aide des données existantes de la plateforme omnicanale, Thomas charge déjà à l’écran toutes les informations nécessaires issues des derniers contacts avec Viola.
Thomas peut aborder directement avec Viola l’offre créée au début de l’appel et répondre aux différentes questions de Viola. En quelques clics et avec la confirmation de Viola, le contrat est signé. En arrière-plan, l’appel est documenté et un score de recommandation artificiel, similaire au Net Promoter Score (NPS), est généré à partir du déroulement enregistré de l’entretien. Dans les deux cas, il est également possible d’obtenir une très bonne qualité grâce aux frameworks Speech-2-Text et à l’intégration de LLM pour l’évaluation du texte par la compréhension du langage naturel. Dans le cas du score de recommandation, les algorithmes de calcul du score peuvent s’appuyer nettement mieux sur les passages de texte du LLM traités, ce qui augmente la précision du score.
Le cas d’utilisation en vente montre que : Le mode de communication et de contact entre les entreprises et leurs clients va évoluer. Le nombre de contacts avec les clients va nettement diminuer avec le temps. C’est exactement pourquoi ces contacts sont si importants et méritent d’être planifiés et exploités au mieux, à l’avenir. Les LLM, associés à une plateforme omnicanale, peuvent créer une expérience très positive au sein des points de contact entre les clients et les assureurs. L’utilisation des LLM ne se limite évidemment pas à la vente, un cas d’utilisation équivalent pourrait être mis en œuvre de manière analogue dans le traitement des sinistres. Dans le traitement des déclarations de sinistre, les LLM offrent même la possibilité d’automatiser complètement le traitement. Grâce à leur capacité à relier les informations et à comprendre des récits complexes, les LLM peuvent par exemple valider la couverture des sinistres et faire gagner du temps au personnel des assurances pour les sinistres nécessitant une interaction personnelle.
Mythe ou véritable facteur de productivité ?
Les LLM sont de puissants modèles d’IA basés sur des réseaux neuronaux qui apprennent de manière autonome des modèles complexes à partir de grandes quantités de données textuelles non structurées. Les LLM se distinguent par leur capacité d’apprentissage par transfert et sont notamment utilisés dans le traitement automatique des langues, la génération automatique de textes et les systèmes de questions-réponses.
L’apport réel des LLM à l’augmentation de la productivité pour les assurances dépend de plusieurs facteurs. Il faut choisir le bon LLM, l’intégrer dans les systèmes en place et avoir un personnel qualifié. Toutefois, les avantages des LLM dans le secteur des assurances sont clairs. Ils peuvent contribuer à améliorer la satisfaction des clients, à accroître l’efficacité et à réduire les coûts. Si leur mise en œuvre répond aux attentes des utilisateurs, alors l’utilisation massive des LLM dans le secteur des assurances n’est plus donc qu’une question de temps. Mais malgré tout l’engouement pour les nouvelles technologies, la priorité reste claire : rendre la base de données exploitable. Cela implique de définir les données nécessaires, de les collecter, d’améliorer leur qualité et de les rendre accessibles en vue de leur utilisation. Toutes les entreprises, quel que soit leur secteur d’activité, ont encore des défis à relever sur ce plan.
Auteurs
-
Dr. Annika Bergbauer
Senior Manager – Allemagne, Munich
Wavestone
LinkedIn -
Nico Gerhard
Manager – Allemagne, Francfort-sur-le-Main
Wavestone
LinkedIn -
Noah Hennes
Senior Consultant – Allemagne, Cologne
Wavestone
LinkedIn -
Matthias Pierzyna
Senior Consultant – Allemagne, Francfort-sur-le-Main
Wavestone
LinkedIn -
Uta Niendorf
Partner – Allemagne, Hambourg
Wavestone
LinkedIn