Nous lisons cela tous les jours. Un avocat utilise un grand modèle de langage (LLM) pour effectuer des recherches. Ils copient cette recherche dans un mémoire, mais la recherche contient des cas qui n’existent pas. L’avocat est brisé, le juge furieux et le client commence à chercher un meilleur avocat.
Tout le monde se gratte la tête. Je veux dire, tout le monde sait que les systèmes d’IA feront ça, alors pourquoi cela continue-t-il à se produire ? Une nouvelle étude et un nouvel article de l’Université Cornell apportent un éclairage sur ce problème, sur le problème de la dépendance excessive et sur les raisons pour lesquelles le volcan des graves défauts de l’IA pourrait être sur le point d’entrer en éruption. Tout simplement, le coût de la vérification des résultats des outils d’IA dépasse les économies réalisées grâce à leur utilisation. C’est un paradoxe.
Dans la première partie d’un examen des raisons pour lesquelles un volcan de problèmes d’IA pourrait être sur le point d’entrer en éruption, j’ai examiné les dangers d’une dépendance excessive à l’égard de l’IA, compte tenu des lacunes de l’infrastructure sous-jacente. Mais il y a plus dans l’histoire. Le simple fait est que les outils d’IA ont une réalité fondamentale et que les défauts de transparence sont risqués et carrément téméraires. Compte tenu de l’ampleur et de la profondeur de l’impact de ces failles et du coût correspondant pour vérifier les résultats, l’utilisation et le rôle de l’IA dans le domaine juridique pourraient s’avérer plus limités que beaucoup ne le pensent.
Les hypothèses
Comme le souligne l’étude, l’hypothèse qui alimente l’explosion de l’utilisation de l’IA dans le domaine juridique est qu’elle permettra de gagner énormément de temps. Ces économies profiteront aux avocats et aux clients, conduiront à des méthodes de facturation plus équitables, comme des structures d’honoraires alternatives, obtiendront de meilleurs résultats, amélioreront l’accès à la justice et conduiront à la paix mondiale. Eh bien, peut-être que même les vendeurs n’iront pas jusqu’à garantir le dernier. Mais les vendeurs semblent garantir tout sauf cela. Et les experts parlent comme si l’IA allait transformer le droit de fond en comble. Les cabinets d’avocats adhèrent au battage médiatique et investissent dans des systèmes coûteux qui font des choses qu’ils comprennent à peine.
Mais pas si vite. Tout cela repose sur l’hypothèse que le temps gagné dépassera largement les étapes supplémentaires nécessaires pour vérifier le résultat et que tous les problèmes d’IA concernant des éléments tels que la précision seront bientôt résolus.
L’étude de Cornell jette un peu d’eau froide sur toutes ces hypothèses et les remet en question de front.
L’étude Cornell
L’étude identifie deux défauts fondamentaux du LLM. La première que nous connaissons tous : la propension des systèmes à halluciner et à fournir des informations inexactes. L’étude qualifie ce défaut de défaut de réalité. C’est un gros problème dans une profession comme le droit, où se tromper peut avoir de graves conséquences. Le deuxième défaut identifié par l’étude est celui de la transparence. Nous ne savons pas vraiment comment fonctionnent ces systèmes.
Le défaut de réalité, selon l’étude, vient du fait que les systèmes génératifs « ne sont pas structurellement liés à la réalité : à savoir l’exactitude factuelle… un modèle d’apprentissage automatique n’apprend pas les faits sous-jacents aux données d’entraînement mais réduit ces données à des modèles qu’il ingère ensuite et cherche à reproduire ». Et l’étude note que ce ne sont pas seulement les systèmes publics comme ChatGPT qui démontrent cette faille, mais aussi ceux conçus à des fins juridiques.
Ainsi, conclut l’étude, « tout résultat généré par l’IA doit être vérifié si l’utilisateur souhaite s’assurer de l’exactitude et du lien avec la réalité de ce résultat, en particulier dans la pratique juridique ». En d’autres termes, vérifiez vos citations.
Le deuxième défaut, celui de la transparence, est le problème de la boîte noire. Cela crée à son tour un problème de confiance, selon l’étude. Si vous ne savez pas comment une décision est prise ou comment une conclusion est atteinte, comment pouvez-vous lui faire confiance ?
Pour un système juridique qui dépend du raisonnement et de la logique, c’est un problème majeur. Je le formulerais ainsi : comment pouvez-vous compter sur quelque chose quand vous ne savez pas comment cela fonctionne, comment il a pris la décision qu’il a prise, et que vous obtenez des réponses différentes aux mêmes questions.
L’utilisation de l’IA dans le domaine juridique repose sur la nécessité de pouvoir expliquer comment une décision a été prise. C’est la pierre angulaire du fondement des processus juridiques et même de l’État de droit.
L’étude conclut en outre qu’aucune de ces failles ne sera surmontée de si tôt.
Qu’est-ce que cela signifie?
L’étude continue en expliquant ce que cela signifie. Cela suggère que la pléthore de cas dans lesquels les avocats n’ont pas vérifié les citations et finissent par avoir un dossier ou des faits hallucinés ou inexacts récités dans les documents déposés signifie que les avocats sous-estiment les défauts. Ou ont été convaincus par les prestataires que les risques sont négligeables.
Ces avocats se sont simplement appuyés de manière excessive sur un outil qu’ils croyaient ou ont été amenés ou bercés à croire qu’il était plus précis que ce qu’il est. Le résultat jusqu’à présent a été un grand tollé de la part de tout le monde selon lequel vous devez vérifier les citations. Habituellement, cela est livré avec un sourire ironique qui dit que ce sont simplement les avocats stupides et paresseux qui sont à blâmer. Mais le fait est que le problème ne disparaît pas. En fait, la situation semble empirer.
Il se peut que les avocats coupables soient stupides ou paresseux, même si, comme je l’ai déjà écrit, ce n’est pas toute l’histoire. Mais ce qui n’est pas dit, c’est ce que souligne l’étude : “la valeur nette d’un modèle d’IA dans la pratique juridique ne peut être évaluée que lorsque le gain d’efficacité (économies de temps, coûts salariaux, coûts des ressources de l’entreprise, etc.) est compensé par le coût de vérification correspondant (coût de vérification manuelle des résultats de l’IA pour l’exactitude, l’exhaustivité, la pertinence, etc.). Ceux qui ont été pris avec des cas hallucinés dans leurs journaux n’ont tout simplement pas pris le temps de vérifier en s’appuyant sur l’outil d’IA.
Parce que la demande d’exactitude dans le domaine juridique est si élevée, note l’étude, le coût de vérification de nombreuses actions juridiques est trop élevé pour compenser les économies. L’étude conclut également que ce coût n’est pas atténué par les systèmes automatisés puisque les risques de réalité et de transparence peuvent toujours exister. D’où ce que l’étude appelle un paradoxe de vérification.
Et l’on voit déjà l’impact de ce paradoxe avec les amendes imposées par les tribunaux pour des cas hallucinés. Nous verrons sans aucun doute des plaintes pour faute professionnelle et violation de l’éthique. Le coût d’une erreur en droit est tout simplement trop élevé pour ne pas vérifier et vérifier minutieusement.
Certes, l’IA peut bien faire beaucoup de choses là où les risques de se tromper ne sont pas si grands. Cela aura un impact énorme sur les entreprises et peut-être sur d’autres professions. Mais pour le droit, pas tellement : « Plus le résultat est important, plus il est important de vérifier son exactitude. »
L’étude conclut :
Le paradoxe de la valeur de vérification suggère que la valeur nette de l’IA pour la pratique juridique est largement surestimée, en raison d’une sous-estimation du coût de la vérification. Une bonne compréhension du caractère coûteux et essentiel de la vérification conduit à la conclusion que la valeur nette de l’IA sera souvent négligeable dans la pratique juridique : c’est-à-dire que, dans la plupart des cas, la valeur ajoutée ne sera pas suffisante pour justifier le coût de vérification correspondant.
La réalité
Il est facile de voir l’impact économique du paradoxe de la vérification lorsque l’on compare le coût d’un travail effectué par un LLM avec celui effectué par un humain. Supposons que vous demandiez à un LLM de faire des recherches juridiques qui vous prendraient normalement 10 heures. Vous obtenez le résultat, mais il contient environ 25 citations de cas. Maintenant, vous devez a) vérifier que chaque cas existe et b) vous assurer que le cas correspond à la proposition que le LLM dit. Une fois cela fait, vous pourriez très bien avoir passé huit heures, voire plus.
Un volcan sur le point d’entrer en éruption ?
Il est peut-être trop tard pour remettre complètement l’IA dans la bouteille. Mais là où il faut autant de temps, voire plus, pour vérifier les résultats d’un outil d’IA pour lequel vous avez dépensé des milliers de dollars, vous n’êtes pas prédisposé à en acheter davantage. Certes, vos clients ne seront pas ravis de votre utilisation d’un outil qui non seulement ne leur permet pas d’économiser de l’argent, mais qui leur coûte plus cher et les expose à des risques.
Il est facile d’envisager la conclusion fondamentale selon laquelle l’utilisation de l’IA pour de nombreuses choses ne vaut pas le risque et le coût de la validation de ses résultats. Il est facile de voir à quel point ce fait tempérera l’enthousiasme et la dépendance à l’égard de l’IA.
Nous pouvons rapidement conclure que les coûts et les risques d’une telle démarche sont trop élevés et n’en valent tout simplement pas la peine à long terme, et peut-être même à court terme. Lorsque cela se produira, de nombreux avocats se retrouveront confrontés à des systèmes coûteux dont ils n’ont pas besoin. De nombreux fournisseurs devront peut-être s’orienter dans d’autres directions. Une grande partie du capital-risque pourrait être perdue. Le volcan proverbial est peut-être sur le point d’entrer en éruption.
C’est quelque chose qui mérite d’être pris en compte avant d’acheter le prochain nouveau jouet IA brillant et avant d’utiliser des raccourcis IA pour effectuer le travail difficile, avant de vous attendre aveuglément aux personnes que vous supervisez pour faire la bonne chose et avant d’accepter sans poser de questions leur travail.
En attendant, vérifiez vos citations. S’il te plaît.
Stephen Embry est avocat, conférencier, blogueur et écrivain. Il publie TechLaw Crossroads, un blog consacré à l’examen de la tension entre la technologie, le droit et la pratique du droit.
Melissa Rogozinski est PDG de RPC Round Table et de RPC Strategies, LLC, une société de marketing et de publicité basée à Miami, en Floride.

