Nouveau front judiciaire pour OpenAI, la société qui a lancé ChatGPT, attaqué cette fois pour s’être servi des milliards de données publiées par des internautes pour entraîner ses modèles de langage aux États-Unis. On lui réclame des dommages et intérêts pour dédommager les utilisateurs « privés » : une première.
Après les artistes, les internautes ? Une procédure collective qui vise OpenAI, la start-up à l’origine de ChatGPT et de Dall-E, a été formée aux États-Unis mercredi 28 juin, rapporte le Washington Post. Son objectif : réclamer des dommages et intérêts à verser aux milliers d’internautes dont les commentaires sur les réseaux sociaux ou les articles de blog ont été utilisés par des modèles de langage, sans autorisation. Jusqu’ici, OpenAI avait été attaqué sur le terrain du droit d’auteur, ou sur celui des données personnelles. Mais dans cette affaire, ce sont cette fois les données extraites du Web et mises en ligne par des particuliers, comme les commentaires sur les réseaux sociaux, les articles de blog ou les articles de Wikipédia, qui sont visées. Leur utilisation, toujours à des fins d’entraînements d’IA, serait problématique, elle violerait les droits de millions d’internautes, explique Ryan Clarkson, l’avocat en charge de la procédure, à nos confrères.
Et c’est d’ailleurs en raison du nombre de personnes impliquées que son cabinet a choisi de former une « class action » – une procédure collective qui permet de demander en une seule fois des dommages et intérêts pour plusieurs requérants. Pour Maître Clarkson, il s’agit de représenter « des personnes réelles dont les informations ont été volées et détournées à des fins commerciales pour créer cette technologie très puissante ». Le cabinet vise d’abord OpenAI, « l’entreprise qui a déclenché cette course à l’armement en matière d’IA » considérée comme « la première cible naturelle », ChatGPT étant l’outil d’IA générative le plus populaire du moment.
Le flou juridique sur les utilisations de données par l’IA
Mais si l’action en justice est concluante, d’autres sociétés concurrentes pourraient être visées. OpenAI, qui n’a pas souhaité répondre aux demandes de commentaires de nos confrères, n’a pas publié le type de données utilisées dans son dernier modèle, GPT4. Mais on sait que les précédentes versions ont ingurgité des pages Wikipédia, des articles de presse, et des commentaires sur les réseaux sociaux. Il en est de même pour Bard (développé par Google) et ses concurrents.
Cette action juridique n’est pas surprenante : aux États-Unis comme dans d’autres pays du monde, l’utilisation par l’IA générative de données issues du Web à des fins d’entraînement est une question qui n’est souvent pas juridiquement tranchée. Les systèmes ingurgitent des milliards de données provenant du Web, données dont ils se servent ensuite pour prédire ce qu’il faut dire en réponse à une demande. Pourtant, les internautes qui ont publié ces données n’ont jamais donné leur accord pour qu’une entreprise comme OpenAI les utilise à son profit. Et lorsqu’elles ont été mises en ligne, leurs internautes n’ont jamais pensé qu’elles serviraient d’entraînement, plaident les avocats, qui espèrent que les juges tranchent en leur faveur, avec des indemnisations à la clé pour ces particuliers.
« Il y a peu de chance pour que l’action aboutisse »
Pour Katherine Gardner, avocate spécialisée dans la propriété intellectuelle chez Gunderson Dettmer, il y a cependant peu de chance pour que l’action en cours aux États-Unis aboutisse, et que les personnes qui ont simplement publié ou commenté un site Web puissent obtenir des dommages-et-intérêts. « Lorsque vous mettez du contenu sur un site de réseaux sociaux ou sur n’importe quel autre site, vous accordez généralement une licence très large au site pour qu’il puisse utiliser votre contenu de quelque manière que ce soit », explique l’avocate. « Il sera très difficile pour l’utilisateur final ordinaire de prétendre qu’il a droit à un paiement ou à une compensation quelconque pour l’utilisation de ses données dans le cadre d’un entraînement (d’un système d’IA) » ajoute-t-elle à nos confrères.
Cette nouvelle action en justice s’ajoute à plusieurs autres procédures, lancées aux États-Unis et en Europe. Action en diffamation pour hallucination de ChatGPT, entraînement sur des photos protégées par le droit d’auteur, non respect du Règlement européen sur les données personnelles… Les terrains judiciaires se multiplient, en attendant qu’une réglementation en bonne et due forme règle l’ensemble de ces questions.