Congés payés : Les règles d’acquisition ont changé ! >

< Droit social : Attention à la rédaction de l’avis d’inaptitude !

24.01.2024 10:46 Age: 1 year
Category: Droit de la Propriété Intellectuelle, Veille Juridique
By: France CHARRUYER

L’intelligence artificielle générative : A qui appartiennent les données d’apprentissage et les données générées ?

L’intelligence artificielle alimente beaucoup de fantasmes, de la menace d’apocalypse ou de celle du « solutionniste » technologique, qui masquent une réalité simple : la machine n’existe pas sans les données qui l’alimentent ni sans l’infrastructure logicielle.

L’angle mort de ces « machines à gouverner » [1] fait l’impasse sur l’importance de qualifier les données en amont destinées à alimenter les systèmes d’IA et notamment une de ses déclinaisons en vogue : « l’IA générative » ou IAG et de leur place dans le processus de création.

La présente note n’a ainsi pas vocation à dresser la liste des bénéfices et des risques de l’intelligence artificielle mais à s’interroger sur les défis juridiques posés en matière de droit de la propriété intellectuelle par les « données d’entraînement ou données d’apprentissage ».

Le risque relatif à la propriété intellectuelle est l’un des 3 risques majeurs identifiés [2] pour les organisations en matière d’intelligence artificielle (dont les deux derniers ne sont autres que la fiabilité des résultats de l’IA et la cybersécurité).

Plusieurs questions se posent alors :

Comment prévenir et gérer le risque d’atteinte aux droits de propriété intellectuelle des tiers [3] ?
Faut-il autoriser, encadrer ou interdire l’usage de l’IAG en entreprise ?
Comment protéger et rétribuer les productions de l’IAG par le droit de propriété intellectuelle ?

Au-delà du risque légal, sociétal, démocratique, cyber ou environnemental, l’accessibilité déconcertante de l’IAG nous expose en effet à un défi juridique inédit, celui de la nécessaire protection de la création, de la juste rétribution de la valeur sur les contenus ingérés et produits sans intervention humaine directe.

Les entreprises et organisations, acteurs directs dans l’utilisation de l’IA, doivent connaître et anticiper les risques qu’ils soient actuels ou à venir, et prendre en compte le risque contentieux notamment utilisateur qui a vocation à se développer :

Qu’il s’agisse des données d’in-put [4] intégrées, analysées, utilisées et exploitées par les machines, lesquelles peuvent potentiellement provenir, en tout ou partie, de contenus ou d’œuvres protégés.
Qu’il s’agisse de la qualification des données d’output générées par les outils d’IA générative (tels que l’agent conversationnel Chat-GPT, DALL-E, Midjourney…) : s’agit-il d’œuvres parasitaires, contrefaisantes, dérivées, collaboratives humain-machine, voire d’œuvres originales, via la production de textes, d’images, de sons ou encore de vidéos ?
Qu’il s’agisse des enjeux de responsabilité des développeurs, concepteurs, exploitants et utilisateurs, de l’anticipation et gestion des litiges à venir.

Il appartiendra aux utilisateurs, développeurs et concepteurs de justifier de la qualité et de la traçabilité des données d’entraînement de leur système d’IA et par voie de conséquence de l’auditabilité et transparence de leurs outils.

L’utilisation de systèmes d’IA, comme l’IA générative, impose en conséquence aux organisations une analyse précise des données sources qui nourrissent le système, c’est-à-dire des données d’apprentissage et de mener des analyses de risques pour prévenir les atteintes aux droits des tiers.

Face à ce déluge de contenus numériques et confrontés aux nouveaux monopoles sur les détenteurs des systèmes d’IA générative, que reste-t-il des droits opposables aux systèmes d’IA, du droit d’auteur principalement, en passant par les droits voisins (artistes interprètes, au droit sui generis du producteur de base de données entre autres) ?

Plus précisément, à qui appartiennent les données d’entraînement ingérées en amont (1) et les contenus par l’IA générative générés en aval (2) ?

Répondre à cette question sous le prisme de l’IA générative implique de comprendre le fonctionnement de l’IA Générative et de s’attacher à la définir :

Une première difficulté naît de l’absence de définition unique de ces technologies[6]. La CNIL a récemment eu l’occasion de définir les IAG comme étant « un système capable de créer du texte, des images ou d’autres contenus (musique, vidéo, voix…) à partir d’une instruction d’un utilisateur humain[7] » .

Il s’agit pour simplifier non pas « d’intelligence » à proprement parler, mais davantage d’un système « statistique et de mathématiques, induisant un modèle de langage », aussi appelé LLM (Large Language Model), alimenté de grandes quantités de données en amont.

1 / A qui appartiennent les données d’apprentissage ?

Pour s’entraîner, ces LLMs utilisent des techniques de deep learning pour analyser et digérer ces milliards de données (notamment celles issues de pages web) afin d’apprendre les structures et les schémas de langage : ce qu’on qualifie d’apprentissage.

L'objectif : Comprendre, résumer et générer du contenu "comme le ferait un humain". On distingue ainsi les « créations assistées par ordinateur[8] » où l’humain joue un rôle prépondérant quand la machine n’est qu’un pur outil, et les créations générées spontanément par l’IAG, résultante d’un logiciel et surtout sans intervention humaine significative sur l’aspect créatif de la production.

Ce qu’ils font :

Représenter sous forme de vecteurs un environnement par de « l’apprentissage automatique » (le machine learning).

Ce qu’ils ne font pas :

Il ne s’agit pas de reproduire ou de « hacker » un cerveau humain ;
Il ne s’agit pas non plus à ce stade de « conscience » de l’IA.

Leur terrain de jeu favori :

Internet (peut être le plus mauvais maître qui soit pour ces modèles de langage) reste à cet égard la plus grande banque de données ouverte existante.

Leur technique :

Ce qui conduit fatalement à l’extraction massive de données sur le net, cette technique étant appelée le « webscraping »[9] ou extraction automatique de contenus issus de sites web que l’IA structure et organise afin de les rendre exploitables. Sorte d’alternative au copier-coller, le webscraping a l’avantage de la célérité et de l’efficacité puisqu’elle rend la donnée pertinente visible rapidement.

Une collecte de données facilitée par l’exception du « text and data mining » (TDM) :

Le droit d’auteur et le droit du producteur de base de données[10] ont été rognés en Europe avec la directive « Marché unique numérique » du 17 avril 2019, laquelle introduit une nouvelle exception au droit d’auteur, qui autorise la fouille de textes et de données, aussi appelé « data mining »[11]. L’objectif initial était de ne pas freiner le développement de l’open data.

Cette exception au droit d’auteur et au droit du producteur de base de données s’appliquerait aux systèmes d’IA car elle définit la fouille de textes et de données comme « la mise en œuvre d’une technique automatisée de textes et de données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations ».

Ce qui est autorisé est la « fouille » en elle-même et notamment le fait de recourir à des copies ou reproductions numériques en vue de la fouille :

Obligatoire : c’est-à-dire sans exception, lorsque la finalité est scientifique
Facultative : avec une possibilité d’exercer son opt out lorsqu’il n’y a pas de finalité spécifique[12]

Concrètement, cela signifie-t-il que tout opérateur de solutions basées sur l’IA peut analyser ou encore exploiter tous contenus, y compris ceux protégés par le droit d’auteur, dès lors qu’ils sont publiquement accessibles ?

A priori cette « fouille » de données est possible[13] si l’auteur ne s’y est pas opposé expressément.

Ce qui est interdit et soumis à OPT OUT ( droit d’opposition) :

L’auteur doit exercer son « opt out » s’il souhaite protéger ses droits d’auteur, ce qui constitue un renversement des principes affirmés dans les articles L.111-1 et suivants du Code de la Propriété Intellectuelle[14].

Ce renversement du paradigme est important pour l’auteur, qui n’est plus protégé de plein droit et doit donc redoubler de vigilance.

Un décret du 23 juin 2022[15] affirme que cet « opt out » n’a pas à être motivé et peut être exprimé par tout moyen, précisant « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation d’un site internet ou de service ».

Sans faire obstacle au développement de l’IA, le droit d’opposition permettrait idéalement la restauration des droits exclusifs des créateurs, et le maintien d’un équilibre durable entre ces droits et les ambitions nouvelles soulevées par l’IAG.

A ce propos, plusieurs organismes de gestion collective (Sacem, Société des auteurs, SACD) se sont récemment réunis à l’occasion d’une table ronde sur le thème crucial des « auteurs face à l’intelligence artificielle ». Cette réunion a permis de rappeler que l’application de l’exception de fouilles de données aux IA génératives n’était pas acquise, conçue en premier lieu pour la recherche.

Cette conclusion faite, la Scam a choisi d’exercer son droit d’opposition à cette exception pour son propre répertoire et de facto interdire par principe l’utilisation de toutes ses œuvres pour l’entraînement d’une IAG. La Sacem n’a pas tardé à emprunter le même chemin[16].

En pratique, l’opt-out peut s’exercer par des mesures de protection contractuelle (clause type[17], CGU d’un site internet ou d’un service[18], secret des affaires) ou encore par des mesures plus techniques (par la détermination des finalités de l’utilisation de l’IA[19] par exemple, par des procédés lisibles par machine comme des métadonnées, par le Captcha[20], ou encore par une procédure automatisée de signalement des contenus contrefaisants[21]).

Cependant, ce droit d’opposition (opt out) n’apparaît ni respecté ni suffisamment appliqué dans la réalité, et partant ne protège pas véritablement les droits d’auteur, car :

L’auteur se heurte à une difficulté probatoire pour exercer la vérification de l’application de son opt out : il sera difficile pour un auteur de poursuivre un producteur d’IAG en contrefaçon si ce dernier ne respecte pas son « opt out ». Il sera en pratique très difficile d’identifier la ou les source(s) du contenu généré à la demande d’un utilisateur.
Sa portée est limitée en l’absence d’obligation d’information des auteurs de l’utilisation de leurs contenus comme données d’entrainement (ce qui implique que l’auteur doit redoubler de vigilance et de surveillance, tâche fondamentalement sisyphéenne).
Ce droit d’opposition appartient à l’auteur en droit Français et non au titulaire de droit[22].
Les mécanismes techniques d’opposition sont peu efficaces à ce stade.

Ce qui est proposé techniquement en sus de l’OPT OUT aux auteurs :

L’exploitation hors de contrôle (et sans consentement explicite) par les IA génératives amène certains artistes à piéger leurs contenus à l’aide d’outils logiciels tel que :

-Glaze : un programme conçu avec les chercheurs de l’université de Chicago qui ajoute des pixels par exemple à des illustrations invisibles à l’œil humain pour perturber le travail de l’IA. Ce programme aurait été téléchargé plus de 1,6 million de fois.[23]

-Kudurru : logiciel de la start up Spawning qui collecte les tentatives de collecte massive sur les plateformes d’images, et qui permet à l’artiste de bloquer l’accés demandé, ou d’empoisonner l’IA en susbtituant une autre image.

-« Have i been trained.com », site de la start up Spawning qui permet de savoir si des images ont alimenté un logiciel d’IA.

-Antifake : logiciel de l’Université de Washington à St Louis qui enrichit un fichier de son imperceptible à l’oreille humaine, qui empêche l’imitation de voix humaine.

-Data Provenance Explorer [24] : permet aux chercheurs, aux journalistes et à toute autre personne d'effectuer des recherches dans des milliers de bases de données d'entraînement de l'IA et de retracer la « généalogie » des ensembles de données les plus utilisés.

Ce qui est nécessaire à titre préventif pour les organisations :

De la même manière, l’opt out représente un risque pour l’entreprise qui aura des difficultés à identifier l’opposition des titulaires de droits qui n’a pas besoin, pour rappel, d’être motivée. Autrement dit la simple manifestation d’un désaccord de l’auteur suffira, ce qui nécessite un travail d’audit préalable de la part des entreprises.

Les organisations sur lesquelles pèsent la responsabilité in fine devront s’interroger : l’entraînement de l’IA porte-il réellement atteinte aux droits de propriété intellectuelle des tiers, et plus précisément au droit d’auteur ?

-S’agit-il d’une œuvre protégée ?

Les données introduites en amont peuvent être des œuvres protégées (œuvre musicale, œuvre littéraire, œuvre photographique, etc.), supposant une utilisation bien souvent dénuée de l’autorisation de leur auteur, et donc faisant fi de la protection octroyée par le droit d’auteur[25].

-S’agit-il d’une contrefaçon ?

Pour qu’il y ait violation du droit d’auteur, il faut que l’œuvre soit copiée, reproduite ou publiée[26]. Or les données d’entrainement sont, elles, recherchées sur Internet, extraites, apprises puis stockées, loin d’écarter le risque de contrefaçon[27] …

-S’agit-il d’agissements déloyaux et parasitaires ?

-S’agit-il de violation du secret et de la confidentialité ?

Les données d’entrainement peuvent conduire à la violation d’une clause de confidentialité ou du secret des affaires pour aller au-delà de la seule propriété intellectuelle.

Au vu de cet équilibre fragile, les contentieux sur l’appartenance des données d’entrainement sont inévitables à l’instar de celui initié par le New York Times contre Microsoft et Open AI pour utilisation non autorisée de son contenu d’entraînement de l’IA (y compris Chat GPT et Bing)[28].

Son action intervient d’ailleurs alors que d’autres auteurs et producteurs de contenu ont déjà entamé des poursuites judiciaires pour violation présumée de leur droit d’auteur. Pour l’heure, la seule responsabilité des développeurs est mise en cause mais il y a fort à parier que l’utilisateur du système d’IA est susceptible de se voir inquiété eu égard aux règles relatives à la contrefaçon[29].

En guise de réponse à ce profond bouleversement, une proposition de loi visant à encadrer l’IA par le droit d’auteur[30] a été déposée le 12 septembre dernier, par une dizaine de députés, devant l’Assemblée Nationale.

L’objectif de cette proposition est de compléter le Code de la Propriété Intellectuelle afin d’offrir aux auteurs une protection renforcée de leurs droits et une meilleure rémunération face à ces systèmes d’IA qui réutilisent leurs œuvres.

Cette proposition, composée de 4 articles, propose les apports suivants :

Elle créée l’obligation de solliciter l’accord des auteurs ou de leurs ayants-droits quand une œuvre est utilisée par un outil d’IA,
Elle précise également que lorsqu’une œuvre est créée par une IA sans intervention humaine directe, la titularité des droits appartiendra aux auteurs ou ayants droit des œuvres ayant permis de concevoir ladite œuvre artificielle,
Elle prévoit la gestion et la rémunération des droits sur les œuvres générées par une IA par des sociétés d’auteurs ou autres organismes de gestion collective,
Elle ajoute l’obligation d’apposer la mention « œuvre générée par l’IA » ainsi que d’insérer le nom des auteurs des œuvres ayant permis d’aboutir à une telle œuvre,
Elle élabore une taxation au bénéfice de l’organisme chargé de la gestion collective, lorsque des œuvres de l’esprit sont générées par un dispositif d’IA à partir d’œuvres dont l’origine demeure incertaine.

Bien que cette proposition de loi ait le mérite de poser des questions actuelles dans un contexte d’explosion de l’usage des outils de l’IA, elle semble pour l’heure inapplicable puisque les ajouts proposés se confrontent aux difficultés techniques et pratiques, et amènent plus d’interrogations que de solutions.

Sans prophétiser sur le devenir de cette proposition de loi, la jurisprudence va certainement jouer un rôle essentiel, du moins dans un premier temps.

L’intervention de l’IA Act : la volonté d’une IA éthique by design

Dans une dimension plus européenne, il est impossible de ne pas mettre en lumière les récentes intentions de la Commission européenne dans l’élaboration de l’IA Act, règlement visant à encadrer l’usage et la commercialisation des intelligences artificielles au sein de l’UE.

La priorité du Parlement est la garantie de systèmes d’IA sûrs, transparents, traçables et non discriminatoires. En un mot : une intelligence artificielle éthique. Parmi toutes les mesures prises, certaines divisent comme celle à propos du droit d’auteur des données nourrissant les IA génératives. La Commission Européenne indique vouloir obliger à « rendre public un résumé suffisamment détaillé » des contenus que les créateurs utilisent pour l’entrainement des algorithmes sans être plus explicite à ce sujet. L’objectif est d’identifier les titulaires de droits pour ne pas les spolier de leur droit à rémunération. Les européens se veulent également fermes vis-à-vis des entreprises étrangères en réaffirmant l’importance de respecter le droit d’auteur européen (et notamment le principe de l’opt-out évoqué plus haut).

Quoiqu’il en soit, le constat unanime est celui de la nécessité d’une obligation de transparence légale. En effet seule une telle obligation permettrait de connaître l’ampleur de l’utilisation des œuvres au service de l’IA Générative, et par là même un contrôle du droit d’auteur.

Malgré le scepticisme de certains à propos l’IA Act, les OGC saluent les « garanties positives » du règlement en devenir, soulignant la nécessité de conserver les acquis en la matière et de permettre une marge de négociation aux ayants droit.

A l’heure où Open AI négocie avec les médias pour légaliser l’entrainement de ses IA [31], faut-il craindre que la loi du marché fasse sa loi et au passage écrase les petits opérateurs au profit des grands monopoles ?

On a pu le constater par le passé, notre droit d’auteur a fait ses preuves lorsqu’il s’agissait de prendre en compte les « œuvres de l’esprit » nées de technologies nouvelles.

Il y a de cela un demi-siècle, avec l’apparition du logiciel, (perçu comme une sorte d’ « Ovni juridique ») sur la scène du droit, et alors que s’élevaient des voix en faveur d’un droit - sui generis -, le législateur optait néanmoins pour la protection par le droit d’auteur, qui finalement s’est révélé un outil souple et relativement efficace.

Et pourtant les motifs d’ordre technique invoqués à l’époque à l’encontre du droit d’auteur ne manquaient pas, ce qui ne peut que nous ramener à la problématique actuelle des projets de loi et réglementation visant l’IA.

Notre droit doit-il avoir peur de l’IA au point de vouloir à tout prix l’encadrer par des règlements spécifiques dont on ne mesure pas la portée, et ce au prix d’une banalisation de notre droit d’auteur ?

Vouloir soumettre le droit à la technique, si radicalement nouvelle qu’elle puisse apparaitre, est-il une bonne solution ?

En ce sens, si cette proposition de loi se veut innovante, et si on ne peut douter des meilleures intentions de ses promoteurs, cette vision « algorithmique » qui conduirait à une distorsion de notre droit d’auteur pourrait bien, si nous n’y prenons pas garde, faire l’affaire des grands monopoles…. au détriment des créateurs.

En France, au-delà du droit d’auteur, des droits voisins et du droit sui generis du producteur de bases de données, restent les remparts juridiques des pratiques déloyales, et quelques recours collectifs pour que la jurisprudence dresse la ligne Maginot du possible et de l’interdit.

A retenir :

Quelle que soit la solution optée, il est primordial pour les organisations d’intégrer dans leur politique de fonctionnement et dans leurs relations contractuelles la gestion des risques de l’IA. Une telle prise en compte se traduit aussi en interne où la sensibilisation et la formation des salariés à l’utilisation de cet outil est plus que nécessaire. Sur le plan juridique, les entreprises doivent auditer et encadrer les outils d’IA déployés aux fins d’identifier les logiciels potentiellement problématiques pouvant représenter un risque pour les droits privatifs de l’entreprise et un risque de contrefaçon ou de concurrence déloyale ou parasitaire. Enfin au-delà du risque, l’IA peut être une force et les entreprises doivent aussi anticiper la protection des actifs développés avec l’IA, enjeu de valorisation.

2/A qui appartiennent les contenus générés par une IA générative ?

2-1 Quelle protection par le droit d’auteur ?

Pour mémoire, les œuvres de l’esprit sont protégées par le droit d’auteur, dès lors qu’elles sont originales[32]. Bien que la notion d’originalité n’ait pas été expressément définie par la loi, la jurisprudence apporte des précisions : une œuvre est considérée comme originale dès lors qu’elle porte « l’expression ou l’empreinte de la personnalité de son auteur », « l’expression de la création intellectuelle propre à l’auteur »[33]. Cette conception personnaliste et humaniste laisse penser qu’une œuvre de l’esprit doit avoir été créée par un être humain pour pouvoir bénéficier d’une telle protection. Dès lors, si la machine se substitue à l’humain, la protection se trouve-t-elle affectée ? Quelle applicabilité du droit d’auteur pour les créations issues (partiellement ou totalement) de l’IA ?

Avant tout, il faut distinguer :

Les contenus générés par une IA avec intervention humaine

Il s’agit des créations assistées par IA, où celle-ci n’est que l’outil de la main créatrice de l’Homme. Une telle hypothèse suppose de pouvoir être en mesure d’évaluer l’implication de la personne physique qui revendique la qualité d’auteur, tant en amont de la sollicitation de l’outil, qu’en aval. Mais dans de nombreux cas une telle évaluation se révélerait nécessairement fastidieuse voire impossible fautes de moyens et de temps.

Toutefois, si le contenu généré est modifié de manière significative par un humain, celui-ci pourra prétendre à une protection par le droit d’auteur. Emergent ainsi des œuvres créées par des artistes dont la personnalité se reflète dans leur production, à l’aide de l’IA. Ainsi l’utilisation secondaire et complémentaire de l’IA dans le processus de création pourrait faire accéder la création finale au rang d’œuvre protégée par le précieux droit d’auteur.

Les contenus générés par une IA sans intervention humaine

En l’état actuel du droit, la qualité d’auteur ne peut être attribuée qu’à une personne physique[34], exception faite du régime de l’œuvre collective pour lequel une personne morale peut être titulaire ab initio des droits d’auteur[35].

Sans intervention humaine, une création spontanément issue d’une intelligence artificielle ne peut a priori être considérée comme une œuvre de l’esprit. Il apparaît difficile de défendre les œuvres créées par nos machines intelligentes comme originales, cette dernière caractéristique se définissant comme la liberté des choix créatifs, alors que les machines exécutent des directives préétablies par des algorithmes. Cette affirmation faite, d’aucuns estiment tout de même qu’il est toujours possible de distinguer dans ces créations une marque de subjectivité provenant des différents intervenants[36]. A l’inverse, d’autres défendent l’adoption d’une conception objective des notions du droit d’auteurs pour permettre son application à de telles créations[37]. Quoiqu’il en soit, l’ère est nouvelle pour le paternaliste droit d’auteur.

Du côté des Etats-Unis, la loi sur le copyright exclut de la protection les créations générées par des outils d'intelligence artificielle car le copyright ne peut concerner des écrits, films, musiques ou images générées par des outils d'intelligence artificielle "en l'absence de toute implication humaine dans la création de l'œuvre". Et ce principe doit être appliqué même si ces logiciels sont entraînés par des humains et/ou sur des créations humaines, selon la juge fédérale Beryl Howell dans une sentence rendue le 18 août 2023, dans la droite ligne de celle rendue par le US Copyright Office[38].

En guise de réponse à ce profond bouleversement, une proposition de loi visant à encadrer l’IA par le droit d’auteur a été déposée le 12 septembre dernier, par une dizaine de députés, devant l’Assemblée Nationale[39].

Cette proposition, soumet 4 articles :

L’obligation de solliciter l’accord des auteurs ou de leurs ayants-droits quand une œuvre est utilisée par un outil d’IA ;
Lorsqu’une œuvre est créée par une IA sans intervention humaine directe, la titularité des droits appartiendra aux auteurs ou ayants droit des œuvres ayant permis de concevoir l’œuvre finale ;
La gestion et la rémunération des droits sur les œuvres générées par une IA par des sociétés d’auteurs ou autres organismes de gestion collective ;
L’obligation d’apposer la mention « œuvre générée par l’IA » et la mention du nom des auteurs des œuvres ayant permis d’aboutir à une telle œuvre ;
L’élaboration d’une taxation au bénéfice de l’organisme chargé de la gestion collective lorsque des œuvres de l’esprit sont générées par un dispositif d’IA à partir d’œuvres dont l’origine demeure incertaine.

Bien que cette proposition de loi ait le mérite de poser des questions actuelles dans un contexte d’explosion de l’usage des outils de l’IA, elle semble pour l’heure inapplicable puisque les ajouts proposés se confrontent aux difficultés techniques et pratiques, provoquant moins de solutions que d’interrogations supplémentaires.

Sans prophétiser sur le devenir de cette proposition de loi, la jurisprudence va certainement jouer un rôle essentiel, du moins dans un premier temps.

2.3L’intervention de l’IA Act : la volonté d’une IA éthique

2.4Une multiplication des contentieux

De nombreuses actions judiciaires ont été intentées ces derniers mois par des ayants droit contre des sociétés d’IA, notamment aux Etats-Unis, leurs œuvres ayant été reprises sans leur consentement.

Par exemple, l'entreprise britannique Stability AI s’est fait assigner en justice par Getty Images pour avoir présumément violé des droits de propriété intellectuelle de la plateforme de banque d’images pour alimenter son IA Stable Diffusion . Cette dernière est un outil générant des photos à partir de commandes textuelles d’internautes. Afin de bâtir son système, l'entreprise se serait alimentée d'œuvres en ligne sans le consentement de leurs auteurs et sans payer de redevances, notamment celles de Getty Images.

Trois artistes ont intenté une action en justice contre les entreprises derrière Stable Diffusion, Midjourney et DeviantArt, les accusant de porter atteinte au droit d’auteur . Selon eux, ces sociétés utilisent leurs œuvres protégées. Les trois sociétés ont déposé une demande pour que le tribunal rejette l’action intentée par les artistes, en invoquant le « fair use », exception du droit d’auteur pour la production créative ou transformative notamment.

Le mois dernier, le juge a tranché en faveur des trois plateformes tout en invitant les plaignants à modifier leur plainte et à intenter une nouvelle action en justice en citant spécifiquement les images protégées par le droit d’auteur qu’elles ont utilisées .

Cette multiplication de contentieux a poussé des sociétés telles que Microsoft, Adobe ou encore Google à prendre des engagements, en affirmant soutenir ses utilisateurs en cas d’accusation de violation des droits d’auteurs dans le cadre de travaux d’IA . Ces derniers ont récemment annoncé indemniser leurs utilisateurs dans l’éventualité où un tiers réclame des droits d’auteur en lien avec des données d’entraînement ou des résultats générés.

En conclusion, l‘interrogation sur la règlementation idéale en matière d’IA et d’auteurs demeure en suspens, d’autant plus que les avancées sont susceptibles de changer. La volonté législative seule ne saurait suffire lorsque certains dénoncent la totale transparence comme la « mort de l’entreprise » et ne se cachent pas d’une intention de renégocier ce point de névralgique. En attendant, et à l’instar de la proposition de loi en France, la portée de ces ambitions reste à découvrir.

A retenir :

Face aux évolutions réglementaires, nous sommes là pour vous accompagner et vous conseiller. Notre expertise nous permet de vous offrir une représentation juridique éclairée et efficace. N’hésitez pas à nous contacter si vous avez besoin d’aide.

Entreprises, notre cabinet vous accompagne dans la sécurisation de vos projets d’IA et pour la formation de vos collaborateurs avec son offre Trust by design !

Auteurs, artistes, Altij Avocats vous accompagne dans la mise en place de votre droit d’opposition et protection de vos créations !

[1] Arnaud Billion, manifeste de technoréalisme :la compréhension de l'IA nécessite une réflexion approfondie sur son rôle dans le techno-pouvoir et le machinisme social, ainsi que sur ses implications en matière de contrôle et de transformation des êtres vivants et de la société dans son ensemble.

[2] Outre l’absence de véracité des résultats (hallucinations, contenus erronés ou non fiables, etc.) et le risque exponentiel en cyber sécurité. Christian Poyau, Comment dompter l’IA générative, juillet 2023, Les Echos.

[3] La responsabilité des développeurs et des organisations a été recherchée pour utilisation de contenus de tiers comme données d’entrainement, Git hub et Open AI avec Copilot, Stability AI avec Stable diffusion.

[4] Données « d’input » : données intégrées en amont pour enrichir l’intelligence artificielle. En opposition aux données d’ « output » qui sont les données de résultat. L’ensemble de ces données peut alimenter une œuvre in fine, étant utilisées et intégrées comme « matière première » pour constituer l’œuvre finale.

[5] Article de Mathilde Saliou sur Next

[6] L.JULIA, L’IA n’existe pas, podcast.ausha.co/les-causeries-data/17-comment-preserver-l-independance-de-notre-pensee-face-a-l-intelligence-artificielle

[7] CNIL, mai 2023, « Intelligence artificielle : le plan d’action de la CNIL »

[8] « Technique visant à dessiner des objets sur un ordinateur afin de concrétiser une idée et la comprendre avant l’étape de fabrication dudit objet. Elle permet de donner un aperçu du futur comportement du produit, avant même que celui n’existe, mais aussi de son aspect, de sa structure et de son fonctionnement. »

[9] Bien que certains systèmes d’IA dits « privés » n’utilisent que des données propres ou obtenues via des data access agreements.

[10] La protection par le droit sui generis du producteur de base de données suppose que soit rapportée la preuve que la constitution, la vérification ou présentation du contenu de la base résulte d’un investissement humain, matériel ou financier substantiel. Il faudra ensuite démontrer que des données d’entrainement d’un SIA proviennent d’une extraction/analyse/réutilisation substantielle en tout ou partie de cette base de données protégée.

[11] Article 3§1 : « Les États membres prévoient une exception aux droits prévus à l'article 5, point a), et à l'article 7, paragraphe 1, de la directive 96/9/CE, à l'article 2 de la directive 2001/29/CE et à l'article 15, paragraphe 1, de la présente directive pour les reproductions et les extractions effectuées par des organismes de recherche et des institutions du patrimoine culturel, en vue de procéder, à des fins de recherche scientifique, à une fouille de textes et de données sur des œuvres ou autres objets protégés auxquels ils ont accès de manière licite. »

[12] Article L 122-5 10° du Code de la propriété intellectuelle : « Les copies ou reproductions numériques d'une œuvre en vue de la fouille de textes et de données réalisée dans les conditions prévues à l'article L. 122-5-3 »

Article L 122-5-3 II du Code de la propriété intellectuelle : « Des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées sans autorisation des auteurs en vue de fouilles de textes et de données menées à bien aux seules fins de la recherche scientifique par les organismes de recherche, les bibliothèques accessibles au public, les musées, les services d'archives ou les institutions dépositaires du patrimoine cinématographique, audiovisuel ou sonore, ou pour leur compte et à leur demande par d'autres personnes, y compris dans le cadre d'un partenariat sans but lucratif avec des acteurs privés. », et III : « Sans préjudice des dispositions du II, des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille, sauf si l'auteur s'y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne. »

[13] A noter qu’au regard du considérant 19 de la directive DAMUN, cette exception semble avoir été créée pour les IA opérant à des fins statistiques dans la mesure où la conservation des copies est possible pendant toute la durée nécessaire à la fouille. Toutefois l’IAG ne fixe rien en matière de durée de conservation, qui peut être infinie puisque, par essence, elle apprend éternellement de ces données input pour pouvoir répondre aux requêtes.

[14] Article L 111-1 du Code de la propriété intellectuelle : « L'auteur d'une œuvre de l'esprit jouit sur cette œuvre, du seul fait de sa création, d'un droit de propriété incorporelle exclusif et opposable à tous. »

[15] Décret n° 2022-928 du 23 juin 2022 : https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000045960058

[16] Ce droit d’opposition a été récemment exercé par la Société des auteurs, compositeurs et auteurs de musique, imposant désormais non seulement une autorisation préalable à l’utilisation des œuvres que l’OGC protège mais également une négociation financière : https://societe.sacem.fr/actualites/notre-societe/pour-une-intelligence-artificielle-vertueuse-transparente-et-equitable-la-sacem-exerce-son-droit

[17] A ce propos, le Syndicat national de l’édition propose par exemple une clause type relative à la fouille de textes et de données : https://www.sne.fr/document/clause-type-fouille-de-textes-et-de-donnees/.

[18] A titre d’illustration, il peut s’agir de conditions générales d’utilisation pour la mise en place d’un Chatbot comme l’ont déjà fait Campus France ou encore Chat GPT.

[19] A ce propos, il faut envisager les récentes prises de position du réformateur européen qui souhaite organiser un régime juridique harmonisé selon une gradation du risque inhérent au type d’IA utilisé. Selon la finalité envisagée ou le type d’IA utilisé, une mesure technique doit être mise en place. Par exemple, l’utilisation d’œuvres protégées par une IA pour la création d’une nouvelle image ou musique nécessitera une mesure de protection renforcée comme l’évaluation des risques de contrefaçon générés avant, pendant et après l’utilisation de cette IA à cette fin spécifique. Ainsi la détermination anticipée des finalités d’utilisation de l’IA permettra d’écarter un usage qui ne respecterait pas le droit d’auteur.

[20] Completely Automated Public Turing test to tell Computers and Humans Apart: mesure de sécurité de type authentification par question comme par exemple un test “je ne suis pas un robot”.

[21] Déjà mis en place par OpenAI.

[22] Articles L 122-5 et L 122-5-3 du Code de la propriété intellectuelle

[23] Nouveau programme en cours au sein de l’Université de Chicago, Nightshade : axé sur les prompts piégés pour faire dérailler les algorithmes

[24] Des experts en machine learning et en droit du MIT, Cohere et 11 autres organisations parmi lesquels la Harvard Law School, l'université Carnegie Mellon et Apple, ont élaboré cet outil . L'idée est de fournir un moyen d'explorer le monde parfois flou des données d'entraînement utilisées pour développer l'IA générative. Dans une déclaration officielle annonçant Data Provenance Explorer, l'équipe qui en est à l'origine, fait état d’une « crise de la transparence des données » qui pourrait compliquer le développement et l'utilisation commerciale des systèmes d'IA générative.

[25] Tommaso Stella rappelle ainsi qu’aux États-Unis d’Amérique, plusieurs procédures judiciaires sont actuellement engagées contre des sociétés propriétaires d’IA générative (sur la question du fair use notamment), les accusant de porter atteinte aux droits de plusieurs auteurs lors de l’entrainement de cette dernière. De nombreuses « class actions » ont été intentées par des acteurs, des dramaturges et des écrivains contre Open AI et META pour faire reconnaître la responsabilité juridique de ces derniers pour violation de droits d’auteur : https://www.village-justice.com/articles/intelligence-artificielle-droit-auteur-entrainement-violer-pour-creer,48301.html#:~:text=L'entrainement%20de%20l'intelligence%20artificielle%20g%C3%A9n%C3%A9rative.&text=Cependant%2C%20les%20%C5%93uvres%2C%20qui%20sont,leur%20contenu%20sur%20son%20dataset.

Tremblay v. OpenAI, Inc., No. 3:23-cv-03223 (joint avec la procédure Silverman v. OpenAI, Inc., No. 3:23-cv-03416 & Chabon v. OpenAI, Inc., No.3:23-cv-04625) ; Kadrey v. Meta Platforms, Inc., No. 3:23-cv-03417 (joint avec la procédure Chabon v. Meta Platforms Inc., No. 3:23-cv-04663)

[26] Article L 335-2 du Code de la propriété intellectuelle : Toute édition d'écrits, de composition musicale, de dessin, de peinture ou de toute autre production, imprimée ou gravée en entier ou en partie, au mépris des lois et règlements relatifs à la propriété des auteurs, est une contrefaçon et toute contrefaçon est un délit. »

[27] Sur ce sujet, voir le compte rendu de la conférence IA génératives et création : quels enjeux juridiques ? , observatoire IA Panthéon Sorbonne, C.ZOLYNSKI, E.TREPPOZ, mars 2023. « Contrairement au droit français, le droit de reproduction au sens du droit européen n’implique aucun acte ultérieur de communication au public. Dès lors, la copie faite au sein d’une IA générative pourrait constituer un acte de reproduction, bien que la question soit encore ouverte. En conséquence, la question se pose de savoir si l’exception de TDM (équivalant à la fouille de textes et de données en français) introduite par le droit européen s’applique aux reproductions effectuées au sein des IA génératives. »

[28] « Microsoft et OpenAI ont utilisé notre travail pour développer et commercialiser leurs produits d’intelligence artificielle générative sans avoir la permission du Times » déclare le NY Times.

[29] Par le droit d’auteur et les droits voisins comme les droits de l’artiste-interprète, du producteur de vidéogrammes ou phonogrammes, celui de l’éditeur de presse, etc.

[30] Proposition de loi visant à encadrer l’intelligence artificielle par le droit d’auteur, 12 septembre 2023 : https://www.assemblee-nationale.fr/dyn/16/textes/l16b1630_proposition-loi

[31] Actu IA Janvier 2024 , selon Marie Calude Benoit qui retranscrit un Article de Bloomberg, Open AI aurait approché une douzaine d’éditeurs et aurait signé un accord avec le groupe de presse allemand Axel Springer et l’Associated press

[32] Article L.111-1 du Code de la Propriété Intellectuelle : « L'auteur d'une œuvre de l'esprit jouit sur cette œuvre, du seul fait de sa création, d'un droit de propriété incorporelle exclusif et opposable à tous.»

[33] CJUE, Aff. C-5, Infopaq international A/S c.Danske Dagbaldes Forening, 16 juillet 2009.

[34] Cass. 1ère civ. 15 janvier 2015 n°13-23.566

[35] Article L.113-2 §3 du Code de la Propriété Intellectuelle : « Est dite collective l'œuvre créée sur l'initiative d'une personne physique ou morale qui l'édite, la publie et la divulgue sous sa direction et son nom et dans laquelle la contribution personnelle des divers auteurs participant à son élaboration se fond dans l'ensemble en vue duquel elle est conçue, sans qu'il soit possible d'attribuer à chacun d'eux un droit distinct sur l'ensemble réalisé. »

[36] Voir J-M DELTORN, « Droit d’auteur et créations des algorithmes d’apprentissage », Propriété intellectuelles, janvier 2016, n’°58 ; Y. GAUBIAC, « Œuvres créées avec un ordinateur » : Jcl. Propriété littéraire et artistique, Fasc. 1164, Février 2014.

[37] Voir not. M. VIVANT et J.-M. BRUGUIERE, Droit d'auteur et droits voisins, Dalloz, 2e éd. 2013, 255 et in Lamy Droit de l'informatique et des réseaux, 2011, 537 ; J. LARRIEU « Le robot et le droit d'auteur », Mélanges en l'honneur d'André Lucas, LexisNexis, Juin 2014

[38] Antoine OURY, Pas de copyright pour les œuvres de l’intelligence artificielle, Les univers du livre, août 2023 : https://actualitte.com/article/113066/international/pas-de-copyright-pour-les-oeuvres-de-l-intelligence-artificielle

[39] Proposition de loi visant à encadrer l’intelligence artificielle par le droit d’auteur, 12 septembre 2023 : https://www.assemblee-nationale.fr/dyn/16/textes/l16b1630_proposition-loi

<- Back to: News details Data - Databases

Every news on Data

L’intelligence artificielle générative : A qui appartiennent les données d’apprentissage et les données générées ?