Dernière tendance chez les entreprises : utiliser les données utilisateur pour entraîner l'IA. Oui, mais comment ?
Home Intelligence artificielle (IA), données à caractère personnel et consentement

Intelligence artificielle (IA), données à caractère personnel et consentement

L'entraînement des systèmes d'IA est la dernière tendance en matière d’utilisation des données personnelles. Cependant, les aspects réglementaires associés à l’utilisation et au consentement ne sont pas toujours clairs. Un sujet qui adéjà suscité de sérieuses préoccupations.
by Usercentrics
23 novembre 2023
Dernière tendance chez les entreprises : utiliser les données utilisateur pour entraîner l'IA. Oui, mais comment ?
Table des matières
Afficher plus Afficher moins

L’intelligence artificielle (IA) semble omniprésente, si bien qu’elle attire autant les fonds d’investissement que l’attention des médias. S’agit-il du dernier concept technologique à la mode, ou d’un changement radical – et continu – de notre façon de créer et travailler ? Qui possède les données d’entrée et les résultats ?

On considère que le développement de l’IA repose sur ces trois piliers : algorithmes, hardwareet données. Les données représentent le pilier le moins « abouti », à cause notamment de la question du consentement des utilisateurs.

L’évolution rapide de l’entraînement d’IA et de l’exploitation de cette technologie a soulevé des inquiétudes ayant trait au consentement des utilisateurs et aux questions éthiques concernant l’utilisation des données à caractère personnel. Si les données des utilisateurs sont utilisées pour entraîner l’IA, les utilisateurs ont-ils des droits sur les résultats (« outputs ») ? Les entreprises qui ont besoin de données d’entraînement d’IA doivent-elles obtenir le consentement des utilisateurs pour les données déjà publiées en ligne ? Pour combien de finalités précises les éditeurs d’outils ou fournisseurs de services d’IA doivent-ils obtenir le consentement explicite des utilisateurs ?

Qu'est-ce que l'intelligence artificielle (IA) ?

L’IA fait référence au développement de machines capables d’effectuer des tâches qui requièrent en général une intelligence humaine. Elle couvre des domaines tels que la reconnaissance vocale ou textuelle, la résolution de problèmes et la prise de décisions. Le développement de l’IA nécessite souvent d’alimenter les systèmes avec énormément de données pour les aider à « apprendre ».
 

Qu’est-ce que l’apprentissage automatique (machine learning – ML) ?

L’apprentissage automatique est un sous-ensemble de l’IA qui porte sur le développement d’algorithmes et de modèles, qui permettent aux ordinateurs d’apprendre à partir des données et de faire des prévisions (« predictions ») ou prendre des décisions sans programmation explicite. C’est un moyen pour les ordinateurs d’« apprendre » à partir d’exemples et d’améliorer leurs performances au fil du temps.

 

Qu’est-ce qu’un grand modèle de langage (large language model – LLM) ?

Les grands modèles de langage constituent une avancée récente de la recherche sur l’IA. Ils sont conçus pour comprendre et générer un langage de type humain. ChatGPT d’OpenAI et Bard de Google sont des exemples de LLM accessibles au public. Certaines fonctionnalités développées à l’aide de ces outils peuvent être utilisées à des fins d’optimisation des moteurs de recherche, de contenu marketing et à d’autres fins commerciales.

L’objectif de l’entraînement d’un LLM est de lui permettre de comprendre la structure, la signification et le contexte du langage humain, ce qui, pour une utilisation unique, permet de répondre plus précisément aux demandes des personnes.

Les LLM sont entraînés au moyen de grandes quantités de texte provenant de livres, d’articles, de sites web et d’autres sources. Jusqu’à présent, des problèmes de confidentialité se sont posés lorsque des contenus ont été récupérés et analysés sans le consentement des auteurs ou des propriétaires. Il est possible que les données accessibles soient sensibles, en plus d’avoir été utilisées sans consentement.

 

Qu’est-ce que l’entraînement d’IA ?

L’entraînement d’IA, également appelé entraînement de l’apprentissage automatique, fait référence au processus qui consiste, pour un système d’IA, à assimiler des schémas et faire des prévisions ou prendre des décisions en fonction des données qui lui sont fournies. L’entraînement est essentiel au développement de systèmes d’IA capables d’effectuer des tâches spécifiques, de reconnaître des modèles, de fournir des informations précises ou de prendre des décisions éclairées.

Le processus d’entraînement se déroule en plusieurs étapes. En résumé, on commence par obtenir des données pertinentes et les préparer à l’utilisation. Puis on définit ce que le modèle sera censé faire avec les ensembles de données d’entraînement de l’IA, sans oublier la saisie et l’analyse des données. Il s’agit ensuite de veiller à ce que les résultats ou les pronostics correspondent aux résultats réels ou d’améliorer leur précision, et de garantir que le modèle d’IA fonctionne sur n’importe quel ensemble de données, y compris les données réelles – pas seulement sur les données d’entraînement de l’IA. Les modèles d’IA doivent passer toutes ces étapes avant d’être appliqués à une utilisation plus large.

 

Ambiguïtés dans l’utilisation des ensembles de données d’entraînement de l’IA

Les entreprises pourraient interroger la notion d’« utilisation » des données à caractère personnel. Comment convient-il de modifier ces dernières, afin qu’elles ne soient plus considérées comme personnelles ? Par exemple, pour obtenir les données dans un format compatible avec le modèle d’entraînement, il peut être nécessaire de transformer le format dans lequel elles ont été collectées. Mais alors, une entreprise doit-elle obtenir un consentement pour utiliser des données destinées à l’entraînement des modèles d’IA alors même que la finalité est exclusivement liée à la recherche, et non au commerce ? Il est possible que personne n’y ait jamais accès, à l’exception des chercheurs.

Quelles données servent à entraîner l'IA ?

L’IA peut être entraînée au moyen d’une grande variété de données. Les besoins des formateurs dépendent des objectifs assignés au système. Par exemple, répondre à des questions, prendre des décisions, générer des graphiques ou du texte, etc.

Voici quelques catégories de données d’entraînement de l’IA habituelles :

  • Textes : issus notamment de livres, d’articles, de sites web ou de réseaux sociaux ; utilisés pour la traduction, l’analyse des sentiments, le développement des assistants virtuels de type chatbots, etc.
  • Images : tirées d’un grand nombre d’images légendées ; utilisées pour la reconnaissance d’images, la détection d’objets et la génération d’images.
  • Contenus audio : comme des mots prononcés, des sons ou des schémas acoustiques ; utilisés pour la reconnaissance vocale, les assistants vocaux et les modèles d’analyse audio.
  • Données vidéo : des séquences vidéo ; utilisées dans l’analyse vidéo, la surveillance, la génération de vidéo et pour l’apprentissage des modèles temporels.
  • Données de jeu : tirées des données de jeu et des interactions ; utilisées pour développer le jeu et la stratégie.
  • Données structurées : extraites notamment de bases de données ou de feuilles de calcul ; utilisées pour l’analyse prédictive, les systèmes de recommandation ou la détection des fraudes.
  • Données de détecteurs : données des caméras, lidars, radars, etc. ; utilisées pour les systèmes de véhicules autonomes, l’automatisation industrielle, etc.
  • Données médicales : données de l’imagerie médicale, comme les radiographies ou les IRM, dossiers des patients et données cliniques ; utilisées pour faciliter les diagnostics, les traitements et la recherche.
  • Données financières : données financières existantes issues des registres des marchés et des transactions ; utilisées pour la prévision du cours des actions, la notation de crédit et la détection des fraudes.
  • Données génomiques : issues des séquences ADN, des marqueurs génétiques et d’autres données biologiques associées ; utilisées pour la médecine personnalisée et pour améliorer la compréhension de la génétique.
  • Données de simulation : soit des données générées par les simulations ; utilisées pour apprendre comment les systèmes se comportent dans différentes conditions.

 

Inquiétudes liées au consentement concernant les différentes catégories de données d’entraînement de l’IA

Un grand nombre de ces catégories de données d’entraînement de l’IA sont explicitement visées dans les lois sur la protection des données. Si beaucoup relèvent des données à caractère personnel, d’autres sont des données PII, également appelées informations d’identification personnelle. Certaines données sont également classées dans la catégorie « sensibles » au sens des lois sur la protection de la vie privée. Cela signifie que toute consultation ou utilisation non autorisée pourrait représenter un véritable danger.

Les informations médicales, génomiques et financières constituent des exemples particulièrement importants de données à caractère personnel sensibles. Les données sensibles nécessitent généralement le consentement de l’utilisateur pour être collectées ou utilisées en vertu de la loi sur la protection des données. Toutefois, concernant les données à caractère personnel non sensibles, il se peut qu’un consentement soit exigé uniquement dans le cadre de la vente ou de l’utilisation de ces données à des fins de publicité ciblée, de profilage, etc.

Il convient de rappeler que tous les lots de données d’entraînement ne sont pas égaux. La qualité, la quantité, la diversité et l’autorisation d’utilisation peuvent considérablement varier, ce qui peut influer grandement sur l’apprentissage et les performances des systèmes. Par conséquent, le consentement peut être requis pour l’utilisation de certaines catégories de données dans le lot d’entraînement, mais pas pour d’autres. Des données mal équilibrées ou non diversifiées peuvent également produire des résultats faussés. Les résultats produits peuvent s’avérer offensants ou juridiquement précaires, par exemple recommandations discriminatoires ou identification inexacte.

En vertu de nombreuses lois sur la protection de la vie privée, les personnes concernées ont le droit de faire rectifier leurs données par l’entité qui les a collectées si ces données sont incomplètes ou inexactes. Que se passe-t-il si les données des personnes concernées sont correctes, mais utilisées pour produire des résultats inexacts ? Quels sont leurs droits ? L’utilisation de ces technologies pose de nombreuses questions complexes aux organismes de réglementation, notamment en matière d’éthique de l’automatisation.

Consentement, IA et données à caractère personnel

La société de recherche Gartner avait anticipé que, d’ici la fin de l’année 2023, 65 % de la population mondiale verrait ses données et sa vie privée protégées par des réglementations modernes. D’ici 2024, elle prévoit que ce chiffre passera à 75 %. La portée de la réglementation sur la protection de la vie privée évolue rapidement, mais moins que la technologie elle-même et la demande de données. Car la technologie contribue à tout : des avancées scientifiques aux campagnes marketing.

Mais les données ne sont pas comme l’air. Elles ne sont pas utilisables par tout le monde, du simple fait de leur présence dans notre environnement. Une grande partie des données existantes, auxquelles les entreprises souhaitent accéder, sont générées par des personnes, qui disposent donc de droits en matière de protection et d’accès à ces données. De nos jours, les consommateurs sont de plus en plus sensibles à la protection des données à caractère personnel et des droits y afférents, même s’ils ne comprennent peut-être pas les tenants et les aboutissants des systèmes d’IA et d’autres fonctions.

Avec l’adoption de nouvelles législations en matière de protection de la vie privée et des données à l’échelle internationale, les entreprises doivent redoubler d’efforts pour assumer leurs responsabilités en matière de protection des données. Des amendes potentiellement élevées, à l’instar de celles imposées par le Règlement général sur la protection des données (RGPD) de l’Union européenne, soulignent également l’importance de prendre au sérieux les réglementations sur la confidentialité et les droits des consommateurs.

 

L’origine des ensembles de données d’entraînement de l’IA est-elle importante ?

Il existe de plus en plus de sources potentielles de données utilisateur, en particulier sur Internet, comme les plateformes et les applications sociales. Pour les entreprises, il peut aussi s’avérer difficile de déterminer leurs responsabilités en matière de protection des données lorsque leur siège social se trouve à un endroit, mais qu’elles ont potentiellement des utilisateurs dans le monde entier. Une organisation peut ainsi être tenue de se conformer à plusieurs réglementations en matière de confidentialité. Bon nombre de ces lois sont extraterritoriales, ce qui signifie que l’on prend en compte la localisation des utilisateurs pour déterminer leurs droits et protections, et non celle des entreprises.

De nombreux consommateurs ne se préoccupent pas vraiment de la quantité de données qu’ils créent au quotidien, des personnes qui peuvent y accéder et des utilisations possibles. Bien que la plupart des lois sur la protection des données exigent des protections et un consentement supplémentaires pour l’accès à leurs données, les enfants peuvent ne pas prêter attention ou ne pas entièrement comprendre la notion de génération ou de traitement de données utilisateur. Ce consentement doit généralement être obtenu auprès d’un parent ou d’un tuteur légal, selon une limite d’âge déterminée par la loi applicable.

Certaines lois sur la protection des données ne couvrent pas les données à caractère personnel rendues publiques par les personnes, ce qui peut englober les données générées sur les réseaux sociaux. Les publications, les commentaires et les photos ne sont peut-être pas une préoccupation majeure pour certains. Mais qu’en est-il des messages privés ou des chats ? Ces derniers peuvent contenir des contenus bien plus sensibles.

Une fois les données collectées, idéalement avec le consentement de l’utilisateur, il convient de savoir ce qu’il advient de ces données. La plupart des lois sur la protection de la vie privée imposent au responsable du traitement (l’entité responsable de la collecte et de l’utilisation des données) d’informer les utilisateurs des données qui seront collectées et des finalités de cette collecte. En cas de modification de ces finalités, le responsable du traitement doit en informer les utilisateurs et obtenir un nouveau consentement en vertu de nombreuses lois sur la protection de la vie privée. En ce qui concerne l’entraînement de l’IA, un grand nombre de détails granulaires pourraient être nécessaires et évoluer rapidement.

Difficultés liées à l'obtention du consentement des utilisateurs en matière d'IA

Étant donné que les systèmes d’IA sont souvent encore expérimentaux et que leurs résultats sont imprévisibles, certaines exigences en matière de protection des données sont difficiles à respecter. Les entreprises peuvent informer les utilisateurs des finalités d’utilisation des données, mais il est possible que ces dernières soient finalement utilisées ou modifiées à des fins différentes, ou que les résultats découlant de leur utilisation soient distincts.

Bien que les utilisateurs soient censés être avertis avant la mise en place d’une nouvelle finalité, les plus scrupuleux des utilisateurs peuvent passer à côté du changement avant qu’il ne se produise. Si les données sont analysées en grande quantité en temps réel, les mécanismes traditionnels d’obtention du consentement des utilisateurs, tels que les bandeaux cookies, peuvent ne pas être assez rapides, granulaires ou suffisants.

Les systèmes d’IA orientés utilisateur peuvent être potentiellement trompeurs, auquel cas les utilisateurs fournissent des informations qu’ils n’avaient pas anticipées. Les systèmes peuvent également faire apparaître des liens plus sophistiqués et plus nébuleux entre les points de données, ce qui permet l’identification et le profilage à un niveau inédit. Ainsi, la plupart des données seraient considérées comme des données d’identification ou sensibles. Les exigences actuelles en matière de consentement peuvent ne pas répondre de manière adéquate à ce problème.

Bien que les fonctions de manipulation de l’interface utilisateur et de l’expérience utilisateur, communément appelées « interfaces truquées » (dark patterns), soient de plus en plus pointées du doigt, voire réglementées dans certains cas, elles tendent à se concentrer sur des tactiques déjà connues. Une conception réactive pourrait permettre le développement de nouvelles méthodes plus sophistiquées de manipulation des utilisateurs.

La polémique Zoom et le consentement de l'utilisateur

Zoom, plateforme de visioconférence populaire, a mis à jour ses conditions de service (terms of service – TOS) en mars 2023. Jusque-là, rien d’inhabituel pour une entreprise. Cependant, deux sections semblaient avoir de grandes implications pour les autorisations de Zoom concernant les données utilisateur, appelées « données générées par le service », qui comprennent la télémétrie, l’utilisation du produit, les diagnostics, ainsi que les données ou le contenu similaires générés par l’utilisation de Zoom et que l’entreprise collecte au cours de l’utilisation de la plateforme.

Les conditions de service actualisées accordent à Zoom tous les droits sur les données générées par le service, y compris les droits de modification, de distribution, de traitement, de partage, de gestion, et de conservation des données « à quelque fin que ce soit, dans la mesure et de la manière autorisées par la loi applicable ». La plateforme a explicitement mentionné son droit d’utiliser les données utilisateur pour l’apprentissage automatique et l’intelligence artificielle, y compris les modèles et algorithmes d’entraînement et de réglage.

Ainsi, Zoom pouvait collecter une variété de données utilisateur par le biais de l’utilisation de sa plateforme et les utiliser à de nombreuses fins, y compris à l’entraînement de l’IA, sans devoir obtenir le consentement explicite des utilisateurs ni leur donner la possibilité de refuser.

Cela peut être légal en vertu des lois de protection de la vie privée en vigueur aux États-Unis, où le siège social de Zoom est situé (où il n’existe pas une seule et unique loi fédérale, mais un certain nombre de lois applicables selon l’État concerné). Une chose est sûre, c’est illégal en vertu du RGPD de l’UE, qui exige notamment que le consentement soit« informé » (Considérant 32 du RGPD).

En vertu du RGPD, pour que le consentement soit valide, il doit également être obtenu préalablement à la collecte des données et doit être notifié aux utilisateurs de manière claire et compréhensible. Les conditions de service de Zoom sont assez floues, tout comme celles de nombreuses autres entreprises.

 

La réponse de Zoom à la controverse sur le changement des conditions de service

La découverte et la couverture médiatique de ce changement des conditions de service ont provoqué un véritable tollé. Les entreprises craignaient que les informations exclusives issues de réunions confidentielles puissent être utilisées sans consentement, ou que Zoom s’approprie leur contenu créatif, comme des interviews pour des vidéos ou des podcasts.

Certaines entreprises américaines utilisant Zoom à des fins médicales ont soulevé de profondes inquiétudes concernant des violations de la loi HIPAA (Health Insurance Portability and Accountability Act) sur la protection de la vie privée. Ces inquiétudes concernaient notamment la possibilité que l’entreprise possède et puisse utiliser le contenu des séances de thérapie, par exemple. Bien que Zoom n’ait peut-être même pas envisagé ces utilisations des données, la perception du public est redoutable.

En réponse, Zoom a publié une nouvelle mise à jour des conditions de service pour clarifier l’utilisation des données, en indiquant que l’entreprise n’entraînerait pas ses modèles d’IA à l’aide des contenus audio, vidéo ou de chat des consommateurs sans leur consentement préalable.

La ligne suivante a également été ajoutée à la section 10.2 : « Zoom n’utilise aucun Contenus client audio,vidéo, chat, partage d’écran, pièces jointes ou autres communications comme le Contenu client (tel que les résultats des sondages, les tableaux blancs et les réactions) pour entraîner les modèles d’intelligence artificielle de Zoom ou de tiers. »

Certaines inquiétudes demeurent toutefois quant aux nombreuses autorisations apparemment accordées à Zoom en cas d’obtention du consentement et à la notion de « contenu généré par le service » qui gagnerait à être clarifiée.

 

Autres défis liés aux entreprises technologiques, aux conditions de service et au consentement

Point important, Zoom n’est pas un cas isolé. D’autres entreprises ont recours à l’IA pour certaines fonctionnalités de leurs plateformes. Chez Google, elle sert à créer des transcriptions des appels Google Meet (avec des résultats de qualité variable). En 2022, Meta (société mère de Facebook) a également été accusée de « cacher» le consentement pour l’utilisation des données utilisateur à des fins de publicité personnalisée dans ses conditions de service. En janvier 2023, l’entreprise s’est vu interdire l’utilisation de données à caractère personnel à des fins publicitaires avec ce type de « consentement », dont la plupart des utilisateurs n’avaient pas connaissance. Meta a depuis annoncé son intention de changer de modèle et de demander le consentement pour la publicité au sein de l’UE.

De la même façon, d’autres entreprises ont été accusées d’user de tactiques non transparentes. Certaines ont enfoui le « consentement » ou les autorisations douteuses dans leurs conditions de service, sachant pertinemment que peu d’utilisateurs les lisent en détail. Il s’agit d’une pratique douteuse, voire illégale, car de nombreuses réglementations exigent que les utilisateurs soient informés de leur droit de donner leur consentement ou non.

La nécessité de fournir des informations plus claires concernant l’entraînement de l’IA, le contenu généré par les utilisateurs sur les plateformes et le consentement est bien présente, et elle ne cessera de s’intensifier au fil du temps.

Comment les entreprises peuvent-elles utiliser les données de manière éthique avec un consentement utilisateur valable ?

Les entreprises qui acquièrent des données pour l’entraînement de l’IA ou d’autres utilisations peuvent et doivent s’assurer que le consentement a bien été obtenu auprès des sources ou des utilisateurs. Dans certains cas, il peut s’agir d’une exigence afin de pouvoir nouer une relation commerciale avec des partenaires ou des fournisseurs.

Le consentement devient également un élément important de la stratégie de monétisation. Par exemple, les annonceurs premium insistent de plus en plus sur la preuve de consentement à la collecte des données utilisateur avant de collaborer avec les développeurs d’applications.

Les entreprises qui collectent des données utilisateur via leurs propres plateformes ou utilisateurs pour l’entraînement de l’IA ou d’autres utilisations, ont la responsabilité directe d’obtenir un consentement valable et de se conformer aux lois sur la protection des données. Il existe plusieurs façons pour les entreprises de respecter la conformité et d’obtenir un consentement valable.

Transparence : les lois sur la protection de la vie privée exigent des notifications claires et accessibles, et les entreprises doivent fournir aux utilisateurs des informations compréhensibles sur la façon dont les données utilisateur seront utilisées et traitées, y compris dans le cadre de l’entraînement de l’IA. Lorsque les finalités d’utilisation des données à caractère personnel changent, les entreprises doivent mettre à jour leurs déclarations de confidentialité, informer les utilisateurs et, en vertu de nombreuses lois sur la protection de la vie privée, renouveler le consentement pour les nouvelles finalités d’utilisation des données à caractère personnel.

Consentement granulaire : les utilisateurs doivent être en mesure d’accepter ou de refuser la collecte et le traitement de leurs données à caractère personnel à un niveau détaillé, en approuvant par exemple certains types de traitement (comme la publicité ciblée ou l’entraînement de l’IA), mais pas d’autres (comme la vente des données). Cela permet également de s’assurer que les personnes concernées sont informées, ce qui constitue une exigence de validité du consentement en vertu de la plupart des lois sur la protection de la vie privée.

Mécanismes conviviaux : à l’instar des exigences de clarté et d’accessibilité des notifications, il doit être aisé pour les utilisateurs de comprendre et d’accéder à l’option permettant d’accepter ou de refuser le consentement. Les renseignements destinés à informer les utilisateurs sur le traitement des données doivent être disponibles, ainsi que la possibilité de consentir ou de refuser à un niveau granulaire. En outre, il doit être aussi aisé de refuser le consentement que de l’accepter. En vertu de nombreuses lois sur la protection de la vie privée, les utilisateurs doivent être en mesure de modifier facilement leurs préférences de consentement.

Connaissance des réglementations : les lois sur la protection des données varient selon les pays/régions, avec des exigences et des modèles de consentement différents. Il est crucial pour les entreprises de savoir quelles lois respecter et de quelle façon. Il est important de consulter ou de nommer un juriste qualifié ou un expert en protection de la vie privée, par exemple un délégué à la protection des données (DPD), voire obligatoire, au titre de certaines lois sur la protection de la vie privée. Ce rôle permet d’établir des directives et des processus, de mettre à jour les opérations et de gérer la sécurité des données et du traitement.

Quels sont les droits des utilisateurs de plateformes en ligne sur leurs données ?

Les droits des consommateurs concernant leurs données à caractère personnel dépendent d’un certain nombre de facteurs, notamment du lieu de résidence de l’utilisateur et de la législation en matière de protection de la vie privée en vigueur, de l’objet de la plateforme et des données que l’utilisateur fournit ou génère sur celle-ci, ainsi que des conditions de service de la plateforme.

Dans l’Union européenne, les entreprises qui collectent et traitent des données à caractère personnel doivent obtenir le consentement de l’utilisateur au préalable. Cela s’applique également aux plateformes de réseaux sociaux, aux blogs, aux sites web gouvernementaux ou aux boutiques d’e-commerce. Les données des utilisateurs peuvent être collectées pour analyser l’utilisation d’un site et améliorer son fonctionnement, effectuer des achats en ligne, afficher des publicités ou entraîner des modèles d’IA.

En vertu de plusieurs réglementations, les plateformes internationales utilisées pour les activités financières ou les soins de santé sont soumises à des exigences plus strictes en matière de protection de la vie privée et de sécurité en raison du type d’informations gérées.

Dans certain(e)s pays/régions, il est toujours autorisé d’afficher un bandeau cookies indiquant que que vous consentez à la collecte et à l’utilisation de vos données personnelles en continuant à utiliser le site ou le service.. En revanche, dans l’UE et dans d’autres juridictions, ce n’est pas acceptable et un consentement granulaire est requis.

Intelligence artificielle et cookies

L’utilisation des cookies en ligne a tendance à baisser depuis que des technologies plus récentes et performantes, et remplissant les mêmes fonctions, sont apparues. À présent, la question porte moins sur la façon dont l’IA utilise ou peut utiliser les cookies, mais davantage sur la manière dont l’IA pourrait accélérer le remplacement des cookies.

Apple et Mozilla ont bloqué les cookies tiers et Google prévoit de les rendre complètement obsolètes. Les nouvelles techniques permettent également d’améliorer la protection des données et le consentement, et peuvent aboutir àdes données utilisateur de meilleure qualité.

Les modèles de consentement aux cookies actuels peuvent être insuffisants pour couvrir l’utilisation de l’IA. En effet, les systèmes d’IA sont capables d’analyser de grandes quantités de données en temps réel, tandis que d’autres outils analysent les données liées aux cookies actifs au fil du temps. Pour donner son consentement avant le début de la collecte ou de l’utilisation des données avec les fenêtres contextuelles actuelles, il faudrait que l’utilisateur soit bombardé de bannières de consentement, trop rapides et nombreuses pour pouvoir être traitées par un humain.

Les modèles d’IA peuvent proposer des publicités plus efficaces ou des expériences utilisateur personnalisées sans dépendre de la collecte de données d’identification personnelle. En effet, ces modèles analysent très rapidement de grandes quantités de données et regroupent les personnes en différents publics selon leur comportement. Si le système n’a pas besoin de collecter les données utilisateur, le consentement peut ne pas être nécessaire, au moins pour la collecte des données.

Toutefois, les lois et les bonnes pratiques continueraient probablement d’exiger que les utilisateurs soient informés de la manière dont leurs comportements peuvent être suivis et analysés, et des finalités de cette analyse (publicités personnalisées ou expériences d’achat, par exemple). Il faut dire que les données à caractère personnel des personnes ne pourraient pas être vendues si elles n’avaient jamais été collectées.

Qu'est-ce que la loi européenne sur l'IA ?

La loi européenne sur l’IA est une loi sur l’intelligence artificielle proposée par la Commission européenne. Il s’agit de la première loi générale sur l’IA dans le monde. L’objectif est d’équilibrer les utilisations positives de la technologie tout en atténuant les utilisations négatives et en codifiant les droits. Elle vise également à répondre à de nombreuses questions actuelles et futures sur le développement de l’IA et à faire de la loi une norme mondiale, à l’instar du RGPD.

La loi classerait les applications de l’IA dans l’une des catégories suivantes :

Risque inacceptable : IA présentant des risques inacceptables devant être entièrement interdite, comme l’outil de notation sociale du gouvernement chinois.

Risque élevé : IA comportant des risques potentiels, autorisée sous réserve de la conformité aux exigences de l’IA et de l’évaluation de conformité prévue, comme un outil classant des candidats à l’emploi sur la base d’une analyse automatique de leur CV.

Risque moyen : IA comportant des obligations de transparence spécifiques, autorisée, mais soumise à des exigences en matière d’informations, comme des bots pouvant être utilisés pour usurper l’identité.

Risque minimal ou nul : IA sans risques notables, autorisée sans restrictions.

Dispositions relatives au consentement dans la loi sur l'IA

La loi sur l’IA en est actuellement à un stade préliminaire et peut changer avant d’être promulguée. À l’heure actuelle, le consentement des utilisateurs ainsi que la confidentialité et la protection des données apparaissent dans ses dispositions à plusieurs niveaux :

Risque élevé : un consentement explicite est requis pour l’utilisation de systèmes d’IA à haut risque, notamment pour les infrastructures critiques, l’emploi, la santé et l’application de la loi.

Transparence : les fournisseurs d’IA doivent apporter des informations claires sur l’objectif, les capacités et les limites des systèmes afin de garantir que les utilisateurs sont informés pour prendre des décisions et comprendre les conséquences potentielles sur leurs droits.

Droit d’explication : les utilisateurs ont le droit d’obtenir des explications pertinentes sur les décisions des systèmes d’IA.

Droit de contrôle de l’utilisateur : les utilisateurs doivent avoir la possibilité de refuser, de désactiver ou de désinstaller les systèmes d’IA, en particulier lorsque des droits ou intérêts fondamentaux sont en jeu (en vertu de certaines lois sur la protection de la vie privée, les utilisateurs ont le droit de refuser la « prise de décision automatisée »).

Protection des données et de la vie privée : la loi sur l’IA met l’accent sur la nécessité de minimiser les données, de limiter les finalités et de garantir la protection des données à caractère personnel lors de l’utilisation des systèmes d’IA, et s’aligne sur les réglementations existantes en matière de protection des données, telles que le RGPD.

Conclusion : quel avenir pour l'IA et le consentement ?

L’intelligence artificielle n’est pas près de disparaître, et ses capacités et cas d’utilisation potentiels ne cesseront d’évoluer. Cette évolution rapide constitue un défi pour la réglementation, car les technologies se développent bien plus vite que le processus de création et de réforme des lois.

Cependant, les utilisateurs ne doivent pas être confrontés au principe de « caveat emptor » (ce serait à eux d’assumer les risques), en particulier en ligne, pour ce qui est des nouvelles utilisations de leurs données à caractère personnel et des défis liés à la protection de la vie privée. Les organismes de réglementation doivent élaborer et mettre à jour des lois claires et complètes, mais suffisamment flexibles pour pouvoir être interprétées et appliquées, aujourd’hui comme demain.

Les entreprises doivent identifier clairement les réglementations en matière de protection de la vie privée applicables, et comprendre leurs contenus et leurs conséquences sur leurs activités. Il conviendra de revoir régulièrement ces aspects et de communiquer clairement dessus, au fur et à mesure que les activités de l’entreprise changent. Le fait d’essayer d’introduire subrepticement des modifications aux conditions d’utilisation ou d’utiliser les données collectées à de nouvelles fins sans renouveler le consentement de l’utilisateur est le parfait moyen de nuire à la réputation de la marque. Dans plusieurs pays, ce sont des actes illégaux. À mesure que les consommateurs développent leurs connaissances en matière de données et de confidentialité, les entreprises devront redoubler d’attention quant à la clarté des informations qu’elles fournissent sur la collecte et l’utilisation des données.

Les entreprises doivent mettre en œuvre de bonnes pratiques telles que l’intégration des principes de protection des données dès la phase de conception, pour s’assurer qu’elles respectent les personnes, source de leurs données, et qu’elles se conforment à la loi. Cela permettra également de garantir l’obtention du consentement et de faire en sorte que la collecte et l’utilisation des données respectent les marges de tolérance pour chaque opération, que ce soit l’exécution de commandes e-commerce ou l’entraînement de nouveaux modèles d’IA.

L’IA est la dernière technologie en date à apporter de nouveaux défis aux consommateurs, aux entreprises et aux organismes de régulation, mais d’autres suivront. Toutefois, les bonnes pratiques restent les mêmes et continuent de servir les intérêts des entreprises et des consommateurs pour assurer la conformité, instaurer la confiance avec les utilisateurs et développer avec succès les entreprises (ou des avancées scientifiques).

Pour en savoir plus, contactez nos spécialistes dès aujourd’hui.

Foire aux questions

Qu'est-ce que l'intelligence artificielle (IA) ?

L’intelligence artificielle est le développement de machines capables d’effectuer des tâches qui requièrent en général une intelligence humaine. Elle couvre des domaines tels que la reconnaissance vocale ou textuelle, la résolution de problèmes et la prise de décisions. Le développement de l’IA nécessite souvent d’alimenter les systèmes avec énormément de données pour les aider à « apprendre ».

Qu'est-ce que l'apprentissage automatique (machine learning – ML) ?

L’apprentissage automatique est un sous-ensemble de l’IA qui porte sur le développement d’algorithmes et de modèles, qui permettent aux ordinateurs d’apprendre à partir des données et de faire des prévisions (« predictions ») ou prendre des décisions sans programmation explicite. C’est un moyen pour les ordinateurs d’« apprendre » à partir d’exemples et d’améliorer leurs performances au fil du temps.

Qu'est-ce qu'un grand modèle de langage (large language model – LLM) ?

Les grands modèles de langage constituent une avancée récente de la recherche sur l’IA. Ils sont conçus pour comprendre et générer un langage de type humain. ChatGPT d’OpenAI et Bard de Google sont des exemples de LLM accessibles au public. Certaines fonctionnalités développées à l’aide de ces outils peuvent être utilisées à des fins d’optimisation des moteurs de recherche, de contenu marketing et à d’autres fins commerciales.

Comment les systèmes d'IA sont-ils entraînés ?

L’entraînement de l’IA consiste, pour un système d’IA, à assimiler des schémas et faire des prévisions ou prendre des décisions en fonction des données qui lui sont fournies. L’entraînement est essentiel au développement de systèmes d’IA capables d’effectuer des tâches spécifiques, de reconnaître des modèles, de fournir des informations précises ou de prendre des décisions éclairées.

Voici une description détaillée du processus d’entraînement de l’IA :

  • Collecte de données : La première étape consiste à recueillir des données pertinentes et représentatives. Elles servent de données d’entrée pour l’entraînement du modèle d’IA. La qualité et la diversité des données ont un impact direct sur les performances du modèle.
  • Prétraitement des données : Les données brutes nécessitent souvent un nettoyage, une transformation et une structuration pour s’adapter au processus d’entraînement. Cette étape consiste à éliminer les éléments non désirés, à gérer les valeurs manquantes et à standardiser les données.
  • Ingénierie des caractéristiques : L’ingénierie des caractéristiques englobe la sélection et la transformation des attributs (caractéristiques) pertinents dans les données et utilisés par le modèle pour faire des prévisions. Une ingénierie des caractéristiques efficace peut avoir une influence significative sur les performances du modèle.
  • Sélection du modèle : En fonction du problème, un algorithme ou un modèle d’apprentissage automatique adapté est choisi. Chaque modèle a des capacités différentes et est spécialisé dans certains types de tâches, tels que la régression, la classification ou le regroupement.
  • Entraînement : C’est le cœur du processus. Pendant la phase d’entraînement, le modèle reçoit les données d’entrée ainsi que les données de sortie souhaitées correspondantes. Le modèle ajuste ses paramètres internes de manière itérative pour minimiser la différence entre ses prévisions et les résultats réels.
  • Fonction de perte : La fonction de perte est utilisée pour quantifier la mesure dans laquelle les prévisions du modèle correspondent aux résultats réels. L’objectif de l’entraînement est de minimiser cette fonction de perte, en apprenant globalement au modèle comment faire de meilleures prévisions au fil du temps.
  • Optimisation : Des techniques d’optimisation, telles que l’algorithme du gradient (gradient descent), sont utilisées pour affiner les paramètres du modèle de manière à minimiser la fonction de perte.
  • Validation : Processus qui vise à garantir que le modèle entraîné traite correctement les nouvelles données. Un ensemble de données de validation distinct est utilisé pour évaluer ses performances. Cette étape permet d’éviter le surapprentissage, lorsque le modèle fonctionne bien sur les données d’entraînement, mais pas sur les nouvelles données.
  • Réglage des hyperparamètres : De nombreux modèles disposent d’hyperparamètres, soit des paramètres influant sur le processus d’apprentissage. Ces paramètres doivent être ajustés pour trouver l’équilibre optimal entre un sous-apprentissage et un surapprentissage.
  • Test et déploiement : Une fois que le modèle fonctionne correctement sur les données d’entraînement et de validation, il peut être testé sur un ensemble de données test distinct pour évaluer ses performances réelles. Si les résultats sont satisfaisants, le modèle peut être déployé pour utilisation.

Le processus d’entraînement de l’IA implique une combinaison de données, d’algorithmes et d’optimisation itérative pour créer un modèle capable de faire des prévisions précises ou de prendre des décisions adaptées. Il convient de noter que l’entraînement d’un modèle d’IA nécessite une expertise, une évaluation minutieuse et une compréhension des problématiques spécifiques au domaine pour garantir des résultats efficaces et fiables.

Quelles données à caractère personnel utiliser pour entraîner les systèmes d'IA ?

L’IA peut être entraînée au moyen de nombreuses catégories de données, en fonction des objectifs du système (répondre à des questions, prendre des décisions, générer des graphiques ou du texte, etc.).

Voici quelques catégories de données d’entraînement de l’IA habituelles :

  • Textes : issus notamment de livres, d’articles, de sites web ou de réseaux sociaux ; utilisés pour la traduction, l’analyse des sentiments, le développement des assistants virtuels de type chatbots, etc.
  • Images : tirées d’un grand nombre d’images légendées ; utilisées pour la reconnaissance d’images, la détection d’objets et la génération d’images.
  • Contenus audio : comme des mots prononcés, des sons ou des schémas acoustiques ; utilisés pour la reconnaissance vocale, les assistants vocaux et les modèles d’analyse audio.
  • Données vidéo : des séquences vidéo ; utilisées dans l’analyse vidéo, la surveillance, la génération de vidéo et pour l’apprentissage des modèles temporels.
  • Données de jeu : tirées des données de jeu et des interactions ; utilisées pour développer le jeu et la stratégie.
  • Données structurées : extraites notamment de bases de données ou de feuilles de calcul ; utilisées pour l’analyse prédictive, les systèmes de recommandation ou la détection des fraudes.
  • Données de détecteurs : données des caméras, lidars, radars, etc. ; utilisées pour les systèmes de véhicules autonomes, l’automatisation industrielle, etc.
  • Données médicales : données de l’imagerie médicale, comme les radiographies ou les IRM, dossiers des patients et données cliniques ; utilisées pour faciliter les diagnostics, les traitements et la recherche.
  • Données financières : données financières existantes issues des registres des marchés et des transactions ; utilisées pour la prévision du cours des actions, la notation de crédit et la détection des fraudes.
  • Données génomiques : issues des séquences ADN, des marqueurs génétiques et d’autres données biologiques associées ; utilisées pour la médecine personnalisée et pour améliorer la compréhension de la génétique.
  • Données de simulation : soit des données générées par les simulations ; utilisées pour apprendre comment les systèmes se comportent dans différentes conditions.

Quels sont les problèmes liés à l'utilisation des données à caractère personnel dans le cadre de l'entraînement de l'IA ?

La préoccupation majeure à l’égard de l’utilisation des données à caractère personnel pour les ensembles de données d’entraînement de l’IA est de savoir si le consentement des personnes auxquelles les données appartiennent a été obtenu ou non. Les données à caractère personnel se distinguent par leur type et sensibilité. Certaines données peuvent être utilisées pour identifier une personne, d’autres peuvent être dangereuses en cas d’utilisation abusive.

Les informations médicales et financières constituent de parfaits exemples de données à caractère personnel sensibles. Les données sensibles nécessitent généralement le consentement de l’utilisateur pour être collectées ou utilisées en vertu de la loi sur la protection des données. Toutefois, concernant les données à caractère personnel non sensibles, il se peut qu’un consentement soit exigé uniquement dans le cadre de la vente ou de l’utilisation de ces données à des fins de publicité ciblée, de profilage, etc.

Tous les lots de données d’entraînement ne sont pas égaux. La qualité, la quantité, la diversité et l’autorisation d’utilisation peuvent considérablement varier, ce qui peut influer grandement sur l’apprentissage et les performances des systèmes. Des données mal équilibrées ou non diversifiées peuvent également produire des résultats faussés. Les résultats produits peuvent s’avérer offensants ou juridiquement précaires, par exemple recommandations discriminatoires ou identification inexacte.

Quel consentement de l'utilisateur est nécessaire pour utiliser les données à caractère personnel dans le cadre de l'entraînement de l'IA ?

Un certain nombre de facteurs déterminent si le consentement de l’utilisateur est nécessaire pour l’utilisation des données à caractère personnel dans le cadre de l’entraînement de l’IA. Comme dans le cas de la polémique autour de Zoom, l’entraînement de l’IA peut dépendre des conditions de service d’une entreprise. Si tel est le cas, il est possible qu’aucun consentement supplémentaire ne soit nécessaire. Cependant, dans certains pays, cela n’est pas suffisant, comme au sein de l’UE en vertu du RGPD. Dans ce cas, un consentement explicite doit être obtenu pour l’utilisation des données à caractère personnel dans les ensembles de données d’entraînement de l’IA, et les utilisateurs doivent être informés de cette utilisation avant que les données ne soient collectées à cette fin.

Les entreprises doivent savoir où se trouvent leurs clients et utilisateurs, connaître les lois en matière de protection de la vie privée applicables et adapter leurs activités liées à la protection des données en conséquence. Il se peut que les entreprises obtiennent déjà le consentement pour la collecte de données à caractère personnel. Toutefois, en vertu de nombreuses lois sur la protection de la vie privée, elles ne peuvent pas simplement ajouter « entraînement de l’IA » dans les finalités de la collecte et l’utilisation de données sans avoir préalablement mis à jour leur déclaration de confidentialité et obtenu le consentement pour cette nouvelle utilisation. Dans de nombreux pays, les utilisateurs doivent également être en mesure de refuser l’utilisation de leurs données à un niveau granulaire, ce qui peut inclure l’entraînement de l’IA.

Certaines lois sur la protection des données ne couvrent pas les données à caractère personnel rendues publiques par les personnes, ce qui peut englober les données générées sur les réseaux sociaux. Toutefois, les conséquences sur l’utilisation des données à caractère personnel dans le cadre de l’entraînement de l’IA ne sont pas encore très claires. Les publications, les commentaires ou les photos (entre autres) sont plus susceptibles d’être considérés comme publics que les messages privés, par exemple.

Le consentement de l'utilisateur peut-il être obtenu pour l'utilisation de l'IA ?

Les systèmes d’IA sont souvent encore expérimentaux et les résultats sont imprévisibles. Les entreprises peuvent informer les utilisateurs de ce pour quoi ils souhaitent utiliser les données, généralement à l’avance, mais il est possible que ces dernières soient finalement utilisées ou modifiées à des fins différentes, ou que les résultats découlant de leur utilisation soient distincts.

Si les données sont analysées en grande quantité en temps réel, les mécanismes traditionnels d’obtention du consentement des utilisateurs, tels que les bandeaux cookies, peuvent ne pas être assez rapides, granulaires ou suffisants.

Les systèmes d'IA peuvent-ils causer des problèmes de protection des données ?

Les systèmes d’IA orientés utilisateur peuvent être potentiellement trompeurs, auquel cas les utilisateurs fournissent des informations qu’ils n’avaient pas anticipées. Les systèmes peuvent également faire apparaître des liens plus sophistiqués et plus nébuleux entre les points de données, ce qui permet l’identification et le profilage à un niveau inédit. Ainsi, la plupart des données seraient considérées comme des données d’identification ou sensibles. Les exigences actuelles en matière de consentement peuvent ne pas répondre de manière adéquate à ce problème.

Bien que les fonctions de manipulation de l’interface utilisateur et de l’expérience utilisateur trompeuses, communément appelées « interfaces truquées » soient de plus en plus pointées du doigt, voire réglementées dans certains cas, elles tendent à se concentrer sur des tactiques déjà connues. Une conception réactive pourrait permettre le développement de nouvelles méthodes plus sophistiquées de manipulation des utilisateurs.

L'entraînement de l'IA a-t-il des conséquences sur le consentement lié aux cookies ?

L’utilisation de l’IA peut accélérer la disparition des cookies, en particulier des cookies tiers, car elle propose des fonctionnalités fournissant de meilleurs résultats et ne demandant pas nécessairement la collecte de données à caractère personnel.

Les modèles de consentement aux cookies actuels peuvent être insuffisants pour couvrir l’utilisation de l’IA. En effet, les systèmes d’IA sont capables d’analyser de grandes quantités de données en temps réel, tandis que d’autres outils analysent les données liées aux cookies actifs au fil du temps. Pour donner son consentement avant le début de la collecte ou de l’utilisation des données avec les fenêtres contextuelles actuelles, il faudrait que l’utilisateur soit bombardé de bannières de consentement, trop rapides et nombreuses pour pouvoir être traitées par un humain.

Comment les entreprises doivent-elles obtenir le consentement pour l'entraînement de l'IA ?

Les entreprises qui collectent des données utilisateur via leurs propres plateformes ou utilisateurs pour l’entraînement de l’IA ou d’autres utilisations ont la responsabilité directe d’obtenir un consentement valable et de se conformer aux lois sur la protection des données. Les bonnes pratiques d’obtention du consentement dans le cadre de l’entraînement de l’IA sont les mêmes que pour la conformité de la protection des données.

  • Donner aux utilisateurs une notification claire et accessible à l’avance sur la façon dont les données seront utilisées et obtenir un nouveau consentement en cas de modification des finalités.
  • Garantir que les utilisateurs peuvent accepter ou refuser le consentement à un niveau granulaire, c’est-à-dire pour toutes les utilisations ou seulement pour certaines. Il doit être aussi facile de refuser que d’accepter, et les utilisateurs doivent pouvoir modifier facilement leurs préférences de consentement ou retirer leur consentement ultérieurement.
  • Connaître les lois applicables sur la protection des données et les responsabilités des entreprises. Examiner régulièrement la collecte et le traitement des données pour s’assurer que les notifications et les informations de consentement sont à jour.

Le RGPD couvre-t-il l'intelligence artificielle et le consentement ?

Le Règlement général sur la protection des données ne mentionne pas explicitement l’intelligence artificielle, mais comme plusieurs autres lois sur la protection des données, il fait référence à la « prise de décision automatisée », qui peut inclure des systèmes d’IA.

L’IA serait traitée comme toute autre utilisation de données à caractère personnel, c’est-à-dire que les utilisateurs doivent être informés de l’utilisation demandée avant que les données à caractère personnel ne soient collectées pour cette utilisation, et le consentement doit être obtenu pour cette utilisation avant toute collecte ou tout traitement.

Qu'est-ce que la loi européenne sur l'IA ?

La loi européenne sur l’IA est une loi sur l’intelligence artificielle proposée par la Commission européenne. Les objectifs de cette loi sont les suivants :

  • équilibrer les utilisations positives et les risques liés à la technologie ;
  • limiter les risques actuels et futurs, et les utilisations négatives de la technologie ;
  • codifier les droits des consommateurs ;
  • clarifier les questions actuelles et futures sur le développement de l’IA ;
  • faire de ladite loi une norme mondiale (à l’instar du RGPD).

La loi classerait les applications de l’IA dans l’une des catégories suivantes :

  • risque inacceptable : interdiction totale d’utilisation ;
  • risque élevé : utilisation autorisée sous réserve d’évaluation et de conformité ;
  • risque moyen : utilisation autorisée sous réserve du respect des obligations de transparence ;
  • risque minime ou nul : autorisation sans restrictions si aucun risque notable n’est identifié.

Usercentrics ne fournit pas de conseils juridiques et les informations sont fournies uniquement à des fins pédagogiques. Nous vous recommandons de toujours faire appel à un conseiller juridique qualifié ou à des spécialistes de la protection de la vie privée concernant les questions et activités liées à la confidentialité et à la protection des données.