Artificial Intelligence (AI)

Building Ethical AI Starts with the Data Team — Here’s Why | by Barr Moses | Mar, 2024

Written by smirow

GenAI est un bourbier éthique. Quelle responsabilité les responsables des données ont-ils pour s’y retrouver ? Dans cet article, nous examinons la nécessité d’une IA éthique et pourquoi l’éthique des données est une éthique de l’IA.

Barr Moïse
Vers la science des données
Image fournie par aniqpixel sur Shutterstock.

Dans la course à la technologie, avancer rapidement a toujours été la marque du succès futur.

Malheureusement, agir trop vite signifie également risquer de négliger les dangers qui nous attendent en coulisses.

C'est une histoire vieille comme le monde. Une minute, vous séquencez les gènes de moustiques préhistoriques, la minute suivante, vous ouvrez un parc à thème sur les dinosaures et concevez le premier hyperloop raté au monde (mais certainement pas le dernier).

Quand il s’agit de GenAI, la vie imite l’art.

Même si nous souhaitons considérer l’IA comme une quantité connue, la dure réalité est que même les créateurs de cette technologie ne sont pas totalement sûrs de son fonctionnement.

Après de multiples embrouilles en matière d'IA de la part d'organismes comme United Healthcare, Google et même les tribunaux canadiens, il est temps de déterminer où nous nous sommes trompés.

Maintenant, pour être clair, je pense que GenAI (et l’IA en général) finalement être essentiel pour chaque secteur, qu'il s'agisse d'accélérer les flux de travail d'ingénierie ou de répondre aux questions courantes. Toutefois, afin de réaliser la valeur potentielle de l’IA, nous devrons d’abord commencer à réfléchir de manière critique comment nous développons des applications d’IA – et le rôle que les équipes de données y jouent.

Dans cet article, nous examinerons trois préoccupations éthiques liées à l'IA, la manière dont les équipes de données sont impliquées et ce que vous pouvez faire en tant que leader des données aujourd'hui pour fournir une IA plus éthique et plus fiable pour demain.

Lorsque je discutais avec mon collègue Shane Murray, ancien vice-président directeur des données et des informations du New York Times, il a partagé l'une des premières fois où il a été confronté à un véritable dilemme éthique. Lors du développement d'un modèle ML pour les incitations financières au New York Times, une discussion a été soulevée sur les implications éthiques d'un modèle d'apprentissage automatique qui pourrait déterminer les remises.

À première vue, un modèle ML pour les codes de réduction semblait être une demande assez anodine tout bien considéré. Mais aussi innocent que cela puisse paraître en automatisant la suppression de quelques codes de réduction, le fait de supprimer l'empathie humaine de ce problème commercial a créé toutes sortes de considérations éthiques pour l'équipe.

La course à l’automatisation d’activités simples mais traditionnellement humaines semble être une décision exclusivement pragmatique – une simple binaire d’amélioration ou de non-amélioration de l’efficacité. Mais dès que vous supprimez le jugement humain de toute équation, qu’une IA soit impliquée ou non, vous perdez également la capacité de gérer directement l’impact humain de ce processus.

C'est un vrai problème.

Lorsqu’il s’agit du développement de l’IA, il y a trois principales considérations éthiques :

1. Biais du modèle

Cela nous amène au cœur de notre discussion au New York Times. Le modèle lui-même aura-t-il des conséquences imprévues qui pourraient avantager ou désavantager une personne par rapport à une autre ?

Le défi ici est de concevoir votre GenAI de telle manière que, toutes autres considérations étant égales par ailleurs, elle fournisse systématiquement des résultats justes et impartiaux pour chaque interaction.

2. Utilisation de l'IA

La plus existentielle – et la plus intéressante – des considérations éthiques concernant l’IA est sans doute de comprendre comment la technologie sera utilisée et quelles pourraient être les implications de ce cas d’utilisation pour une entreprise ou une société en général.

Cette IA a-t-elle été conçue dans un but éthique ? Son utilisation nuira-t-elle directement ou indirectement à une personne ou à un groupe de personnes ? Et en fin de compte, ce modèle apportera-t-il un bénéfice net à long terme ?

Comme l'a défini de manière si poignante le Dr Ian Malcolm dans le premier acte de Jurassic Park, ce n'est pas parce que vous pouvez construire quelque chose que vous devriez le faire.

3. Responsabilité des données

Et enfin, la préoccupation la plus importante pour les équipes de données (et là où je passerai la majorité de mon temps dans cet article) : quel est l'impact des données elles-mêmes sur la capacité d'une IA à être construite et exploitée de manière responsable ?

Cette considération consiste à comprendre quelles données nous utilisons, dans quelles circonstances elles peuvent être utilisées en toute sécurité et quels risques y sont associés.

Par exemple, sait-on d’où proviennent les données et comment elles ont été acquises ? Existe-t-il des problèmes de confidentialité avec les données alimentant un modèle donné ? Exploitons-nous des données personnelles qui exposent les individus à un risque injustifié de préjudice ?

Est-il sûr de s'appuyer sur un LLM à source fermée lorsque vous ne savez pas sur quelles données il a été formé ?

Et, comme le souligne le procès intenté par le New York Times contre OpenAI, avons-nous le droit d’utiliser l’une de ces données en premier lieu ?

C'est également là que le qualité de nos données entre en jeu. Pouvons-nous avoir confiance en la fiabilité des données qui alimentent un modèle donné ? Quelles sont les conséquences potentielles des problèmes de qualité s’ils sont autorisés à atteindre la production d’IA ?

Alors, maintenant que nous avons examiné de près certaines de ces préoccupations éthiques, considérons la responsabilité de l’équipe chargée des données dans tout cela.

Parmi toutes les considérations éthiques liées à l’IA liées aux équipes de données, la plus importante est de loin la question de responsabilité des données.

De la même manière que le RGPD a forcé les équipes commerciales et chargées des données à travailler ensemble pour repenser la façon dont les données étaient collectées et utilisées, GenAI obligera les entreprises à repenser les flux de travail qui peuvent – ​​et ne peuvent pas – être automatisés.

Bien que nous, en tant qu'équipes de données, ayons absolument la responsabilité d'essayer de participer à la construction de tout modèle d'IA, nous ne pouvons pas affecter directement le résultat de sa conception. Cependant, en excluant les données erronées de ce modèle, nous pouvons grandement contribuer à atténuer les risques posés par ces défauts de conception.

Et si le modèle lui-même échappe à notre contrôle, les questions existentielles de peut et devrait sont sur une planète complètement différente. Encore une fois, nous avons l'obligation de signaler les pièges là où nous les voyons, mais en fin de compte, la fusée décolle, que nous montions à bord ou non.
La chose la plus importante que nous puissions faire est de nous assurer que la fusée décolle en toute sécurité. (Ou voler le fuselage.)

Ainsi, comme dans tous les domaines de la vie d'un ingénieur de données, nous souhaitons consacrer notre temps et nos efforts là où nous pouvons avoir le plus grand impact direct pour le plus grand nombre de personnes. Et cette opportunité réside dans les données elles-mêmes.

Cela semble presque trop évident à dire, mais je le dis quand même :

Les équipes chargées des données doivent assumer la responsabilité de la manière dont les données sont exploitées dans les modèles d’IA car, franchement, elles sont les seules à pouvoir le faire. Bien sûr, il existe des équipes de conformité, des équipes de sécurité et même des équipes juridiques qui seront aux prises avec l’éthique lorsque l’éthique est ignorée. Mais quel que soit le degré de responsabilité partagé, en fin de compte, ces équipes ne comprendront jamais les données au même niveau que l’équipe chargée des données.

Imaginez que votre équipe d'ingénierie logicielle crée une application à l'aide d'un LLM tiers d'OpenAI ou d'Anthropic, mais sans se rendre compte que vous suivez et stockez des données de localisation – en plus des données dont elle a réellement besoin pour son application – elle exploite une base de données entière pour alimenter le modèle. Avec les bonnes lacunes logiques, un acteur malveillant pourrait facilement créer une invite pour retrouver n’importe quel individu utilisant les données stockées dans cet ensemble de données. (C'est exactement la tension entre les LLM open source et fermés.)

Ou disons que l'équipe logicielle connaît ces données de localisation mais ne se rend pas compte que les données de localisation pourraient en réalité être approximatives. Ils pourraient utiliser ces données de localisation pour créer une technologie de cartographie IA qui conduirait involontairement un jeune de 16 ans dans une ruelle sombre la nuit au lieu de se rendre chez Pizza Hut en bas du pâté de maisons. Bien entendu, ce type d’erreur n’est pas volontaire, mais il souligne les risques involontaires inhérents à la manière dont les données sont exploitées.

Ces exemples et d'autres mettent en évidence le rôle de l'équipe chargée des données en tant que gardien de l'IA éthique.

Dans la plupart des cas, les équipes chargées des données sont habituées à traiter des données approximatives et proxy pour faire fonctionner leurs modèles. Mais lorsqu’il s’agit des données qui alimentent un modèle d’IA, vous avez en réalité besoin d’un niveau de validation beaucoup plus élevé.

Pour combler efficacement l'écart pour les consommateurs, les équipes data devront examiner intentionnellement à la fois leurs pratiques en matière de données et la manière dont ces pratiques sont liées à leur organisation dans son ensemble.

Alors que nous réfléchissons à la manière d’atténuer les risques de l’IA, vous trouverez ci-dessous 3 étapes que les équipes chargées des données doivent suivre pour faire évoluer l’IA vers un avenir plus éthique.

Les équipes chargées des données ne sont pas des autruches : elles ne peuvent pas se mettre la tête dans le sable et espérer que le problème disparaîtra. De la même manière que les équipes data se sont battues pour une place à la table des dirigeants, les équipes data doivent défendre leur place à la table de l’IA.

Comme pour tout exercice d’incendie de qualité de données, il ne suffit pas de se lancer dans la mêlée alors que la terre est déjà brûlée. Lorsque nous sommes confrontés au type de risques existentiels si inhérents à GenAI, il est plus important que jamais d'être proactif quant à la manière dont nous abordons notre propre responsabilité personnelle.

Et s’ils ne vous permettent pas de vous asseoir à la table, alors vous avez la responsabilité d’éduquer de l’extérieur. Faites tout ce qui est en votre pouvoir pour fournir d'excellentes solutions de découverte, de gouvernance et de qualité des données afin de fournir aux équipes aux commandes les informations nécessaires pour prendre des décisions responsables concernant les données. Apprenez-leur quoi utiliser, quand l'utiliser et les risques liés à l'utilisation de données tierces qui ne peuvent pas être validées par les protocoles internes de votre équipe.

Ce n'est pas seulement une question commerciale. Comme United Healthcare et la province de la Colombie-Britannique peuvent en témoigner, dans de nombreux cas, ce sont de vraies vies – et leurs moyens de subsistance – qui sont en jeu. Assurons-nous donc de fonctionner dans cette perspective.

On parle souvent de génération augmentée par récupération (RAG) comme d’une ressource permettant de créer de la valeur à partir d’une IA. Mais c’est aussi tout autant une ressource pour protéger la manière dont cette IA sera construite et utilisée.

Imaginez par exemple qu'un modèle accède aux données privées des clients pour alimenter une application de chat destinée aux consommateurs. La bonne invite utilisateur pourrait envoyer toutes sortes de données personnelles critiques se répandre au grand jour pour que les mauvais acteurs puissent s'en emparer. Ainsi, la capacité de valider et de contrôler la provenance de ces données est essentielle pour protéger l’intégrité de ce produit d’IA.

Des équipes de données compétentes atténuent une grande partie de ce risque en tirant parti de méthodologies telles que RAG pour organiser soigneusement des données conformes, plus sûres et mieux adaptées au modèle.

Adopter une approche RAG pour le développement de l'IA permet également de minimiser le risque associé à l'ingestion trop données – comme référencé dans notre exemple de données de localisation.

Alors, à quoi cela ressemble-t-il en pratique ? Supposons que vous soyez une entreprise de médias comme Netflix qui doit exploiter des données de contenu propriétaires avec un certain niveau de données clients pour créer un modèle de recommandation personnalisé. Une fois que vous aurez défini quels sont les points de données spécifiques – et limités – pour ce cas d'utilisation, vous serez en mesure de définir plus efficacement :

  1. Qui est responsable de la maintenance et de la validation de ces données,
  2. Dans quelles circonstances ces données peuvent être utilisées en toute sécurité,
  3. Et qui est finalement le mieux placé pour créer et maintenir ce produit d’IA au fil du temps.

Des outils tels que le traçage des données peuvent également être utiles ici en permettant à votre équipe de valider rapidement l'origine de vos données ainsi que l'endroit où elles sont utilisées (ou mal utilisées) dans les produits d'IA de votre équipe au fil du temps.

Lorsque nous parlons de produits de données, nous disons souvent « garbage in, garbage out », mais dans le cas de GenAI, cet adage tombe à court. En réalité, lorsque des déchets entrent dans un modèle d’IA, ce ne sont pas seulement des déchets qui en sortent : ce sont aussi des déchets et de réelles conséquences humaines.

C'est pourquoi, même si vous avez besoin d'une architecture RAG pour contrôler les données introduites dans vos modèles, vous avez besoin d'une observabilité robuste des données qui se connecte à des bases de données vectorielles comme Pinecone pour garantir que les données sont réellement propres, sûres et fiables.

L'une des plaintes les plus courantes que j'ai entendues de la part des clients qui débutent avec l'IA est que la recherche d'une IA prête pour la production est que si vous ne surveillez pas activement l'ingestion des index dans le pipeline de données vectorielles, il est presque impossible de valider la fiabilité de les données.

Le plus souvent, la seule façon pour les ingénieurs en données et en IA de savoir que quelque chose s'est mal passé avec les données est lorsque ce modèle crache une mauvaise réponse rapide – et à ce moment-là, il est déjà trop tard.

Le besoin d'une plus grande fiabilité et d'une plus grande confiance dans les données est le même défi qui a inspiré notre équipe à créer la catégorie observabilité des données en 2019.

Aujourd’hui, alors que l’IA promet de bouleverser de nombreux processus et systèmes sur lesquels nous comptons au quotidien, les défis – et plus important encore, les implications éthiques – liés à la qualité des données deviennent encore plus désastreux.

About the author

smirow

Leave a Comment