Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Système Arcadie, Secteur spatial de l'Impérium

Les données sur internet pour les IA : un véritable cauchemar ?

3 Octobre 2023 , Rédigé par Droopy Publié dans #divers, #robots


 

Il y a peu de temps, j’ai publié un article sur les IA. Ces dernières dépendent des données pour leur apprentissage. Mais personne ne se pose trop de question sur l’origine des données nécessaire pour créer des IA. Lorsqu’il s’agit de données météo… ce n’est pas un problème. Mais il est des cas où le tri et la certification de ces données est déjà un problème en soi.

En 2022 au Kenya, un employé de la société Samasource Ltd dépose une plainte contre son employeur mais aussi contre les géants du Web. Pour le plaignant, Samasource ne protège pas la santé mentale de ses employés. Or Samasource est spécialisé dans l’annotation. Il trie, catalogue et gère les données issues d’Internet pour en faire des bases de données. De telles bases de données sont indispensables pour réaliser l’apprentissage des IA.

Seulement voilà. Sur internet on trouve de tout. C’est parfois utile, surprenant, amusant, instructif… mais aussi consternant, horrible, dérangeant, violent ou pire. Internet est le reflet de l’humanité. Le pire côtoie le meilleur. Le meilleur est facile à gérer, mais le pire… est une source de stress effroyable. Bien entendu, tous les arguments juridiques sont utilisés par Samasources, mais aussi par ses clients pour annuler le procès … en vain. Les conditions de travail, lié à l’utilisation des données disponibles sont dénoncées. Évidemment, les grosses sociétés (US ) ont non seulement dénoncés le procès, mais en plus ont tenté de faire mettre à l’écart tous ceux qui protestaient. Ces derniers ont décidés de porter plainte à leur tour. Ce qui risque de poser de nombreux problèmes pour les fournisseurs d’IA. Les données qu’ils trient sont essentielles. Ainsi une erreur d’étiquetage sur une image représentant une route peut engendrer un accident potentiellement mortel. Pour valider leurs systèmes les géants du Web ont besoin de données étiquetées fiables pour générer des IA, mais aussi des métadonnées indispensables pour gérer contenus et informations sur le Web. Tout leur modèle économique est basé sur ces données…

C’est pourquoi les utilisateurs sont encouragés à faire du contenu. Ce sont des bases de données potentielles … Mais la modération préalable engendrerait des surcoûts capable de limiter leurs incroyables profits. Et cela, il n’en est pas question !

D’un autre côté, on considère que 10 à 15 % des données sont créés chaque jour. Même si la majorité ne sont que des répétitions… il faut bien trier ces données. Surtout en l’absence de ces modérations. Or si la main d’œuvre des pays du tiers monde commence à protester… La question n’est pas éthique, mais financière. Les juges ont constaté que le plaignant gagnait 1,5 euros par jours. Alors que le salaire moyen dans ce pays est de 4 euro par jour. Car si les IA vont supprimer des emplois correctement payés en Occident, cela est permis par une main d’œuvre qualifiée et exploitée dans des conditions cauchemardesques. Mais c’est aussi cela le rêve américain…

Partager cet article
Repost0
Pour être informé des derniers articles, inscrivez vous :
Commenter cet article