L’importance cruciale des données pour l’intelligence artificielle : les défis des géants de la tech

Les données textuelles, sonores et vidéos en ligne représentent une ressource essentielle pour les moteurs d’intelligence artificielle tels que ChatGPT, Gemini et leurs rivaux. Ces systèmes ont un besoin constant d’énormes quantités d’informations pour améliorer leur précision, mais se heurtent à des problèmes d’accès et de disponibilité de ces ressources.

La quête incessante de données par les géants de la tech

À la fin de 2021, OpenAI, à l’origine de ChatGPT, a rencontré des difficultés d’approvisionnement en données, selon le New York Times. Des entreprises telles que Microsoft, Google, Facebook et même Apple recherchent activement et traitent toujours plus de données pour alimenter leurs systèmes d’intelligence artificielle.

Apple aurait récemment signé un contrat avec Shutterstock pour accéder à sa bibliothèque d’images, soulignant l’importance des partenariats pour enrichir les bases de connaissances des IA.

Le défi de l’entraînement des moteurs d’IA

Face à la nécessité de former la prochaine version de son moteur, GPT-4, OpenAI a lancé Whisper, un outil de transcription audio en texte. Cette initiative a permis d’analyser une quantité impressionnante de contenus provenant de YouTube, de podcasts et de livres audio, malgré des questions éthiques liées aux droits d’utilisation de ces données.

Google, bien que connaissant les pratiques d’OpenAI, a lui-même exploité ces contenus pour améliorer ses propres moteurs d’IA. Pour éviter les controverses, Google a ensuite revisité ses conditions d’utilisation des contenus publics.

Meta, engagé dans la même course que ses concurrents, a également fait face à des défis d’approvisionnement en données. Des discussions ont eu lieu sur l’acquisition de contenus, dont des livres, mais des questions éthiques et juridiques ont émergé quant à la manière dont ces données étaient obtenues et utilisées.

Le futur de l’IA : données synthétiques et défis à venir

Malgré l’abondance de contenus sur les réseaux sociaux, la qualité et la pertinence des données restent des enjeux majeurs pour l’avancée des moteurs d’IA. L’idée de générer des données synthétiques à partir de contenus existants est envisagée, mais soulève des inquiétudes quant à la propension des IA à accentuer des biais préexistants.

La course à l’innovation dans le domaine de l’intelligence artificielle implique un besoin croissant de données de qualité, indiquant un écart grandissant entre l’offre et la demande en données pertinentes pour alimenter ces systèmes toujours plus performants.

Derniers Articles

Ces articles pourraient vous plaire