La Course à l’Approvisionnement en Données pour l’Intelligence Artificielle

Les moteurs d’intelligence artificielle comme ChatGPT et Gemini dépendent grandement des données textuelles, sonores et vidéos disponibles en ligne pour améliorer leur précision. Cette quête de volume d’informations se heurte souvent à des défis liés aux droits d’accès et à la disponibilité de telles ressources.

Fin 2021, OpenAI, le cerveau derrière ChatGPT, a été confronté à un problème d’approvisionnement en données, selon le New York Times. Des géants technologiques tels que Microsoft, Google, Facebook et même Apple sont engagés dans une course effrénée pour trouver et traiter toujours plus d’informations cruciales pour leurs systèmes d’IA.

Apple aurait récemment signé un accord avec Shutterstock pour exploiter sa vaste collection d’images, soulignant l’importance des ressources visuelles dans le développement des intelligences artificielles.

Ces systèmes d’IA se basent sur des bases de connaissance solides pour fournir des réponses précises. OpenAI a réalisé qu’il avait épuisé les sources de contenus textuels en anglais de qualité et variés, nécessaires pour l’entraînement de son moteur GPT-4.

Pour pallier cette pénurie, OpenAI a lancé Whisper, un outil de transcription audio permettant d’analyser un grand nombre d’heures de vidéos YouTube, podcasts et livres audio, afin d’élargir sa base de données.

Google, bien que déclarant ne pas être au courant des pratiques d’OpenAI, était conscient de l’utilisation de ces contenus. Afin d’éviter tout problème, Google a modifié ses conditions d’utilisation pour permettre l’exploitation des contenus publics de ses services pour l’entraînement des IA.

Meta, impliqué dans la même course à l’approvisionnement en données, a envisagé d’acquérir des éditeurs de livres pour accéder à des données fiables. Cependant, des discussions ont eu lieu sur la légalité de résumer des contenus sans autorisation préalable, mettant en lumière les défis éthiques auxquels sont confrontés ces acteurs de l’IA.

La principale contrainte demeure le manque de données de qualité pour nourrir ces moteurs d’IA. Pour progresser, il faudrait un volume massif de données pertinentes, une demande supérieure à l’offre actuelle.

Une piste explorée est la génération de données synthétiques par les IA elles-mêmes, bien que cela soulève des inquiétudes quant au renforcement des biais existants. La quête de données pour alimenter l’IA se poursuit, défiant les limites de l’éthique et de la légalité.

Derniers Articles

Ces articles pourraient vous plaire