L’intelligence artificielle (IA) est devenue un domaine de pointe pour de nombreuses entreprises, attirant des investissements colossaux et générant des revenus considérables. Au cœur de cette révolution se trouve NVIDIA, un géant technologique reconnu pour ses avancées dans le domaine des graphismes et, plus récemment, pour ses innovations en IA. L’une des initiatives les plus intrigantes de NVIDIA est le Projet Cosmos, une tentative ambitieuse de former un modèle d’IA de nouvelle génération à l’aide de données extraites de vidéos YouTube, Netflix et d’autres plateformes.
Avec l’avènement de ChatGPT, développé par OpenAI, l’IA a pris une place prépondérante dans notre quotidien. Ce chatbot révolutionnaire a rendu l’intelligence artificielle accessible à tous, transformant la manière dont nous interagissons avec la technologie. Que ce soit pour obtenir des réponses à des questions complexes, écrire des programmes ou résoudre des problèmes mathématiques, l’IA a prouvé son utilité dans de nombreux domaines.

Dans ce contexte, NVIDIA s’est positionnée comme un acteur clé en développant ses propres modèles d’IA. Le Projet Cosmos est l’une de ces initiatives, visant à former une IA avancée en utilisant des données vidéo massives. Selon des informations révélées par 404 Media, NVIDIA utilise des outils comme yt-dlp pour extraire des vidéos de YouTube, en contournant les restrictions grâce à l’utilisation de machines virtuelles et de techniques d’anonymisation IP.
Un Scraping à Grande Échelle pour l’IA : Les Détails du Projet Cosmos
Le Projet Cosmos repose sur une infrastructure massive, impliquant l’utilisation de 20 à 30 machines virtuelles sur Amazon Web Services (AWS), capables de télécharger jusqu’à 80 ans de vidéos par jour. Cette collecte massive de données permet à NVIDIA de constituer des ensembles de données diversifiés, incluant des bases de données comme MovieNet, WebVid et InternVid-10M, qui compile 10 millions de vidéos YouTube.
Les discussions internes, les e-mails et les documents d’entreprise divulgués révèlent une stratégie bien orchestrée pour exploiter les données en ligne, malgré les controverses juridiques potentielles liées au scraping. NVIDIA, tout en affirmant respecter les droits des créateurs de contenu, soutient que l’apprentissage à partir de données disponibles publiquement est une pratique légitime pour le développement de nouveaux produits.
L’utilisation de données sans autorisation explicite, bien qu’actuellement dans une zone grise légale, soulève des questions éthiques et juridiques. Netflix, par exemple, a clairement indiqué qu’il n’avait pas d’accord avec NVIDIA et qu’il n’autorisait pas le scraping de ses contenus. Toutefois, dans le domaine de l’IA, la frontière entre l’utilisation à des fins académiques et commerciales reste floue.
Le Projet Cosmos met en lumière les défis et les opportunités liés à l’utilisation des données en ligne pour l’IA. Avec 38,5 millions d’URL de vidéos classées par image, NVIDIA est à l’avant-garde de cette révolution technologique. Cependant, l’absence de réglementation claire pourrait entraîner des conséquences imprévues pour les entreprises et les utilisateurs.
NVIDIA continue de repousser les limites de l’intelligence artificielle avec des projets audacieux comme Cosmos. Alors que l’entreprise explore les possibilités offertes par les données vidéo, elle navigue également dans un paysage juridique complexe et en constante évolution. Le futur de l’IA, en grande partie, dépendra de la manière dont ces questions seront résolues, et NVIDIA semble déterminée à jouer un rôle central dans cette évolution et pas uniquement dans la sphère purement hardware.
Pour plus d’informations sur le Projet Cosmos et les pratiques de NVIDIA, consultez l’article complet de 404 Media.