Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Sommaire
OpenAI et Google sont actuellement dans la tourmente, suspectés d’avoir utilisé des textes transcrits à partir de vidéos YouTube pour entraîner leur modèle d’intelligence artificielle. Cette pratique pourrait éventuellement porter atteinte aux droits d’auteur des créateurs de contenu. C’est en effet à partir de plus d’un million d’heures de vidéos YouTube que OpenAI a formé son outil de reconnaissance vocale, Whisper, dans le défi de développer son GPT-4.
La politique de Google stipule que toute utilisation non autorisée de contenu YouTube, y compris son téléchargement ou son exploitation, n’est pas permise. Pourtant, le géant de la technologie a lui-même précisé qu’il formait ses propres modèles d’IA à partir de vidéos provenant de créateurs qui ont accepté de participer à un programme expérimental. Fait encore plus troublant, le New York Times rapporte que Google a modifié sa politique de confidentialité en juin 2022 pour englober une utilisation plus large du contenu publiquement accessible, comme Google Docs et Google Sheets, afin d’entraîner ses modèles d’IA et ses produits.
OpenAI aurait entraîné un nouveau générateur de texte en vidéo, nommé Sora, en utilisant des vidéos YouTube, ce qui soulève des inquiétudes quant au respect des politiques de YouTube. Certains employés de Google étaient apparemment au courant de l’utilisation des vidéos YouTube par OpenAI pour l’entraînement, mais n’ont pas agi, probablement en raison de l’usage de Google de pratiques similaires pour la formation de leurs modèles d’IA.
Google a tenu à clarifier que leur utilisation du contenu publiquement disponible pour l’entraînement des modèles d’IA ne se fait qu’avec le consentement des utilisateurs qui participent aux fonctionnalités expérimentales de Google. Cependant, un débat est en cours entre diverses entreprises, dont Meta (anciennement Facebook), sur la maximisation des données alimentant leurs systèmes d’IA en exploitant du contenu publiquement accessible, comme les vidéos YouTube et les podcasts.
L’article soulève des questions sur les considérations éthiques et les implications potentielles de l’utilisation de contenu sous copyright sans autorisation appropriée pour entraîner des modèles d’IA. Les attentes en matière de transparence et de respect des droits de propriété intellectuelle sont mises en exergue dans le contexte de l’entraînement des modèles d’IA en utilisant des sources de données publiquement accessibles. Si l’exploitation du potentiel massif de l’intelligence artificielle est incontournable, le respect des droits d’auteur des créateurs semble tout aussi crucial dans cette démarche.