Apple, Nvidia e outras usaram vídeos do YouTube para treinar IAs sem permissão
Empresas como Apple, NVIDIA, Salesforce e Anthropic, entre outras, teriam utilizado, sem autorização, dados de mais de 170 mil vídeos disponíveis no YouTube para treinar seus modelos de inteligência artificial generativa. É o que revela uma investigação feita pela Proof News, em parceria com a Wired, divulgada nesta terça-feira (16).
O relatório aponta que as gigantes da tecnologia extraíram dados do “YouTube Subtitles”, uma coleção de transcrições pertencentes a 48 mil canais da plataforma de vídeos do Google, sem a permissão dos proprietários. O material usado não incluiu as imagens das gravações.
Transcrições de milhares de vídeos do YouTube foram usadas indevidamente no treinamento de IAs.Fonte: Unsplash
Criadores de grande popularidade no YouTube como MrBeast, PewDiePie, Jacksepticeye e Marques Brownlee estão entre os que tiveram conteúdos utilizados para treinar IAs generativas. Também há materiais de canais educacionais e de aprendizagem, como os de Harvard, MIT e Khan Academy.
A lista inclui, ainda, vídeos da BBC, ABC News, NPR, The Wall Street Journal e The New York Times — este último já processou a OpenAI, desenvolvedora do ChatGPT, por uso indevido de seus textos. Até mesmo programas como Jimmy Kimmel Live, The Late Show with Stephen Colbert e Last Week Tonight with John Oliver foram usados.
Como saber se um vídeo foi usado para treinar IA?
Os responsáveis pelo levantamento desenvolveram uma ferramenta que permite pesquisar se os seus vídeos ou os materiais de seus criadores favoritos foram utilizados no treinamento de IAs generativas. O recurso está disponível no site da Proof News, bastando digitar o nome do canal no campo de pesquisa.
Segundo o relatório, a Salesforce e a Anthropic confirmaram ter utilizado o conjunto de dados, mas negaram qualquer irregularidade na prática. A NVIDIA se recusou a comentar, enquanto a Apple não respondeu aos contatos feitos pelos pesquisadores.
Ferramenta mostra que vídeos do TecMundo também foram usados no treinamento de IA.Fonte: Proof News/Reprodução
Vale ressaltar que o CEO do YouTube, Neal Mohan, afirmou em entrevistas recentes que extrair conteúdos da plataforma para treinar IA viola as políticas de uso do serviço de vídeos. Isso também vale para as transcrições, como as coletadas por essas big techs.