Carregando...

Publicações

IA generativa e direitos autorais: como evitar disputas e fortalecer o mercado cultural e os negócios

01 Setembro 2025/ Notícias & Artigos/

Eduardo Felipe Matias – IA generativa e direitos autorais: como evitar disputas e fortalecer o mercado cultural e os negócios

Eduardo Felipe Matias é autor dos livros A humanidade e suas fronteiras e A humanidade contra as cordas, ganhadores do Prêmio Jabuti e coordenador do livro Marco Legal das Startups. Doutor em Direito Internacional pela USP, foi visiting scholar nas universidades de Columbia, em NY, e Berkeley e Stanford, na California, e é professor convidado da Fundação Dom Cabral e sócio da área empresarial de Elias, Matias Advogados


A discussão sobre o uso de obras protegidas por direitos autorais no treinamento de modelos de IA generativa tem implicações comerciais que vão além dos aspectos jurídicos. Essas ferramentas disputam atenção e receitas com setores consolidados, como jornais, bancos de imagens, catálogos musicais e repositórios de software, que reagem para evitar perdas.

Um exemplo recente envolve a Anthropic, desenvolvedora do chatbot Claude. Autores a acusaram de manter uma biblioteca com milhões de livros copiados de acervos piratas para treinar seus modelos. Neste mês de setembro, a empresa propôs um acordo de 1,5 bilhão de dólares para encerrar a disputa, o equivalente a cerca de 3 mil dólares por cada um dos 500 mil títulos identificados.

Outros casos em andamento evidenciam a tensão em várias frentes do mercado cultural. No jornalismo, a Penske Media – dona de Variety, Rolling Stone e Billboard – acionou o Google neste mês alegando que o recurso AI Overviews, ao resumir resultados de busca, retém o usuário na plataforma, reduzindo o tráfego e a receita de suas revistas. No campo visual, geradores de imagem como Midjourney e Stable Diffusion são contestados em juízo por empresas como a Getty Images, pelo uso de seu acervo, e Disney e Universal, por outputs que evocariam seus personagens e franquias. No software, o GitHub Copilot foi acionado por supostamente usar repositórios de código aberto e, em alguns casos, sugerir blocos de código sem crédito ou indicação de licença. Na música, editoras questionam chatbots que exibem letras quase integrais.

O caso da Anthropic não trouxe respostas definitivas para esses impasses. O juiz William Alsup considerou ilícitos o download e a retenção de acervos piratas, mas indicou que, se os livros tivessem sido obtidos legalmente, o uso poderia ser considerado transformativo e, portanto, um possível caso de uso justo. A doutrina do fair use, base de boa parte desse debate nos EUA, remonta ao Copyright Act de 1976 — criado na era do xerox, não para a raspagem massiva de dados ou para o aprendizado estatístico. É um claro exemplo do chamado pacing problem, com a lei correndo atrás da tecnologia. Até que legislação e tribunais superiores alcancem a IA generativa, convém adotar soluções práticas que reduzam atritos desde já.

O primeiro ponto é técnico. Modelos não desaprendem com facilidade. Mesmo que arquivos ilícitos sejam apagados, o conhecimento extraído permanece nos pesos do modelo, o que torna remediar menos eficaz do que prevenir. Nesse espírito, pagamentos únicos ajudam a resolver disputas passadas, mas licenças baseadas em uso são mais adequadas para evitar novos litígios. Em vez de um valor global para pacificar uma classe inteira, paga-se proporcionalmente onde o modelo de fato extrai valor de um determinado tipo de obra. Para isso, são necessários dados de uso agregados, métricas de contribuição por categoria e auditorias.

Deve-se considerar, ainda, a dificuldade de provar o uso de uma obra específica. Criadores raramente conseguem demonstrar que seu conteúdo foi incluído no treinamento. Para mitigar esse problema, ganham força propostas como a criação de cooperativas de dados que licenciem e auditem acervos, bem como a adoção de amostragens independentes conduzidas por terceiros confiáveis.

A prevenção, portanto, deve ser prioridade para as empresas de IA, com estratégias distintas para o treinamento e as saídas dos modelos.

No treinamento, o primeiro passo é qualificar os datasets – inventariar o que entra no modelo, identificando origem, período de coleta e condições de uso. É essencial mapear a titularidade e as licenças – isto é, quem pode autorizar cada acervo, em quais termos, territórios e prazos –, e firmar contratos quando necessário. Uma boa prática é adotar uma espécie de etiqueta nutricional dos dados, que informe, em linhas gerais, as principais fontes, janelas temporais e o respeito a pedidos de exclusão. Também vale explicitar a fração em domínio público e o conteúdo licenciado. A verificação – inclusive por meio de checagens automáticas – pode confirmar a presença ou ausência de obras específicas.

Nas saídas, o foco é evitar que o modelo gere trechos que se confundam com o original. Isso inclui limitar a extensão de respostas em contextos sensíveis, como letras, poemas ou certos tipos de código, e bloquear pedidos de textos ou imagens “no estilo de” algum artista quando houver risco jurídico. É recomendável empregar detectores de quase-duplicação para substituir respostas muito próximas do texto-fonte por resumos, referências ou reformulações. A operação precisa manter registros das decisões de bloqueio e ajuste, com histórico que demonstre diligência e facilite auditorias ou respostas a reclamações. Em funcionalidades de alto risco, como exibição de letras de música – mais suscetíveis à memorização literal –, o ideal é trabalhar com provedores licenciados ou com acordos setoriais específicos.

Ao adotarem essas providências com transparência suficiente para que clientes corporativos – como bancos, seguradoras e varejistas – avaliem riscos sem expor segredos comerciais, as empresas de IA não só fortalecem o ecossistema cultural que alimenta seus modelos, mas também aumentam a confiança do mercado em suas soluções. Em um cenário em que concorrentes sofrem as consequências de práticas pouco rigorosas, a conformidade deixa de ser apenas custo e pode se tornar um importante diferencial competitivo.


Artigo originalmente publicado no Estadão/Broadcast em setembro de 2025.



Publicações relacionadas


Comentários/ 0


DEIXE SEU COMENTÁRIO

Por Advogado
Por data

RECEBA NOSSAS NEWSLETTERS