O modelo de remuneração por direitos autorais previsto no Projeto de Lei 2.338/2023, que regulamenta a inteligência artificial no Brasil, é tecnicamente inviável, segundo estudo publicado nesta terça-feira (20) pelo think-tank Reglab. A principal razão, segundo o estudo, está na impossibilidade dos sistemas de IA generativa rastrearem a contribuição específica de cada obra, como textos, músicas e imagens, usada durante o treinamento dos modelos.
A proposta, aprovada no Senado em dezembro de 2024, agora aguarda análise na Câmara dos Deputados. O texto prevê mecanismos de remuneração para titulares de direitos autorais cujas obras tenham sido utilizadas no treinamento de sistemas de IA, mesmo que de forma indireta. Para o Reglab, no entanto, não há hoje soluções técnicas confiáveis ou escaláveis que permitam a operacionalização desse modelo.
“Os achados desta pesquisa não devem ser usados isoladamente contra a regulação, ou contra a valorização dos direitos de criadores e criadoras”, diz o estudo. “Pelo contrário, suas inferências apontam para a necessidade de uma regulação baseada em evidências, que considere a realidade do setor e os limites técnicos da tecnologia existente”.
O estudo “Remuneração por Direitos Autorais em IA: Limites e Desafios de Implementação” foi patrocinado pelo Google, pela Meta e pelo escritório Baptista Luz Advogados, mas conduzido e interpretado de forma independente pelo Reglab.
Conduzido entre março e abril, foi baseado em entrevistas semiestruturadas com oito especialistas técnicos nas áreas de ciência da computação, engenharia de software, aprendizado de máquina e arquitetura de soluções de IA, além da análise das 24 sessões da Comissão Temporária Interna sobre Inteligência Artificial no Senado (CTIA), que discutiu o PL.
Limitação
Segundo a pesquisa, os modelos baseados em aprendizado de máquina não funcionam por indexação direta de conteúdo, como acontece em uma biblioteca digital ou serviço de streaming. Em vez disso, os dados são fragmentados em palavras, convertidos em vetores numéricos e utilizados para identificar padrões estatísticos e probabilidades de associação.
Assim, o produto da IA generativa é construído com base em correlações estatísticas entre vetores, não em citações ou trechos identificáveis. Por isso, não é possível mensurar a contribuição relativa de cada obra utilizada no treinamento.
Assine gratuitamente a newsletter Últimas Notícias do JOTA e receba as principais notícias jurídicas e políticas do dia no seu email
A análise também mostrou participação mínima de profissionais de áreas STEM (ciência, tecnologia, engenharia e matemática) e baixa incidência de falas que abordassem direitos autorais a partir de perspectivas técnicas — apenas 16% dos participantes e, deste número, apenas 4 pessoas falaram diretamente sobre direito autoral.
A baixa participação de técnicos pode ajudar a explicar as razões por trás da baixa aplicabilidade do que é previsto no texto, diz Pedro Henrique Ramos, diretor do Reglab e um dos autores do estudo. Segundo Ramos, a impossibilidade de mensurar o peso de obras autorais em produtos gerados por IA generativa não vem de falta de investimentos ou de vontade política. “Perguntamos isso para um dos entrevistados, e ele respondeu assim: ‘As empresas podem até criar outra coisa, mas não vai ser inteligência artificial generativa. Vai ser uma outra coisa’”, diz.
“Procuramos em bases acadêmicas, papers, experimentos… E confirmamos exatamente o que os nossos entrevistados falavam. Tem muitos papers que estão tentando fazer algumas experiências, mas nenhuma das experiências com resultados maduros. Todas elas com resultados muito experimentais”, diz Ramos.
Na academia, uma das abordagens em teste é o uso da teoria dos jogos — uma ferramenta matemática para modelar decisões interdependentes — como forma de estimar, de maneira probabilística, a contribuição de cada dado no treinamento. Mas, segundo Ramos, isso também enfrenta limites metodológicos. “O fato de a letra de uma música estar em 10 sites diferentes, por exemplo, não significa que ela terá mais peso, porque os dados são redundantes e a contagem não é direta”.
Riscos regulatórios
Além de apontar a inviabilidade técnica da proposta atual, o estudo alerta para efeitos adversos caso o Brasil adote uma regulação excessivamente restritiva, como a exigência de licenciamento prévio e individualizado para o uso de dados no treinamento de IA.
Para a pesquisa, há o risco de redução da qualidade dos modelos, por menor diversidade e quantidade de dados; aumento de custos de desenvolvimento, especialmente para startups; concentração de mercado, com grandes empresas adquirindo acesso exclusivo a grandes bases de dados; fuga de centros de desenvolvimento, com deslocamento de operações para países com regras mais flexíveis.
O PL 2.338/2023 prevê exceções ao uso de obras protegidas apenas para instituições sem fins lucrativos, como universidades, bibliotecas e museus. Também estabelece a obrigatoriedade de transparência sobre as bases de dados utilizadas e permite mecanismos de negociação coletiva ou direta entre desenvolvedores e titulares de direitos.
Esse modelo, além de inoperável, segundo o estudo, pode ser restritivo – e outras legislações ao redor do mundo podem fornecer inspirações úteis. Ramos cita como exemplo o modelo da União Europeia, que adota uma lógica de opt-out. Nele, os dados disponíveis publicamente podem ser usados para treinamento, salvo se o titular de direitos indicar explicitamente que não deseja esse uso – por meio de mecanismos técnicos como metadados ou restrições de acesso, como paywalls.
Outro modelo de lei também poderia auxiliar em outras frentes, como a de data centers, cuja política nacional foi anunciada recentemente. “Não adianta um monte de isenção tributária, de você ter facilidades nos negócios, custos de energia, quando as empresas vão correr o risco de ter que mudar totalmente seus data centers, mudar o conteúdo do seu software, dos seus sistemas, por conta de leis locais”, diz Ramos.