Funes e a caixa preta da IA

No conto “Funes, o Memorioso”, Jorge Luis Borges descreve a história de um homem que adquire uma memória perfeita após um acidente de cavalo que o deixa paralítico. Lembra de tudo: cada dobra de uma nuvem, cada variação de luz entre dois segundos. Impedido de esquecer, Funes também se torna incapaz de pensar abstratamente. Para ele, as palavras perdem a coesão categórica que lhes dá sentido — inundado de detalhes, cada objeto se torna incomparável no espaço e no tempo.

Até então, a inteligência artificial generativa de texto, como o ChatGPT, era entendida, grosso modo, como um Funes que lera milhares de páginas do Google, de modo a lembrar, para cada palavra, quais complementos usualmente lhe sucediam, criando, com isso, textos inteligíveis em resposta ao comando do usuário.

Conheça o JOTA PRO Poder, plataforma de monitoramento que oferece transparência e previsibilidade para empresas

Como Funes, os modelos de linguagem de grande escala (Large Language Models – LLM) não criariam categorias abstratas, nem haveria maiores etapas em seu raciocínio, além de um sucessivo sequenciamento de verbetes à luz do que fora aprendido em seu material de treinamento.

Contudo, os mecanismos de funcionamento dos LLM ainda seguem, em parte, opacos, o que lhes gera a alcunha de black box e tem motivado diversas pesquisas no âmbito da ciência da computação. A regulamentação da IA, nesse contexto, incide sobre uma tecnologia em evolução contínua, cujos fundamentos ainda não são plenamente compreendidos.

No final de março, a Anthropic, uma das principais empresas de IA, divulgou resultados de uma pesquisa sobre interpretabilidade de seu modelo LLM (Claude), colocando em xeque a visão de que os LLM são meros regurgitadores de palavras.

Uma das várias facetas incríveis dos LLM é que eles são perfeitamente multilíngues. Mas haveria um sistema paralelo para cada idioma? A pesquisa da Anthropic e outros trabalhos científicos[1] recentes sobre modelos menores mostraram indícios de mecanismos gramaticais compartilhados e características centrais para os conceitos entre as diversas línguas, o que indicaria alguma espécie de universalidade conceitual, “um espaço abstrato compartilhado onde significados existem e onde o pensamento pode acontecer antes de ser traduzido para línguas específicas”. Como consequência disso, um LLM “pode aprender algo em uma língua e aplicar esse conhecimento ao falar outra”.

A pesquisa divulgada pela Anthropic revelou, também, que o modelo executa etapas de raciocínio, por exemplo, ao fazer cálculos de adição. Isso é impressionante principalmente quando se considera que esses modelos foram treinados apenas com materiais de texto, não tendo sido programados para funcionar como uma calculadora. Apesar disso, de alguma forma, os LLM conseguem somar números corretamente.

Uma hipótese seria de que, no material de treinamento, haveria tabuadas de adição enormes, de modo que a IA as teria memorizado no estilo Funes. Em vez disso, o que a Anthropic descobriu é que seu modelo empregava múltiplos raciocínios paralelos para efetivamente realizar o cálculo. E que partes de sua estratégia eram bem diferentes dos métodos de soma que as pessoas usualmente aprendem no colégio.

Apesar disso, quando perguntado qual método havia utilizado para realizar a soma, a IA descreveu o método padrão usado por pessoas, a despeito de não ter sido esse seu funcionamento interno. Isso pode indicar que a IA entende a resolução da adição como um problema e a explicação de tal resolução como outro. Sendo a explicação um problema verbal, ela encontra materiais de apoio em sua memória.

Para o problema matemático, por outro lado, ela se obriga a desenvolver suas próprias metodologias. Tal dissonância reforça que a compreensão destes algoritmos não é trivial, não sendo possível confiar na resposta da própria IA generativa para entendê-la.

Paralelamente aos esforços técnicos de compreensão dos LLM, projetos de regulação da IA avançam no mundo, prevendo a transparência algorítmica como pilar.

No Brasil, o PL 2338/2023, aprovado pelo Senado em dezembro de 2024, que pretende regular a IA, prevê, em seu art. 3º, que o desenvolvimento, a implementação e o uso de sistemas de inteligência artificial observarão os princípios da transparência, da auditabilidade e da inteligibilidade.

Já o art. 8º prevê que a “pessoa afetada por sistema de inteligência artificial poderá solicitar explicação” sobre “a racionalidade e a lógica do sistema”, bem como “a revisão de decisões, recomendações ou previsões geradas por tal sistema que produzam efeitos jurídicos relevantes” (art. 9º), incluindo “a intervenção ou revisão humana” (art. 10). Contudo, tal intervenção humana não seria exigida “caso a sua implementação seja comprovadamente impossível” (art. 10, parágrafo único).

O art. 18, por sua vez, prevê que a autoridade competente poderá categorizar uma IA como de risco excessivo pelo critério de “baixo grau de transparência, explicabilidade e auditabilidade do sistema de inteligência artificial, que dificulte o seu controle ou supervisão”.

Como visto, o conceito de transparência algorítmica, se levado ao extremo, pode oferecer desafios técnicos significativos. A esses desafios somam-se os avanços mais recentes em IA generativa, como a introdução de mecanismos de memória contínua, capazes de reter informações de interações passadas com um mesmo usuário.

No entanto, ao contrário do Funes de Borges, que não escolhia o que lembrar, os sistemas atuais começam a desenvolver formas de esquecimento seletivo, retenção controlada e personalização da memória. Tais recursos ampliam as possibilidades de uso da IA, mas também as discussões sobre privacidade, consentimento e responsabilidade.

Os modelos de IA, dos quais os LLM são apenas espécie, seguem em evolução, e o completo funcionamento desses modelos ainda precisa ser melhor decifrado. Nesse contexto, o PL 2338, ora em análise pela Câmara dos Deputados, se aprovado, exigirá que a autoridade competente indique à indústria padrões de explicabilidade aceitáveis, ainda que imperfeitos.


[1] Olsson, Catherine; Schwettmann, Sarah; Williams, Neel Nanda et al. In-Context Learning and Induction Heads. OpenReview, 2022. Disponível em: https://openreview.net/forum?id=0ku2hIm4BS. Acesso em: 25 abr. 2025.
Elhage, Nelson; Nanda, Neel; Olsson, Catherine et al. Reverse-Engineering Toy Models of Natural Language. arXiv, 2024. Disponível em: https://arxiv.org/abs/2410.06496. Acesso em: 25 abr. 2025.

Adicionar aos favoritos o Link permanente.