Raciocínio jurídico era o que faltava para as IAs

Talvez você já tenha reparado que quando você faz uma pergunta para o ChatGPT ou qualquer um de seus concorrentes a resposta começa a ser dada quase instantaneamente. Esses modelos não respondem “Poxa, que pergunta difícil… Deixa eu pensar um pouquinho sobre isso e já te respondo”, como um ser humano tenderia a fazer quando confrontado com questões complexas.

Mas, num futuro muito próximo, isso pode mudar. A OpenAI, empresa criadora do ChatGPT, anunciou em setembro de 2024 um novo modelo de linguagem, denominado “o1”, que foi treinado a “pensar” por algum tempo antes de responder[1].

Conheça o JOTA PRO Poder, plataforma de monitoramento que oferece transparência e previsibilidade para empresas

Essa mudança no seu treinamento trouxe resultados extraordinários. Segundo a empresa, o o1 obtém performance em competições de programação da plataforma Codeforces superior a de 89% dos competidores, ficaria entre os 500 melhores alunos dos Estados Unidos em uma das seletivas para o time que representa o país na Olimpíada Internacional de Matemática e supera a acurácia de seres humanos com doutorado em um benchmark de problemas de física, química e biologia chamado GPQA.

Para efeito de comparação, o GPT 4o, versão atual do ChatGPT, supera apenas 11% dos usuários do Codeforces e acerta 13,4% das questões da seletiva de matemática e 56,1% do GPQA, contra 83,3% de acertos do o1 na seletiva e 78% no GPQA (experts acertaram em média 69,7%).

E em tarefas jurídicas? Esse modelo também é melhor? Duas métricas apresentadas pela OpenAI indicam que sim: no Law School Admission Test (LSAT), prova padronizada utilizada por muitas faculdades de direito americanas em seu processo de admissão, enquanto o GPT 4o acerta 69,5% do exame, o o1 acertou 95,6%.

Nas questões de direito do MMLU, o benchmark mais frequentemente utilizado para comparar modelos de linguagem, também houve uma melhora relevante, indo de 75,6% a 85%.

Focado em direito brasileiro, mais recentemente, de maneira independente, Mario Filho e Fabrício Carraro compararam a performance do o1 com outros modelos na OAB e encontraram uma melhora semelhante. Enquanto o GPT 4o acertou 69 questões no último exame, o o1 acertou 75. Faltaram apenas quatro questões para o modelo gabaritar a prova, já que uma delas foi anulada.

Assine gratuitamente a newsletter Últimas Notícias do JOTA e receba as principais notícias jurídicas e políticas do dia no seu email

E será que em provas mais difíceis, como o Exame Nacional da Magistratura (ENAM), esse resultado persiste? Apliquei de maneira automatizada para diversos modelos de linguagem, incluindo o o1, a prova do 2º ENAM, que ocorreu dia 20 de outubro de 2024, e comprovei que sim.

O resultado você confere na tabela abaixo, em ordem decrescente de número de acertos (duas questões foram anuladas, então as porcentagens de acerto foram calculadas considerando um total de 78 questões):

Modelo Desenvolvedora Nº de acertos % de acertos
o1 preview Open AI

(Estados Unidos)

69 88,5
Claude 3.5 Sonnet Anthropic

(Estados Unidos)

62 79,5
Gemini 2.0 Flash Google

(Estados Unidos)

60 76,9
GPT 4o Open AI

(Estados Unidos)

58 74,4
Sabiá 3 Maritaca AI

(Brasil)

56 71,8
Llama 3.1 405b Meta

(Estados Unidos)

51 65,4
Qwen 2.5 72b Alibaba

(China)

50 64,1
DeepSeek V3 DeepSeek

(China)

46 58,2

Considero esse resultado ainda mais impressionante que o observado na OAB. Na OAB, o segundo melhor modelo acertou 70 de 79 questões, enquanto o o1 preview acertou 75 – ou seja, uma melhoria de 7% em comparação com o melhor resultado anterior. Já no ENAM o resultado foi 11% superior ao antigo melhor resultado, partindo de 62 para 69 em uma prova considerada muito mais difícil.

E a melhora não para aí. Esses números dizem respeito ao o1 preview, o modelo o1 atualmente disponível para a maior parte dos usuários para ser utilizada de maneira automatizada via API, isto é, via código de programação, sem precisar entrar no site do ChatGPT, acelerando e facilitando a avaliação dos modelos. Existem ainda o o1, sem qualquer qualificador, e o o1 pro.

O o1, para ser acessado de maneira automatizada, requer que o usuário faça parte de organização nível 5 na plataforma da OpenAI, o que significa ter altos gastos com a empresa. Como não faço parte de organização desse nível, me limitei ao o1 preview, mas testei o o1 de forma não automatizada.

Pedi que o o1 tentasse resolver as 9 questões que o o1 preview não foi capaz de acertar. Ele acertou 5 delas. Ou seja, se o o1 for capaz de acertar todas as questões que o o1 preview acertou, o o1 chegaria a um total de 74 de 78 pontos, ou uma taxa de acerto de 94% – um resultado impressionante, que certamente pouquíssimos candidatos seriam capaz de obter.

Em um segundo teste com o o1, pedi que ele e o GPT 4o respondessem a prova prática de direito constitucional da última OAB. O resultado você confere aqui. Sugiro que compare principalmente a seção de fundamentos jurídicos de cada um desses modelos. Evidentemente, ainda há o que aperfeiçoar, mas é impressionante a melhoria no resultado.

Isso sem contar que existe, como mencionei, o o1 pro. Atualmente esse modelo só está disponível para quem estiver disposto a pagar uma mensalidade de 200 dólares à OpenAI, e, diante dessa restrição, não tive ainda a oportunidade de testar esse modelo, mas ele pode representar mais uma melhoria em performance para tarefas jurídicas.

Hoje, a principal restrição a um maior uso desses modelos é o custo – tanto para o usuário quanto para a desenvolvedora. Para rodar de maneira automatizada o ENAM para o GPT 4o, gastei dez centavos de dólar em créditos da API da OpenAI. Para fazer o mesmo com o o1 preview, o gasto foi por volta de nove dólares – isso que justifica a mensalidade de 200 dólares no novo plano da OpenAI e esse será o desafio que a desenvolvedora terá de enfrentar.

Para efeito de comparação, em um ano e cinco meses o GPT 4 teve seu preço reduzido em mais de 80%. Se redução como essa for possível também com os modelos que pensam, essa ferramenta irá se tornar cada vez mais popular.

E, no último dia 20 de dezembro, mais uma notícia indica um futuro bastante promissor para esses novos modelos de linguagem. A OpenAI anunciou o o3 (sim, ela pulou o o2) e, se as avaliações do o1 já impressionam, é difícil qualificar os resultados do o3.

O o1 superou experts humanos no GPQA acertando 78% da prova. O o3 acerta 87,7% dessa avaliação – e, lembre-se, essa é uma prova com perguntas consideradas de nível de doutorado.

O o1 atingiu um resultado de 83,3% numa das provas da seletiva da seleção de matemática dos EUA – um resultado que já a deixaria entre os 500 melhores alunos do país. O o3 obteve 96,7% de acertos nessa prova.

Além disso, o o3 foi a primeira IA a conseguir superar seres humanos no teste ARC-AGI. Segundo o seus desenvolvedores, este seria “o único benchmark formal para a avaliação do progresso rumo a uma inteligência geral artificial”, isto é, uma IA cuja inteligência seja equivalente, se não superior, a de seres humanos (acesse o site e tente você mesmo esse teste – pode não parecer, mas esses problemas relativamente fáceis para seres humanos são ainda dificílimos mesmo para as IAs mais avançadas).

Todas essas métricas indicam um novo salto nas capacidades dos modelos de linguagem. Nenhuma das avaliações já publicadas comprovam que o o3 irá melhorar substancialmente sua performance em tarefas jurídicas, mas, se o progresso obtido pelo o1 for algum indicativo, 2025 pode ser o ano em que os modelos de linguagem irão revolucionar de vez a prática jurídica.

______________________________________________________

[1] Não tenho aqui a pretensão de explicar tecnicamente como essa tecnologia funciona, mas, caso queira saber mais sobre isso, recomendo o artigo “Notes on OpenAI’s new o1 chain-of-thought models”, do Simon Willison, e as referências que ele indica nesse texto.

Adicionar aos favoritos o Link permanente.