Noticias

IA do GTO Wizard vence todas as principais LLMs no poker: é o fim?

IA do GTO Wizard vence todas as principais LLMs no poker: é o fim?

O poker ainda não foi “desvendado”, mas parece que o GTO Wizard tornou esse momento mais próximo com um modelo de IA especializado no jogo. O último teste de capacidades da Inteligência Artificial do GTO Wizard, em partidas contra outros Grandes Modelos de Linguagem (LLMs, em inglês), mostra alguns resultados que podem trazer perguntas sobre o futuro do poker – vamos conferir.

O que alimenta a IA do GTO Wizard?

Em 2023, o GTO Wizard adquiriu a Ruse IA – um solver de poker avançado, criado por dois canadenses: Philippe Beardsell e Marc-Antoine Provost, um ano antes.

A Ruse IA atraiu a atenção do GTOW depois de vencer o atual campeão da Competição Anual de Computadores de Poker, além do melhor poker bot do momento em Heads Up No Limit, o Slumbot.

Eles jogaram segundo as regras da ACPC:

  • 150 mil mãos
  • Tempo de decisão médio restrito a 7 segundos por mão
  • Tamanho do stack retorna para 200 BBs depois de cada mão

A Ruse AI terminou esse HU com um win rate recorde de 19,4/100 BBs.

A grande diferença entre os modelos foi a abordagem. Ambos tentaram jogar perto do Equilíbrio de Nash, mas o Slumbot não adapta suas estratégias e nem explora erros do oponente, enquanto a Ruse IA analisou cada situação específica durante o jogo e resolveu em tempo real.

GTO Wizard IA vs. +20 outras LLMs

Cada heads-up de NLHE entre a IA do GTO Wizard e outras LLMs durou pelo menos 5 mil mãos.

Todas as principais LLMs participaram, incluindo versões diferentes do GPT, Gemini, Claude Opus, Kimi e Grok.

Os seus resultados foram bem chocantes de ver: todos os modelos simplesmente foram destruídos pela IA do GTO Wizard no heads-up de poker.

GPT – 5.3 (XHigh Reasoning) foi a que melhor se ajustou, com um win rate negativo de 16/100 BBs.

GPT – 5.4 (No Reasoning) foi o pior nos ajustes, com um win rate negativo de 189,7/100 BBs.

Para contextualizar: o GTO Wizard usou 4/100 BBs como um marco de win rate entre os principais jogadores de elite. E o experimento mostrou que até mesmo as melhores LLMs que não estão relacionadas com poker perdem pelo menos 4x mais do que essa marca.

Todos os resultados do experimento estão inseridos em uma tabela. Aqui está o Top 10:

Ranking de IA no pôquer

Você pode checar os resultados completos no site de testes do GTO Wizard.

Aliás, o GTO Wizard abriu esse projeto para uma competição ainda mais larga: qualquer pessoa que quiser submeter seus agentes para teste contra o GTOW IA pode.

Por que LLMs jogam poker tão mal?

Seguindo seu experimento, o GTO Wizard deduziu quatro aspectos principais do poker que explicam porque as LLMs jogam tão mal umas contra as outras:

  1. Informação escondida: você nunca vê as cartas do oponente
  2. Balanceamento de ranges ao redor de milhares de pontos de decisão
  3. Planejamento de longo prazo com cada ação moldando as próximas
  4. Incertezas profundas sobre os modelos do oponente

Enquanto as LLMs são capazes de resolver equações diferenciais, elas não conseguem trabalhar com algo tão delicado como, por exemplo, construir uma estratégia balanceada para o river.

Além disso – e mais engraçado ainda – as vezes elas costumam ler errado suas próprias mãos, tomando decisões erradas sem querer. O experimento mostrou que elas confundem mãos naipadas e offsuited em aproximadamente 2% das mãos.Por fim, Cesar Enrique Aponte Rivas, a pessoa que auditou Gemini e Grok, também compartilhou no X uma conclusão bem interessante sobre LLMs e poker:

Cesar Enrique Aponte Rivas

Elas falham constantemente em integridade lógica e não estão nem próximas do nível profissional do GTO. Poker é o maior teste de realidade para as LLMs

A IA do GTO Wizard “zerou” o poker?

Bem, os desenvolvedores dizem que “a IA do GTO Wizard joga quase perfeitamente a estratégia de Equilíbrio de Nash” e que “nenhum humano conseguirá vencê-la em uma amostra significativa”.

Isso implica que mesmo os jogadores profissionais da elite que ganham contra outros humanos a taxa de 4/100 BBs também irão perder contra a IA do GTO Wizard.

Isso parece assustador, até que você considere algumas coisas:

  • A IA do GTO Wizard é efetiva contra LMMs burras – nunca foi testada extensivamente e publicamente contra profissionais reais.
  • A IA do GTO Wizard foi excelente apenas em HU de NL Texas Hold’em – mas o poker mantém outros tipos que também não são simples de resolver.
  • A IA do GTO Wizard não é uma ferramenta publicamente disponível – ela alimenta o solver da GTO Wizard, mas não pode ser usada por ninguém além dos desenvolvedores.
  • Solvers seguem sendo proibidos durante partidas em plataformas de poker online – times de segurança seguem monitorando até mesmo processadores de background e banem jogadores que violam restrições.

Para completar, os resultados destas partidas de heads-up podem até mesmo soar esperançosas para jogadores profissionais, confirmando que as LLMs disponíveis para o público geral continuam ruins no poker, então qualquer pessoa usando-as para dicas será um oponente fácil.