Log in

Insegurança Artificial II — A propósito do Mythos

José Estêvão de Melo
Engenheiro Informático

Há cerca de seis meses escrevi neste mesmo espaço sobre as várias formas como a Inteligência Artificial pode ser atacada e usada como vetor de ataque, em particular através de prompt injection, adversarial attacks e data poisoning. Na altura, o exemplo mais inquietante que consegui imaginar era um email malicioso conseguir enganar um assistente de IA a enviar a palavra-passe de um utilizador para fora. Hoje, esse cenário parece-me quase inocente, e o motivo tem nome: Mythos.

A 7 de Abril deste ano, a Anthropic, empresa norte-americana criadora do Claude, anunciou um novo modelo, o Claude Mythos. O anúncio, contudo, não foi feito como qualquer outro lançamento de IA a que nos habituámos nos últimos anos. A Anthropic decidiu não disponibilizar o modelo ao público em geral, justificando essa decisão com o argumento de que o Mythos é simplesmente demasiado perigoso para ser libertado. Em vez disso, criou uma iniciativa chamada Project Glasswing, um consórcio fechado de cerca de uma dúzia de grandes empresas, entre as quais a Microsoft, a Apple, a Google, a Amazon Web Services, a Cisco, a CrowdStrike, o JPMorgan Chase, a NVIDIA e a Linux Foundation, ao qual foram posteriormente convidadas mais cerca de quarenta organizações. O objetivo declarado é dar a estes parceiros tempo para corrigirem vulnerabilidades nos seus sistemas antes que capacidades semelhantes cheguem às mãos de atacantes.

E que capacidades são essas? Em pouco mais de um mês de testes internos, o Mythos identificou autonomamente milhares de vulnerabilidades de severidade alta ou crítica, das quais mais de 99% ainda não estavam corrigidas no momento do anúncio. Encontrou falhas em todos os principais sistemas operativos, incluindo Windows, macOS, Linux, FreeBSD e OpenBSD, e em todos os principais browsers de Internet, incluindo Chrome, Firefox, Safari e Edge. Entre os exemplos divulgados pela Anthropic está um bug com 27 anos no OpenBSD, um sistema operativo conhecido precisamente por ser dos mais seguros do mundo, uma falha de 16 anos no FFmpeg, e uma vulnerabilidade no FreeBSD (catalogada como CVE-2026-4747) que permite a qualquer pessoa na Internet, sem qualquer autenticação, obter controlo total sobre um servidor. Esta última foi descoberta e explorada de forma totalmente autónoma pelo modelo, sem qualquer intervenção humana, em algumas horas de trabalho.

Mais inquietante ainda é que estas capacidades não foram intencionalmente treinadas. Segundo a própria Anthropic, surgiram como consequência natural das melhorias gerais em programação, raciocínio e autonomia do modelo, e os mesmos avanços que tornam o Mythos eficaz a corrigir vulnerabilidades tornam-no igualmente eficaz a explorá-las. A acrescentar, num episódio que merecia um capítulo só para ele, o modelo terá conseguido escapar do ambiente isolado (sandbox) em que estava a ser testado, ligar-se à Internet e publicar online, sem que ninguém lhe tivesse pedido, os detalhes do que tinha feito.

No artigo anterior, citei o Tio Ben para falar do binómio entre poder e responsabilidade. Hoje, a discussão é outra. Engenheiros sem formação em cibersegurança, segundo descrição da própria Anthropic, podiam pedir ao Mythos para encontrar vulnerabilidades durante a noite e, na manhã seguinte, encontrar à sua espera um exploit funcional. O que tradicionalmente exigia equipas altamente especializadas, semanas ou meses de trabalho e custos elevados, passa a estar ao alcance de qualquer pessoa com acesso ao modelo. Investigadores independentes, como a empresa AISLE, demonstraram entretanto que algumas destas vulnerabilidades podem ser detetadas por modelos abertos, muito mais pequenos e baratos, com cerca de 11 cêntimos por milhão de tokens, o que reforça a ideia de que esta capacidade dificilmente ficará confinada a um único modelo ou a uma única empresa.

E é aqui que esta história deixa de ser apenas técnica e passa a ser também geopolítica. A Anthropic pode ter optado, e bem, por reter o Mythos. Mas, como já notou um dos participantes do consórcio, a China terá uma versão equivalente em cinco ou seis meses, e existirá uma alternativa em código aberto dentro de um ou dois anos. A janela de proteção que o Project Glasswing oferece é, portanto, muito curta. E nessa janela, quem está em condições de a aproveitar? Sem surpresa nenhuma, e em linha com o que escrevi recentemente sobre a dependência tecnológica europeia, todas as empresas do consórcio são norte-americanas. O modelo é norte-americano. A infraestrutura cloud onde corre é norte-americana. As empresas que estão a corrigir as vulnerabilidades dos sistemas que sustentam grande parte da Internet, dos bancos aos hospitais, são norte-americanas. A Europa, mais uma vez, não está na sala.

A questão já não é se a Europa precisa de soberania digital. A questão é quanto tempo ainda vai demorar a perceber que essa soberania, sem capacidade própria em IA de fronteira e sem uma estratégia séria de cibersegurança ofensiva e defensiva à altura desta nova realidade, é uma palavra vazia. Os assistentes de IA de que falei no artigo anterior continuam vulneráveis a prompt injection. Os sistemas que os suportam, esses, passaram agora a ser vulneráveis a algo bastante mais sofisticado: outras IAs, capazes de encontrar nas suas entranhas falhas que sobreviveram décadas à revisão humana. O futuro da cibersegurança vai ser, inevitavelmente, uma corrida entre IAs ofensivas e IAs defensivas. Resta saber de que lado da corrida vamos estar.

avatar-custom

José Estêvão de MeloEngenheiro Informático

Comentários

  1. avatar Octávio Lima 22-04-2026 22:45:47

    Desculpe a ironia e o sarcasmo, ma isso vai melhorar a qualidade dos solos que produzem o tão afamado vinho de cheiro?

Leave a Reply

Your email address will not be published. Required fields are marked *

CAPTCHA ImageChange Image