Ataque à IA Generativa da McKinsey: lições aprendidas para as organizações

Rodrigo Castro

7 min

O que podemos aprender com o ataque à Gen AI da McKinsey?

No dia 09/03/2026 a empresa de pentest de IA Code Wall reportou um ataque realizado ao modelo de GenAI da Mckinsey. Os detalhes do ataque ao Lilli, plataforma interna de IA generativa da McKinsey, expõem um cenário que toda empresa que usa ou pretende usar IA precisa encarar de frente. Em poucas horas, um agente autônomo de testes de intrusão conquistou acesso de leitura e escrita ao banco de dados de produção da ferramenta, a partir de uma cadeia de vulnerabilidades que inclui uma injeção de SQL em endpoint sem autenticação, falhas de controle de acesso e ausência de proteção adequada aos ativos de IA mais sensíveis da organização.

3 grandes preocupações

Do ponto de vista de risco, três preocupações se destacam de forma inequívoca. A primeira é o surgimento de agentes de IA que escolhem sozinhos seus alvos, mapeiam superfícies de ataque, encadeiam vulnerabilidades e escalam privilégios em velocidade e profundidade incompatíveis com o modelo tradicional de defesa. A segunda é o fato de uma das consultorias mais sofisticadas e respeitadas do mundo ter exposto justamente seu ativo mais valioso: o capital intelectual consolidado em sua plataforma de IA, com milhões de mensagens, centenas de milhares de arquivos e toda a estrutura de uso interno acessível sem as devidas proteções. A terceira, frequentemente subestimada, é que o risco vai muito além do vazamento de dados: entra em jogo a reputação da organização e a confiança nos próprios sistemas de apoio à decisão, já que o atacante, a partir do controle do banco, poderia alterar silenciosamente os prompts de sistema que moldam o comportamento da IA, comprometendo a qualidade e a integridade das respostas sem deixar rastros óbvios.

Quando um agente autônomo de IA define o alvo e conduz o ataque de ponta a ponta, a lógica de ameaça muda radicalmente. No caso do Lilli, o agente partiu de um simples domínio público, varreu a superfície de APIs, identificou documentação acessível na internet, mapeou mais de 200 endpoints, isolou aqueles sem autenticação e, em um deles, explorou uma combinação de injeção de SQL e falha de validação de parâmetros que não foi detectada por ferramentas tradicionais de segurança.

Esse padrão ilustra um deslocamento importante: não se trata mais apenas de atacantes humanos pontuais, mas de “forças de ataque” automatizadas, persistentes, que combinam exploração técnica com raciocínio adaptativo. As empresas passam a conviver com um adversário que testa continuamente hipóteses, explora erros de configuração e conecta pontos de forma inteligente, vinte e quatro horas por dia. Isso exige que a defesa abandone uma postura reativa e fragmentada e se mova para um modelo contínuo de visibilidade, proteção de dados e resposta a incidentes, com especial atenção às camadas específicas dos sistemas de IA.

O segundo ponto crítico do caso McKinsey é simbólico e prático ao mesmo tempo: se uma organização cujo negócio central é o conhecimento estratégico expõe, em escala, seu próprio acervo intelectual por meio de uma plataforma de IA, nenhuma empresa pode supor que seus controles atuais sejam suficientes. O ataque revelou dezenas de milhões de mensagens de chat, centenas de milhares de arquivos em formatos diversos e dezenas de milhares de contas de usuário e assistentes internos.

Os nomes dos arquivos e suas localizações já configuram informação sensível; o conteúdo, em muitos casos, envolve estratégias, projeções financeiras, fusões e aquisições, dados de clientes e metodologias proprietárias. A superfície de ataque não se limita mais a bancos de dados transacionais ou sistemas legados: agora inclui vetores de IA, bases de conhecimento de RAG, repositórios de prompts, logs de interação e integrações com serviços externos. Quando essa infraestrutura não recebe o mesmo rigor de segurança que um core bancário ou um ERP financeiro, a empresa transfere, na prática, seu ativo mais sensível para uma “zona cinzenta” com controles incompletos, mas com uso intenso por milhares de colaboradores.

A terceira preocupação, talvez a mais estratégica, está no impacto reputacional e na confiança organizacional. No incidente do Lilli, a vulnerabilidade permitia não apenas leitura, mas escrita no banco de dados da plataforma.

Isso significa que um atacante poderia alterar, sem necessidade de novo deploy ou mudança de código, os prompts de sistema que definem o comportamento da IA: quais fontes prioriza, como responde, que limitações respeita, que dados considera ou omite. Em uma consultoria, o consultor confia na ferramenta interna como se fosse uma extensão da própria firma. Se o prompt de sistema passa a introduzir vieses, distorcer cálculos ou induzir a recomendações equivocadas, o erro contamina propostas, análises, apresentações e decisões de alto impacto. E o pior: sem logs adequados, sem trilha de auditoria específica para alterações de prompts e sem controles de integridade, a alteração pode permanecer invisível por muito tempo. O risco, então, deixa de ser apenas “vazamento de dados” e passa a incluir perda de credibilidade da empresa junto a clientes, reguladores e ao próprio corpo interno de decisão.

O que fazer para se proteger

Diante desse cenário, algumas diretrizes práticas se mostram essenciais para qualquer organização que já utiliza ou se prepara para utilizar IA generativa em processos relevantes.

Proteja seus dados

A empresa estabelece, antes de tudo, uma definição clara do que considera dado sensível, incluindo não apenas dados pessoais e financeiros, mas também documentos estratégicos, propriedade intelectual, modelos de negócio, cenários de risco, informações de clientes e qualquer artefato que, se exposto, gere perda competitiva ou regulatória. A partir desse mapeamento, o ambiente se estrutura com descoberta e classificação sistemática de dados, segmentação por criticidade, uso consistente de criptografia em repouso e em trânsito, controle rigoroso de quem acessa o quê e em que contexto, além de sanitização dos conjuntos de treinamento para remoção ou mascaramento de dados pessoais e confidenciais. Políticas de prevenção de perda de dados em interfaces de IA – internas ou externas – passam a ser mandatórias, não opcionais: a organização delimita claramente quais dados jamais transitam por aplicações públicas de IA e implementa mecanismos técnicos para bloquear esse uso.

Controle o acesso dos seus modelos e infra de GenAI

A experiência do Lilli mostra que não basta proteger o código-fonte ou o modelo em si; é preciso tratar como criticamente sensíveis as APIs, os bancos que armazenam prompts, mensagens, embeddings e configurações, bem como os serviços que orquestram fluxos de treinamento e deploy. A organização estrutura um modelo de identidade e acesso que realmente segue o princípio do menor privilégio: somente quem necessita efetivamente de acesso à camada de modelos, pesos, prompts ou dados de treinamento o recebe, com perfis específicos, revisões periódicas e trilhas de auditoria claras. Endpoints expostos à internet adotam autenticação forte, controle de taxa de requisições e verificação estrita de parâmetros, evitando que qualquer usuário não autenticado alcance consultas a banco, como ocorreu no caso McKinsey. A permissão de disparar pipelines de treinamento, alterar configurações de RAG ou editar prompts de sistema permanece restrita a poucos perfis com dupla validação e registro detalhado de alterações.

Implemente mecanismos para detecção de anomalias

Uma plataforma como o Lilli gera enorme volume de interações, tráfego de API, consultas a bases de conhecimento e operações sobre bancos de dados. Em um ambiente maduro, esses sinais alimentam mecanismos de detecção que procuram padrões fora do comportamento esperado, tanto em nível de infraestrutura quanto de uso. Picos atípicos de consultas a determinados recursos, acessos incomuns a endpoints administrativos, padrões estranhos de chamadas vindas de um mesmo IP ou região, consultas que expõem o formato interno de erros de banco, tudo isso precisa gerar alerta e investigação célere. Além disso, o próprio comportamento da IA merece acompanhamento: alterações súbitas no tipo de resposta, mudança de padrão de citação de fontes, surgimento de vieses antes inexistentes ou menções a dados que não deveriam estar disponíveis podem funcionar como indicadores de comprometimento da camada de prompts ou de dados de treinamento. A monitoração deixa de ser genérica e passa a incorporar sinais específicos da operação de IA, inclusive na fronteira com provedores externos.

Crie um processo de resposta a incidentes

Um plano genérico de cibersegurança, que trata apenas de servidores, redes e aplicações tradicionais, não contempla adequadamente situações como comprometimento de modelos, contaminação de dados de treinamento, alteração de prompts ou abuso de APIs de IA por agentes automatizados. A organização define, de forma prévia, como isola rapidamente componentes de IA comprometidos, como realiza rollback de configurações e prompts para versões conhecidas e confiáveis, como bloqueia tráfego malicioso para endpoints de IA e como conduz análise de impacto especificamente sobre decisões e entregas apoiadas pela plataforma comprometida. Esse plano precisa definir responsáveis, fluxos de comunicação interna e externa, critérios de notificação a clientes e reguladores e procedimentos de coleta de evidências que permitam entender se houve apenas leitura indevida, alteração de comportamento da IA ou ambos. A integração com as demais ferramentas de operações de segurança, como sistemas de registro de incidentes, canais de alerta e orquestração de resposta, garante que eventos relacionados à IA não permaneçam isolados ou subnotificados.

Conclusão

O caso do Lilli demonstra que IA generativa não constitui apenas um novo recurso tecnológico, mas inaugura uma nova camada de risco corporativo. As organizações que aguardam “maior maturidade das soluções e dos frameworks” antes de agir, na prática, apenas transferem o custo do aprendizado para o futuro, com probabilidade crescente de incidentes de alto impacto. A adoção de medidas concretas de proteção de dados, controle de acesso a modelos, monitoração orientada a anomalias específicas de IA e preparo para resposta a incidentes com foco em IA se coloca como condição mínima para que os benefícios da tecnologia não sejam superados pelos riscos que ela, inevitavelmente, introduz. Você já sabe onde sua empresa guarda hoje os “crown jewels” de dados e prompts que alimentam seus modelos de IA?

Rodrigo Castro

Rodrigo Castro é Diretor Geral da Nexoria. Ele tem mais de 20 anos de experiência em consultoria e está constantemente em busca de soluções digitais transformadoras que ajudem empresas a enfrentarem seus riscos digitais com resiliência.

Ataque à IA Generativa da McKinsey: lições aprendidas para as organizações

O que podemos aprender com o ataque à Gen AI da McKinsey?

3 grandes preocupações

O que fazer para se proteger

Proteja seus dados

Controle o acesso dos seus modelos e infra de GenAI

Implemente mecanismos para detecção de anomalias

Crie um processo de resposta a incidentes

Conclusão

Rodrigo Castro

Publicações recentes

Do Antivírus ao EDR/XDR: por que a segurança mudou e ninguém te contou

Quando o alvo é a defesa: o papel dos EDR Killers nos ataques modernos

Spear phishing: os 7 principais sinais de ameaça à sua empresa

A segurança tradicional não protege sua IA; conheça a UADP

De obrigação regulatória a ferramenta de defesa: o papel estratégico do ROPA

Shadow AI: entre a ilusão da produtividade e o pânico do bloqueio