Quase três semanas após uma atualização mal feita do CrowdStrike ter causado um dos maiores apagões tecnológicos da história, a empresa publicou sua investigação aprofundada sobre o que aconteceu e os motivos. O relatório Root Cause Analysis do CrowdStrike elabora as informações compartilhadas anteriormente em sua revisão preliminar Post Incident Review .
A CrowdStrike investigou as causas raiz do erro que levou as máquinas Windows a exibirem a tela azul da morte — e admite que seu processo de testes deixou muito a desejar. A empresa certamente enfrentou um momento difícil nas semanas desde a paralisação, depois de ter sido processada por investidores na semana passada. A CrowdStrike e o CEO da Delta também estão trocando palavras depois que a companhia aérea culpou a empresa de segurança por US$500 milhões em perdas.
Leia também
O que aconteceu
Em seu RCA, a empresa descreve como seu sensor CrowdStrike Falcon “oferece IA e aprendizado de máquina para proteger os sistemas do cliente, identificando e remediando as ameaças avançadas mais recentes”. O problema que levou à interrupção decorre de um novo recurso que foi adicionado ao seu sensor em fevereiro, “para permitir a visibilidade de possíveis novas técnicas de ataque que podem abusar de certos mecanismos do Windows”.
Esse recurso, que usava um conjunto predefinido de campos para o Rapid Response Content coletar dados, foi desenvolvido e testado de acordo com os “processos padrão de desenvolvimento de software” da empresa. “Em 5 de março de 2024, após um teste de estresse bem-sucedido, o primeiro Rapid Response Content para o Channel File 291 foi lançado para produção como parte de uma atualização de configuração de conteúdo, com três atualizações adicionais de Rapid Response implantadas entre 8 de abril de 2024 e 24 de abril de 2024”, disse a CrowdStrike. Elas “tiveram o desempenho esperado” na produção.
No entanto, em 19 de julho de 2024, uma atualização do Rapid Response Content foi entregue a certos hosts Windows, “evoluindo o novo recurso lançado pela primeira vez em fevereiro de 2024”.
O sensor esperava 20 campos de entrada, mas a atualização forneceu 21 campos de entrada. “Neste caso, a incompatibilidade resultou em uma leitura de memória fora dos limites, causando uma falha no sistema”, escreveu CrowdStrike. Este cenário com o Channel File 291 agora é “incapaz de se repetir”, disse CrowdStrike, acrescentando que o que aconteceu agora está informando como ele testa as coisas daqui para frente.
O que vem a seguir, de acordo com a análise da causa raiz
Com base nas descobertas, a CrowdStrike disse que atualizará os procedimentos de teste do sistema de configuração de conteúdo, incluindo testes atualizados para desenvolvimento de tipo de modelo, com “testes automatizados para todos os tipos de modelo existentes”.
Ele também está adicionando camadas de implantação e verificações de aceitação para o sistema de configuração de conteúdo.
Muitas pessoas reclamaram sobre não ter a capacidade de controlar atualizações. A partir de agora, a CrowdStrike fornecerá aos clientes controle adicional sobre a implantação de atualizações do Rapid Response Content.
Enquanto isso, ele evitará a criação de arquivos problemáticos do Canal 291 ao implementar a validação do número de campos de entrada. O CrowdStrike também implementará verificações adicionais no validador de conteúdo e aprimorará a verificação de limites no interpretador de conteúdo para Conteúdo de Resposta Rápida no Arquivo de Canal 291.
Por fim, ele envolverá “dois fornecedores independentes de segurança de software de terceiros” para conduzir uma revisão mais aprofundada do código do sensor Falcon e dos processos de controle de qualidade e liberação.
“Olhando para o futuro, a CrowdStrike está focada em usar as lições aprendidas com este incidente para melhor atender nossos clientes”, disse a empresa em uma declaração por e-mail. “A CrowdStrike permanece firme em nossa missão de proteger os clientes e impedir violações.”