Apagão cibernético - CrowdStrike o que realmente aconteceu?

    No atual cenário digital, onde a segurança cibernética é a primeira linha de defesa para grandes corporações, uma única falha pode desencadear um efeito devastador em escala global. Foi exatamente isso que ocorreu há três semanas, quando uma atualização mal-sucedida no Falcon Sensor da CrowdStrike mergulhou empresas em todo o mundo em um apagão cibernético sem precedentes. Este artigo explora detalhadamente as causas do problema, como ele se manifestou e as lições que podem ser aprendidas com esse incidente.




1. O Falcon Sensor e seu Papel no Ecossistema de Segurança

    A plataforma de segurança da CrowdStrike, com arquitetura baseada em nuvem, utiliza inteligência artificial e aprendizado de máquina para detectar e responder a ameaças cibernéticas em tempo real. O Falcon Sensor, que atua como um EDR, é essencial para uma arquitetura de segurança "zero trust" e integra-se a outras ferramentas de segurança para proteger o ambiente de TI. Instalado em dispositivos on-premises, ele coleta informações de segurança e as envia para a plataforma na nuvem, funcionando como os olhos e ouvidos do sistema. Seu papel é crucial para o pleno funcionamento dos serviços de segurança oferecidos pela CrowdStrike.

2. O Problema: Uma Atualização Mal-Sucedida

    O apagão cibernético foi desencadeado por uma atualização no EDR da CrowdStrike. Especificamente, essa atualização continha um erro de lógica (provavelmente um loop infinito do tipo "while true") que causou falhas críticas no sistema operacional Windows, resultando na temida "tela azul da morte". De acordo com informações da CrowdStrike, esse erro foi introduzido acidentalmente pela equipe de desenvolvimento durante um ciclo de manutenção de rotina, possivelmente devido a um commit incorreto feito diretamente na branch de produção em vez de em homologação (sobre o "While True" e a última parte são apenas suposições por parte do autor).

    Após a atualização, o EDR começou a apresentar falhas em diversos dispositivos, interrompendo a execução dos sistemas operacionais e deixando vários servidores críticos offline. O impacto foi particularmente severo devido ao perfil dos clientes da CrowdStrike, que são em sua maioria grandes organizações e multinacionais que operam em setores de infraestrutura crítica. Isso fez com que o impacto do incidente fosse massivo e imediato.

3. Impacto no Windows e na Microsoft

    O sistema operacional Windows foi o mais prejudicado, provavelmente devido à sua ampla utilização. A falha no Falcon Sensor causou problemas de login e falhas críticas no sistema, resultando na temida "tela azul da morte". Isso exigiu uma resposta rápida e conjunta da Microsoft e da CrowdStrike. Em pouco tempo, as duas empresas lançaram uma ferramenta de recuperação para minimizar os danos causados aos sistemas afetados.

    Esse incidente evidenciou a interdependência crítica entre as soluções de segurança de terceiros e o sistema operacional da Microsoft. Vale destacar que, segundo informações da CrowdStrike, o Falcon é majoritariamente utilizado em sistemas operacionais Windows.



4. Setores e Empresas Afetadas

    O apagão cibernético causado pela atualização defeituosa do Falcon Sensor teve um impacto significativo em diversos setores críticos. Entre os setores mais afetados estão saúde, financeiro, serviços públicos e tecnologia. No Brasil, várias empresas relataram problemas devido ao incidente:

  • Banco Itaú Unibanco: Um dos maiores bancos da América Latina enfrentou sérias dificuldades internas devido à atualização defeituosa. Diversos clientes e usuários relataram instabilidades em sistemas de atendimento e processamento de transações bancárias. A equipe do banco agiu rapidamente para isolar os sistemas afetados, minimizando os impactos.
  • Hospital Albert Einstein: O hospital israelita, uma referência em saúde no Brasil, sofreu com problemas nos sistemas de gerenciamento de pacientes e registros médicos eletrônicos. Os principais impactos foram atrasos no atendimento e na realização de procedimentos médicos. O hospital adotou medidas de contingência para garantir a continuidade dos serviços durante o incidente.
  • TOTVS: Uma das maiores empresas de tecnologia do Brasil também foi afetada pelo apagão. A empresa enfrentou dificuldades operacionais internas e problemas no suporte ao cliente, resultando em atrasos na entrega de serviços. A equipe da TOTVS trabalhou diretamente com a CrowdStrike para corrigir os problemas e restaurar a normalidade nas operações.
  • GOL Linhas Aéreas: A gigante da aviação brasileira teve problemas com o sistema de check-in e reservas de passagens, o que causou atrasos nos voos e insatisfação entre os clientes. A empresa recorreu a processos manuais temporários para manter suas operações enquanto o incidente estava sendo resolvido.
  • Eletrobras: A maior companhia elétrica da América Latina enfrentou problemas relacionados ao controle de energia. A falha nos sistemas de gestão de energia levantou preocupações sobre possíveis interrupções na distribuição de energia em algumas regiões.

    Além das empresas mencionadas, outras organizações que também sentiram os efeitos do apagão cibernético incluem Stefanini, Microsoft, o National Health Service (NHS) do Reino Unido, HSBC (Reino Unido), Banco Bradesco, Hospital Sírio-Libanês e HCA Healthcare (EUA).


5. Lições Aprendidas e Reflexões Finais

    O apagão cibernético causado pela atualização defeituosa do Falcon Sensor serve como um  lembrete da importância de práticas rigorosas de controle de qualidade e testes em atualizações de software, mais ainda em soluções de segurança. Idealmente, novas atualizações deveriam ser testadas em um ambiente de homologação antes de serem aplicadas em produção. Esses ambientes de testes não apenas permitem a verificação das atualizações, mas também possibilitam a validação de regras de segurança e outras mudanças significativas no ambiente.

    O incidente destacou que mesmo sistemas sofisticados podem apresentar vulnerabilidades significativas. Revelou a necessidade crucial de colaboração entre fornecedores de software e plataformas, como a Microsoft, para mitigar riscos e responder rapidamente a falhas.

    Além disso, o evento evidenciou a importância de ter um plano robusto de resposta a incidentes e de recuperação de desastres (disaster recovery). Esses planos são essenciais para garantir uma recuperação rápida e eficiente diante de falhas imprevistas. Apesar da resolução relativamente rápida do problema, com a solução sendo alcançada em aproximadamente 24 horas, os impactos da indisponibilidade dos sistemas foram grandes e, em muitos casos, irreversíveis.

    Analisar profundamente este incidente pode proporcionar insights para prevenir ocorrências futuras. O apagão cibernético causado pelo Falcon Sensor representa um dos maiores desafios recentes enfrentados pela comunidade de segurança cibernética. Ele ressalta que, apesar dos avanços significativos em proteção digital, a complexidade dos sistemas modernos pode levar a falhas inesperadas, cujas consequências podem ser devastadoras. Aprender com esses eventos e implementar as lições aprendidas é fundamental para fortalecer a resiliência cibernética no futuro.

Let's Hacking


Comentários