O Google e o Facebook encontraram erros de cálculo imprevisíveis cada vez mais comuns que podem ser rastreados até a CPU. Isso pode ter consequências graves.
Até agora, as CPUs foram consideradas amplamente confiáveis em termos de seus cálculos, apesar dos repetidos erros aritméticos. Isso parece estar mudando agora, conforme relatado pelo Google, entre outros. As CPUs cada vez mais sofisticadas calculam aparentemente cada vez mais incorretamente, o que é particularmente evidente em grandes centros de dados. O Facebook notou recentemente um aumento da chamada “corrupção silenciosa de dados”.
O engenheiro do Google, Peter Hochschild, relatou na semana passada na conferência Hot Topics in Operating Systems (HotOS) 2021 que as equipes de produção da empresa de mecanismos de busca estavam reclamando cada vez mais sobre máquinas que corromperiam dados. As máquinas teriam danificado vários aplicativos estáveis e, na verdade, sem erros. Nos exames convencionais, porém, não foram encontrados erros, de acordo com um correspondente Mensagem.
Os engenheiros do Google então voltaram sua atenção para o hardware. O resultado: erros de hardware ocorreram com mais freqüência do que o esperado. Além disso, os problemas teriam surgido esporadicamente e muito depois da instalação – e especialmente com núcleos de CPU individuais. O Google descreve o fenômeno como Erros de Execução Corrupta Silenciosa (CEE) e os núcleos com comportamento incorreto como imprevisíveis.
Em fevereiro, o Facebook publicou um relatório no qual o grupo de mídia social descreveu a corrupção silenciosa de dados como um fenômeno que agora está ocorrendo com mais frequência em data centers do que deveria ser previsto. O Facebook não deu uma razão para isso. Para o Google, entretanto, está claro que a computação cada vez mais rápida e os designs de CPU menores são responsáveis por como The Register escreve.
O problema: os erros de cálculo podem ter consequências graves. Diz-se que uma CPU em um data center do Google realizou um tipo de ataque de ransomware imprevisível, no qual a máquina criptografou algo – incorretamente – de tal forma que somente ela poderia descriptografá-lo novamente. Os especialistas também veem os travamentos e a perda de dados como desafios crescentes. O Google e o Facebook agora querem expandir seus testes para encontrar soluções para o problema.