Amazon informa que interrupção no serviço foi erro humano

A Amazon informou com uma postagem, que a interrupção de mais de 3 horas no serviço de nuvem Simple Storage Service (Amazon S3), que resultou em falhas de vários de seus clientes, ocorrida em 28 de fevereiro de 2017, foi devida a um erro humano.

Havia um problema de lentidão no sistema de cobrança, um membro do time S3 iria executar um comando para remover um pequeno número de servidores, mas por descuido, acabou removendo um grande número de servidores.

The Amazon Simple Storage Service (S3) team was debugging an issue causing the S3 billing system to progress more slowly than expected. At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.

A Amazon disse que está efetuando mudanças, já modificaram uma ferramenta de remoção dos servidores, adicionaram um sistema de segurança e melhorará o tempo de recuperação dos subsistemas.

Finalizou se desculpando pelo ocorrido:

Finally, we want to apologize for the impact this event caused for our customers. While we are proud of our long track record of availability with Amazon S3, we know how critical this service is to our customers, their applications and end users, and their businesses. We will do everything we can to learn from this event and use it to improve our availability even further.

Compartilhe
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •