quarta-feira, 5 de outubro de 2011

Blogger Relatório de Incidente




Na quarta-feira 11 de maio às 10:00 pm PDT, Blogger entrou em um período de uma hora de manutenção programada para fazer melhorias para aumentar a confiabilidade do serviço.Infelizmente, os erros cometidos durante esse período teve o efeito oposto. Este relatório descreve o que estávamos fazendo, o que deu errado, como nós fixa-lo, e o que estamos fazendo para ajudar a prevenir esses tipos de problemas voltem a acontecer. Pedimos sinceras desculpas para o impacto desse incidente sobre autores e leitores do Blogger. 



O que estávamos fazendo Blogger mantém réplicas (cópias) de blogs em vários locais assim que se uma cópia torna-se indisponível - talvez devido a um cabo de rede corte ou perda do poder - blogs continuem a ser acessíveis. Durante este período de manutenção que tentou adicionar várias réplicas mais para ambos os redundância aumento (que ajuda a tornar o serviço mais robusto) ea capacidade (para que possamos servir mais blogs para mais pessoas). O procedimento exigido um período de somente leitura (sem novas mensagens , comentários ou blogs), enquanto nós adicionamos as novas réplicas. O procedimento parecia ir bem, e logo após 22:30 PDT que permitiu novos blogs, posts e comentários. Em seguida, observou uma maior taxa do que o normal de erros que está sendo relatado e rapidamente percebeu que a novas réplicas foram dados em falta. 


O que deu errado. Em seguida, reverteu a atualização de serviços e removido as réplicas recém-introduzidas.Durante este processo, descobrimos que a execução do Blogger com as réplicas de ruim tinha causado alguns dados do usuário para se tornar inacessível. Isto se manifestou em diversas maneiras, incluindo alguns blogs parecem ter sido substituídos, outros não exibição, e alguns usuários não podiam acessar seu dashboard. Resolver o problema Depois de várias horas de examinar estratégias diferentes para resolver os problemas de dados, decidimos para restaurar os dados Blogger dos nossos sistemas de backup. Primeiro tivemos que restaurar os dados de backups para nossa infra-estrutura que serve e depois tivemos que recuperar todos os posts, páginas e comentários que haviam sido feitas desde o backup foi feito. 


Embora restaurado o serviço de backup, Blogger permaneceu em leitura modo somente há pouco mais de 10 horas, após o que a maioria dos blogs voltou ao normal. A cópia de segurança, no entanto, tinha algumas inconsistências que afetou um percentual muito pequeno de blogs. Além disso, o processo usado para migrar as mensagens imediatamente após a restauração teve alguns imprevistos efeitos colaterais que tivemos de endereço. Uma vez que tínhamos todos os blogs restaurada, nós colocamos a nossa energia em direção à eliminação de incoerências e, gradualmente, restaurar posts, páginas e comentários. 


Este trabalho necessário detalhada, e nós nos concentramos em ser meticuloso para se certificar de que nós não criamos os problemas adicionais. Lições aprendidas e ações preventivas Aprendemos muito em um curto período de tempo sobre como gerenciar falhas na nossa manutenção e processos de recuperação. Nós identificamos várias áreas para corrigir e melhorar - incluindo as melhores ferramentas para reparar inconsistências em nossas armazenar dados, elementos defensivos em nosso software para proteger contra a corrupção, melhores procedimentos de backup e restauração, e algumas mudanças de procedimento para manutenção que teria impedido a inicial emissão. Também descrito como podemos melhorar nossa comunicação com usuários do Blogger deve algo como isso ocorrer novamente, o que inclui atualizações mais consistentes sobre o fórum de usuários.Durante este tempo, recebemos mensagens de apoio de alguns usuários para o qual estamos muito gratos. Usuários do Blogger ter passado horas incontáveis ​​a criação de blogs que são surpreendentes, criativos, importantes e pessoais. 


Essas horas tem, e para toda a ansiedade e frustração que este incidente causou alguns usuários do Blogger, sinceramente pedimos desculpas. Estamos empenhados em resolver os problemas rapidamente e usando nossas lições aprendidas para tentar se certificar de que este tipo de problema não aconteça novamente.




Fonte: http://status.blogger.com/
Por Eddie Kessler, Tech Lead / Manager, Blogger

0 comentários:

Postar um comentário