prgmr的硬盘损坏导致客户的VPS数据丢失事件

prgmr.inc是美国加州的一家IaaS服务商,主要是提供基于xen的虚拟机。这个公司本来只有一个人,现在扩张到大概有2-3个。一共有70多台Dom0主机,并承诺99.5%的可用性(实际都在99.9%左右),这些主机主要都由Luke Crawford一人维护,所以我很佩服他的运维能力。

但是天有不测风云。这周,有一台Dom0机器(boutros)的硬盘突然坏了。这个机器一共8块硬盘,做的是raid10。结果一次性坏掉了3块(4块?),恰好有两块硬盘是属于同一个Mirror,于是就惨了,RAID整个坏掉处于不可用的状态,只能手工做数据恢复。

具体的经过可见这里:http://wiki.prgmr.com/mediawiki/index.php/20121124boutros_post-mortem

(困。先睡了,过几天再更新详细的经过)

此博客中的热门博文

少写代码,多读别人写的代码

在windows下使用llvm+clang

tensorflow distributed runtime初窥