任何需要人工操作的事情都只会延长恢复时间,一个可以自动恢复的系统,即使有更多的故障发生,也要比事事都需要人工干预的系统可靠性更高,当不可避免的需要人工介入时,我们也发现于船到桥头自然直的态度相比,通过事先预案并且将最佳方法记录在运维手册上,通常事先预案并且将最佳方法记录在运维手册(playbook)上可以便MRRT降低三倍以上,初期几个万能的工程师的确可以解决生产问题。但是长久看来,一个手持运维宝典经过多次演习的on-call工程师才是正确之路多么完备的。运维手册也无法替代人的创新思维,但是在巨大的时间压力和产品压力下,运维手册中记录的清晰调试步骤和分析方法,对处理问题的人是不可或缺的,因此谷歌SRE将大部分工作重心放在运维手册的维护上,同时通过wheel of misfortune等项目,不断培训团队成员.