Adsense中国

 找回密码
 立即注册
查看: 1258|回复: 2

Adsense应急事件处理-GoogleSRE运维技术

[复制链接]

1380

积分

0

精华

1318

刀币

超级版主

Rank: 8Rank: 8

积分
1380
发表于 2020-12-15 13:57:08 | 显示全部楼层 |阅读模式
Adsense应急事件处理-GoogleSRE运维技术




可靠性是MTTF(平均失败时间)和MTTR(平均恢复时间)的函数,评价一个团队将系统恢复到正常情况的最有效指标就是MTTR.


任何需要人工操作的事情都只会延长恢复时间,一个可以自动恢复的系统,即使有更多的故障发生,也要比事事都需要人工干预的系统可靠性更高,当不可避免的需要人工介入时,我们也发现于船到桥头自然直的态度相比,通过事先预案并且将最佳方法记录在运维手册上,通常事先预案并且将最佳方法记录在运维手册(playbook)上可以便MRRT降低三倍以上,初期几个万能的工程师的确可以解决生产问题。但是长久看来,一个手持运维宝典经过多次演习的on-call工程师才是正确之路多么完备的。运维手册也无法替代人的创新思维,但是在巨大的时间压力和产品压力下,运维手册中记录的清晰调试步骤和分析方法,对处理问题的人是不可或缺的,因此谷歌SRE将大部分工作重心放在运维手册的维护上,同时通过wheel of misfortune等项目,不断培训团队成员.
回复

使用道具 举报

99

积分

0

精华

92

刀币

后起之秀

Rank: 1

积分
99
发表于 2021-3-9 19:25:27 | 显示全部楼层
运维属于超大公司设立的部门,要求有很强大的功底.
回复

使用道具 举报

112

积分

0

精华

101

刀币

无双隐士

Rank: 2

积分
112
发表于 2021-3-28 18:43:27 | 显示全部楼层
留下脚印,恶补
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Adsense中国

GMT+8, 2024-11-21 23:53 , Processed in 0.036767 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表