返回首页
当前位置: 主页 > 营养学 >

没有浑然一体的技巧!携程工作以后,技巧专家

时间:2020-05-20 01:30 | 来源:原创 | 作者:admin | 点击:次 | 我要投稿
【编者按】携程宕机工作留给业内有数反思。官方最后说法是“局部效劳器遭到不明进击”,然则“紧急恢复”迟迟不胜利,5月29日凌晨恢复效劳后,携程称是“员工毛病操作招致”。

  【编者按】携程宕机工作留给业内有数反思。官方最后说法是“局部效劳器遭到不明进击”,然则“紧急恢复”迟迟不胜利,5月29日凌晨恢复效劳后,携程称是“员工毛病操作招致”。而网下传达的说法,说数据库数据和备份数据被物理删除者有之,说各个节点的营业代码被删除有之,纷歧而足。本文依据微信群的专家评论辩论和各大众号文章整顿技巧人应当掉掉落的一些启发。

  复杂来讲,事件基本后果是效劳依附和启动依附办理没做好,使得局部红绩扩大化了。从携程最后的说明来看,他们的后端是典范的微效劳架构,然则恢复时间这么久,也就是没看法到微效劳会带来依附办理的隐患,自己把自己坑出来了。那么几百上千个效劳相互依附,假设只是平常在线安排更新,不会中断效劳,都看似运迁移转变摇。然则一旦一个效劳挂了,就连带全部系统像多米诺骨牌一样依次挂掉落,这就是为甚么一末尾只是APP效劳出后果,开展到后来全部后端都不运转了。然后恢复这上千个效劳的时分,因为复杂的依附,肯定启动依次和启动以后的验证就十分耗时。说明他们外部效劳安排的依附办理是没有足够智能和主动化,掺入了很多手工操作的任务。所以我认为携程此次出现后果,主要照样在微效劳架构实际上的掉误。假设应用了Docker如许的容器,在前期恢复效劳时分可以取得很多安排速度上的晋升,也容许以增加恢复所需的时间。但其实不能从基本上根绝这类后果的爆发。Docker在集群化安排的实际外面会比拟强调依附办理主动化,比如Compose就是做这个的。但也不是一切Docker集群对象都有,比如Kubernetes就不包罗效劳依附的办理。应用了容器,比如Docker以后,会让效劳的安排变得复杂,运维人员便可以把留心力更集中在效劳层面的调解和办理上,不被细节专心。从这个层面上就更轻易从系统全局上存眷安排依次和局部缺点处理这些工作。

  作为运维老兵,智锦第一时间在大众号也发了一篇深度文章《

  深化解析和反思携程宕机工作》。

  从现象上看,确实是携程的应用依次和数据库都被删除。这是一个由运维激发的后果,但真实的根源其实不只仅在运维,预防和办理更应当从全部企业的办理入手。运维就是需求预防小概率工作,运维制度化是靠产品化去完成的,制度和流程要固化到产品中去。

  真正有效的根源处理做法是从黑盒运维(运维人员不时的去做重复性的操作,不知道应用的依附关系,哪些设备是有效设备、哪些是有效设备)走向白盒运维。和puppet如许的运维对象理念不合,运维的中间和难点实际上是设备办理,运维人员只要真实的清晰所办理的系统的功用和设备,才华从根源上处理四周救火疲于奔命的状况,也才华真实的根绝明天携程如许的工作重现,从基本上处理运维的后果。

------分隔线----------------------------
无法在这个位置找到: ajaxfeedback.htm
推荐内容