每年双十一或者遇到大型电商活动日,国内电商网站的技术团队就压力山大。过去几年间,一些大型网站相继出现了意外事故。比如,某电商网站在购物节高峰时段无法支付,某个上亿用户的APP突然停摆,甚至还有网站因为被黑导致用户账户信息外泄。网站一旦宕机,业务往往中断,不但使用体验下降,还造成了巨大的经济损失。 互联网企业为了保证网站服务的高稳定性和可用性,往往会组建SRE团队。SRE(Site Reliability Engineer)源自于Google,代表了一个全新的运维理念和其伴随的崭新的工程领域。团队的精华在于研发软件系统,将运维自动化以代替传统模型中的人工操作。 SRE工程师不只是维护各种线上服务的稳定性,还要负责保证各项服务的性能,对于应用程序的设计实现方式,依赖库,运行时的资源消耗都有严格制约,同时SRE强调的是对问题和故障的自动处理,而非人工干预。同时,SRE非常注重开发和运维职能的结合,极大地加快了业务应用迭代周期,提升了IT对业务的支撑能力。 360搜索SRE团队,是360搜索部门中运行和管理几万台服务器和各个业务线高效稳定发展的运维开发队伍。团队的成员对于技术的追求和探索从未止步,致力于将运维自动化代替传统运维的人工操作,同时保证所有服务的高稳定性和高可用性。 作为国内第二大搜索引擎,360搜索SRE团队也经常面临各种问题与挑战,例如:大型互联网应用部署规模从几千台到几万台不一,随着软件系统复杂度提升也呈现越来越庞大的趋势,如何通过少数人力管理好庞大复杂的应用环境?如何在环境极度复杂的情况下确保业务的质量?如何在确保质量的情况下优化迭代速度?360搜索SRE在解决这些问题时,积累了丰富的实战经验。 为了与行内人士一起分享这些问题解决方法,也希望能给所有从事运维开发行业的人员提供一个交流平台。360搜索SRE团队在9月23日,本周六下午在360北京总部举行SRE论坛。本次技术论坛邀请到两位来自360搜索资深SRE工程师卢佳瑜和于畅,以及来自小米公司的运维工程师韩德田先生,与大家一起分享运维中的经验和心得。 据了解,本次SRE技术论坛,是2017年360搜索举办的第七次技术论坛。前六期主题覆盖“大数据存储”和“前端技术”“测试技术”“智能算法”多个热门领域,360公司数十名技术专家,以及国内一线互联网公司的十余名资深专家参与分享,上万人通过现场和直播的方式观看了分享会。
(第六次技术论坛现场)
|
评论
直达楼层