IT运维(ITOM)在国外是一个成熟的领域,过去曾成长出不少独角兽公司,有大名鼎鼎千亿美金市值的ServiceNow,也有后起之秀DataDog、Splunk。
相较之下,中国IT运维市场也在两年进入到一个快速发展阶段。据前瞻产业研究院数据显示,2012-2019年,中国IT运维市场规模呈现波动趋势。从增速来看,2014年达到近年来最高增速17.34%,达到了1121.2亿元的市场规模。2019年,中国IT运维市场规模达到2324.3亿元,同比增长15.73%,2020年我国中国IT运维市场规模达到2690亿元左右。
中国的创业者也在用过去十多年的实践对外传递这样一个信号:无论是主打应用性能监控(APM)、日志分析、CMDB(运维管理平台),还是构建智能运维服务(AIOps),当下基于国内云原生应用不断增长的势头,IT运维领域的竞争焦点也开始转变为:从单点同质化的产品,到面向传统及政企行业,以用户为中心,为用户提供全生命周期的全栈IT产品。
这个格局中,既以有云智慧、擎创科技、听云为代表的创新企业,也有阿里巴巴、腾讯、百度、平安科技等企业内部研发的产品线。
那么,如何打造全栈IT运维的技术“范本”?实现这一解决方案的难点又会有哪些?
一次银行投诉引发的反思
2018年,某银行的VIP客户在使用其系统时处理一笔资金转账业务操作时,出现了异常崩溃,无法登陆的问题,这次略有不快的经历,让该VIP直接将投诉递给了当时银行里的高层。但经过内部的调查结果反馈是,IT部门在监控过程中并未发现任何异常。
实际上,由于用户手机型号、系统版本带来的兼容性问题,用户入网问题、内存问题等等,都有可能是导致应用崩溃的罪魁祸首。
但这种对引发应用崩溃诸多可能性“茫然不知所措”的感触让IT部门当即决定,一定要确立个KPI:将应用崩溃率降到千分之五。
后来,该银行客户通过第三方服务商给出的解决方案,构建出具备用户视角的监控平台,以SDK嵌入的方式,进行真实用户完整会话的全量采集和分析,如会话开始时间、设备机型、OS、地区、城市、IP地址、设备ID等维度,定位问题根因。最终,App崩溃率从2018年合作之初的8%,降低到一年后的0.4‰,再到如今下降到万分之3。
对于金融行业来讲,它们本身已经具备十分成熟的数字化实践体系,不乏对自身业务理解和适用性更强的IT运维管理系统。但从代码到用户构建以最终用户为视角的应用监控平台,类似的场景和应用实践在此之前却并不成熟。
首先是孤岛式监控。企业数字化推进的过程中,在不同阶段构建了各种类型的监控平台,由于又没有体系化的规划,导致一系列工具无法形成有机的结合,这往往导致,系统一旦出现问题,就很难第一时间发现问题的原因。
其次是IT建设与业务目标脱节。企业业务的发展往往是以业务、用户价值为导向,但IT建设初期却往往以资源、服务器的可用性层面进行构建的。这导致,IT运维在后台做了很多用户体验优化,却没有直观的数据和指标进行衡量。
三是AIOps的不成熟,目前来看很多企业做了很多承诺,但是真正落地时却发现效果非常差。一类是交互算法厂商,却并不掌握数据采集以及数据关联的能力;二是工具式的监控厂商,只能在局部落地,对实际业务的效果产生是比较少的。
四是对新技术监控的可见性不足。以云原生微服务技术为例,该技术对底层技术设施进行封装,导致系统运维所关注的信息不可见,此时业务只能往上层走,以用户视角作为运维体系。
五是敏捷性不足。不同于产品研发需求的迭代速度,运维是追求系统稳定、尽量少变更的,这导致IT监控系统与DevOps的敏捷理念产生了极大冲突。
实际上,当前工具式的监控体系已经无法满足企业的运维需求。
一体化运维已在进行时
博睿数据成立于2008年,2020年8月在上交所科创板上市,作为一家企业监测应用性能(APM)服务商,已经服务了腾讯、阿里巴巴、招商银行、华为、中国移动、平安等公司等诸多客户。
目前博睿数据与阿里云、腾讯云也保持着一定的合作背景,但问题在于,包括金融行业也是云厂商渗透的主要领域,客户业务都在云上,直接使用云厂商的运维监控服务或许更为丝滑,或者会成为云厂商销售时的一个配套服务。此外,也会有客户担心供应商锁定的问题,不太希望自身的技术栈与某个供应商锁定。
博睿数据产品部高级总监孙丽告诉钛媒体App,“云厂商本身的监控方案目前并不完善与成熟,基本上还是以底层的metric为主,且相关的监控能力还是以多产品组合拼凑为主,体系性较差。除非客户全部基于某一家的云自上而下的搭建自己的服务体系,才能使用云的监控产品。一旦涉及到混合云、多云管理,监控的孤立性会进一步增加。”
不久前,博睿数据推出了一体化智能可观测平台ONE,是基于去年数据链DNA+的再度升级,也是博睿数据自2020年企业上市后最大的一次战略发布。
据了解,ONE平台从ITOM统一监控、AIOps智能运维、BizOps业务运营、DevOps效能提升四个应用场景出发,通过代码到客户的全数据链DNA采集能力,结合大数据及AI能力,实现传统的产品工具到平台+架构的转型,构建以用户为中心的新运维体系。
在孙丽看来,“ONE平台的跨平台、云无关的属性恰恰是我们的优势。一旦客户要做云的迁移需要重建运维监控体系,成本和代价巨大,甚至会影响业务稳定性。基于中立的产品可以做到一次部署随处运行,不受底层环境的限制。”
目前,博睿数据主要聚焦于互联网、金融、政企等大B客户,主要以定制化、能力共建的方式提供服务,而针对中小企业客户,基于其IT成熟度及实际业务体量,博睿数据则更希望ONE平台能够推进到中小企业客户对一体化工具的诉求。
云原生时代的可观测性机遇
不同于以往所讲的监控技术,云原生时代基于微服务、容器化应用部署方式的改变,对底层技术设施进行封装,尽量不让客户感知底层的资源环境,只关注向上的业务发展,导致系统运维所关注的信息不可见。这也给监控技术有了一个新名词:可观测性技术。
企业对于可观测的视野不再局限于应用程序,而是需要从全局的角度洞察混合IT基础设施、数据源、网络、云和边缘端的应用状况,更加主动化、自动化和智能化地提升企业运维的效率。
作为一项新兴技术理念,可观测性技术难免存在其落地应用的诸多困难,但不可否认的是,它已经成为各大创业厂商乃至云计算大厂重点关注的方向,如阿里云的ARMS、腾讯云的TAPM、字节火山的APMPlus等。
Gartner 预测,到2024年,将有30%的企业会通过可观测技术来提升数字化业务的运行性能,相比2020年的10%提升了3倍。
在这场技术押注的背后,都在暗自努力抢滩下一阶段云原生时代红利。
(钛媒体网)