您现在的位置是:主页 > 科技 > 如何提高IT生产力?智能化运维解程序员之急

如何提高IT生产力?智能化运维解程序员之急



时间:2019-09-12 17:53  来源:南方财经网 www.southfi.cn 复制分享 我要评论

小时候我们应该都听说过三个和尚抬水喝的故事,在我们熟悉的版本里,故事的最后三个和尚喝光了庙里的水,引发了寺庙大火。

如果我们把这个故事比喻为公司的发展,就会发现这其实是一个关于效率成本故事

寺庙公司刚开张时,一个和尚足够维持公司的正常运转

进入寺庙公司高速发展时期,很快第2个和尚入职,除了每天打水之外,寺庙里的事务随着公司规模急剧增多,抬水变成一件极其低效率高时间成本的事情

到了第三阶段,寺庙已经从公司发展为集团,随着业务规模扩大寺庙事务量呈指数级增长三个和尚再也无暇顾及打水,最终酿成了大祸

在互联网公司这样的故事几乎不可能发生。人工智能的崛起更让互联网公司信心十足,它们有n种方法将这种低效工作方式扼杀在最低概率里

平安科技诞生于2008年,前身为平安集团信息管理中心,经过11年深耕,发展成为拥有10000名技术研发人员的大规模企业作为一家互联网企业,以及服务平安集团五大生态圈科技解决方案输出专家,代码开发、代码管理等是一家企业无形的核心资产,背后意味着企业的发展活力和技术壁垒的构筑,那么如何协调10000名技术人员的齐头并进又如何将人员效率始终维持高水准上?

平安科技系统运营部总工程师陈亚殊给的答案是,将AI思维嵌入整个研发运维的生命周期中,以AI思维解决执行中冗余问题,即AIOpsArtificial Intelligence for IT Operations智能运维)。

智能运维是指将人工智能的能力与运维相结合,在环境部署、应用版本发布、运维监控场景,优化工作流程,代替人员分析决策等,节省人员的时间,提升IT生产力,把IT运维人员从低价值、重复性的劳动中解放出来。

陈亚殊指出,AIOps给运营带来深刻改变主要体现在两方面:

1、 IT工作模式发生了改变:AI能力的引入如AI自动输入、输出、自动流转信息及智能推荐等,优化了工作环节,使得机器能够代替人处理部分工作,甚至做出决策,节省人员处理简单重复劳动的时间,提升效率;

2、 IT人员技能升维:由原来80%的时间花费在底层被动的沟通、重复性的简单的技能型人才逐渐转型为具备建模能力、处理复杂问题的高端技能人才,IT人员的技能得到升维。

简单来说,有了AIOps,三个和尚不需要去井里打水这种低效率高成本的工作了,打水变成了自动化作业,不仅每天有送水上门,还提供水质测,一口好水放心喝。

这种简单重复的劳动中解脱之后,三个和尚可以更专注于高价值的事务中,比如可以花更多时间和经历开发数字化寺庙,甚至建成全国首个线上、智能化寺庙。

从这个角度而言,AIOps赋予了从业人员新的价值,低端重复性劳动升级到高技术门槛工作中,对于从业人员能力提升、个人发展大有裨益

到底AIOps如何赋予从业人员如此神奇的能力?

陈亚举例指出,比如智能环境交付( AIOps Deploy)作业中,AI能够做的是针对各业务线大量应用的网络架构、存储架构、技术组件、流量特点、应用参数设置等不同纬度,进行海量历史数据分析,产出应用部署架构、系统参数配置等多维度模型。最终优化交付环节,实现智能推荐。通过AIops的应用,人工参与环节可减少40%+,效率提升50%+。

以交付一个理赔系统为例,原来从机房选择、网络区域确定,再到具体中间件选型、负载均衡选型、主机资源准备,以及合适的初始参数配置等一系列共18个步骤。各步骤涉及不同角色人员,重复沟通,基础性工作占比大,往往需要1-2周才能完成交付。通过AIOps,架构设计智能推荐,资深架构师再次微调,最终产出部署架构,然后对接编排系统完成自动交付,1-3天即可交付整个应用。

针对智能版本发布( AIOps Release),平安科技也做了精细的AI解决方案平安科技目前有8000多个应用系统,每年发布120万+次,发布频率和规模之高,让运维人员压力山大,而且金融系统对版本发布风险控制非常严格,每个发布前后的检查点接近100个。

运用AI技术之后,有效的提升了发布质量和效率,发布效率提升90%,人力降低60%+。每提升1个点,能够节省285小时的人力投入。

举个例子平安科技积累了大量的重启日志,我们通过分析这些数据发现,重启日志在正常情况,具备高度的相似性。平安科技通过使用AI的文本分析技术,比对当次重启日志,和过往历次重启日志的相似度、和测试环境重启日志的相似度,可以准确实现异常识别。而且AI技术除了原本人工识别的已知问题外,还能识别如卡顿、中断、缓慢等未知、个性化的问题,通过获得这些异常的历史和处理情况,进而指导下一步的运维操作,重启日志的行为价值变得更高

除此之外,AIOps在智能端到端监控( AIOps Monitor)作业大有可为例如在传统的运维技能下,对于生产故障的处理,都需要运维人员从大量分散的监控告警中分析关联性,同时仍然需要通过临时脚本等方式现场采集信息,并需要专家分析会诊,推导故障可能性,并最终做出决策措施并执行。在此过程中,几乎80%以上依赖于人力和经验,准确性和效率都很低下。

但在应用了AI技术后,我们通过神经网络等算法应用到根因分析场景,以及结合专家知识库服务,在故障发生时,AI监控平台即可直接计算出异常的根源点,同时进行决策措施推荐。运维技术人员仅需要根据AI分析出来的结果做最终的决策执行即可,解放了运维人员对信息收集、分析会诊等场景的强人力依赖。

有一句通俗易懂的话是这么说的,每一个成功的运动员背后是无数汗水和泪水的付出。现在这句话也可以这么说,每一个优秀的技术人员也曾苦过累过,过去无数次的碰壁、困惑疑惑,引发了思考、更新完善,AIOps是每一个技术人员苦过累过的明证,也是人工智能时代赋予的程序员智慧所在

AIOps帮助技术人员解放双手,降低成本、提高运维效率,同时它触发技术人员专注于高价值事务为技术的进一步发展积蓄出更多个人能量。

来源:南方财经网  作者: 综合 编辑:综合

免责声明:1、凡本网专稿均属于南方财经网所有,转载请注明“来源:南方财经网”和作者姓名。 2、本网注明“来源:×××(非南方财经网)”的信息,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若侵权本网会及时通知用户删除或强制删除相关信息。 3、南方财经网为用户提供的信息仅供参考,不构成投资建议;用户据此操作,风险自担与南方财经网无关。4、南方财经网友情提示:市场有风险,投资需谨慎!