威尼斯手机娱乐官网揭破人工智能下的搜狗智能
分类:网络运维

二、面对痛点 用“智能”来化解

针对这三大做运维最基本的痛点,搜狗运维选择用“智能”来化解:

  • 针对操心成本,是智能熔断

  • 针对智商不够用的情况,是智能故障定位

  • 针对烦人成本,是智能问答机器人“维秘”

另外,我们还会遇到这种特殊的情况,数据会随时间出现漂移。比如某产品流量,会按照工作日、周末、传统长假等时间呈现出不同的数据特征,产生阶段性变化。这个时候要进行异常检测,就不仅要考虑数据的普通周期性,还要考虑季节性和趋势性的变化。监控系统可通过对日常数据进行分析,采用三次指数平滑等方法,对数据本身的趋势性进行学习。

揭秘人工智能下的搜狗智能运维实践,揭秘人工智能

搜狗以搜索和输入法为主,技术实现背后有大量的人工智能技术做支撑。搜狗运维在这样一家以人工智能技术为主的公司中,将面临哪些挑战?本文将与大家分享人工智能在运维中的实际应用,以及搜狗在智能运维方面的实践。

(3)迅速找到问题根因

1.2、智商不够

当运维过程中遇到比较复杂的故障需要处理的时候,不能很快的找到出现故障的根源,很好地进行故障定位,感觉智商不够用。

(1)实现自动冗余与调度

1.3、烦人成本

在搜狗内部有一条明文规定,如果运维工程师不做运维开发,不予升职。所以搜狗的运维经理除了履行保障线上可靠性职责的同时还要做自动化研发。因为职责在身,线上一旦出现问题,无论大小,运维人员是首先被问询的,所以运维人员最容易被打扰。

可做研发大家都知道,是需要整块时间才能够保证效率且减少出错。这样一来,上班时间基本上不会有大块时间来做研发,这样的状况真的很烦人。

运维工程师可以把一些基础的关联关系配置到监控系统中,可以让监控系统明白一些常态化的运维指标与其它指标是否存在关联,比如多个模块的异常是否存在关联、服务器升级或者部署产生问题是否与数据中心或交换机异常有关等。

一、运维工程师遭遇的三大痛点

再讲智能运维之前,我们先来看看,运维工程师常见的三大痛点:操心成本、智商不够、烦人成本

1.多维数据分析

2.2、智能故障定位

搜狗搜索引擎的架构非常复杂,如下图只是架构的冰山一角。在如此复杂的前后连接关系的情况下,当故障发生时,如何快速故障定位、如何减少用时、如何判断报警的根本原因呢?

搜狗的做法是把问题抽离成一个规则的模板,即一个规则的集合,然后基于特定业务架构图去分析,最终定位故障具体原因。

大致的算法是每一个探针的请求都带一个ID,这个ID在各个模块都是打通的。运维工程师分析这个请求的ID在每个模块里面的具体表现,根据这些规则模板看它是否命中设定规则模板,然后定位系统,再根据这些规则模板的命中情况做一个决策,将故障定位。甚至可以定位它是属于哪个模块的哪个节点,这样就可以快速的去处理这个故障。

如下图,右上角是各种模板命中的情况,根据命中情况做最终的判断。

如果熔断系统是人工智能的话,故障定位就是人肉智能,可以看到核心功能都是由人肉智能编纂出来的。每当出现一类问题,就编入知识库和故障分析模块,避免下一个同样的故障发生。

但实际情况是,大家在操作某一个模块时, 不一定会去看之前存在的问题和解决方案。搜狗的做法是把这些问题与知识固化到系统里,让机器人发挥作用,如上图的最终结果展示,包括Web端和手机端,都可对接一些故障问题。

故障检测:

2.3、智能问答机器人“维秘”

这是一个问答系统,已在搜狗内部开始内测,也是为了解决运维的第三个痛点——烦人成本。运维工程师每天需要解答各种各样的问题,需要花费大量的琐碎时间,而这个工作完全可以交由智能机器人来解决。

智能问答机器人“维秘”

维密运维机器人,构建在搜狗内部的即时通讯工具中,类似

搜狗以搜索和输入法为主,技术实现背后有大量的人工智能技术做支撑。搜狗运维在这...

在用户端(APP、浏览器等)、云端(机房、服务器、自身服务、第三方服务等)、管道(链路、运营商)等任何维度进行数据采集并进行异常自动检测。

1.1、操心成本

所谓操心成本与相声《扔靴子》所表达的主题相似——你并不知道“第二双靴子什么时候扔下来”,同样你并不知道故障什么时候来临,所以你一直提心吊胆,惶惶不安

7×24运维,半夜经常会有收到警报的情况,运维团队负责多个模块、机器、服务、业务等等,如何保障它们的可靠性?并且每个业务都有自己的指标,响应时间、请求量、磁盘容量、网络IO等等,这些指标都可能发生异常。

目前业界一些通用的监控手段,有时会铺天盖地报警,但这些报警不一定能反应真实的情况,真是让人操碎了心

下面,我们可以从发现问题—分析问题—解决问题的思路出发,逐步给出递进的解决方案。

2.1、智能熔断的思路

作为运维人员所要面临的问题,往往是一张以时间为横轴的时序图,纵轴是响应时间、CPU占有率、网络IO、磁盘IO等一系列指标,这样的指标每个节点或机器都有一二十个。如果有上万台机器,上万个节点,那么就会有一百万张时序图,工程师需要对每张图做智能监控, 当发生异常,随时上报。

在股票、医学领域,基于时间轴的数据监控已被广泛应用。股市利用数据监控预测股票涨跌,医学可以利用数据监控预测疾病的发生时间,这些特点与运维有高度的相似性。

运维领域也是以时间轴为纬度分析,目前有很多监控和分析的工具,最简单如设定一个固定的阈值或者周同比,但这些工具还不够智能。

智能熔断系统。目前,搜狗运维正在研发智能熔断系统,是为应对操心成本而生,针对故障的根本原因进行分析和故障预测。

故障的原因有二

1、代码变更或上线,这类的故障非常多,而且大多都是人为造成的 ,现在基本上可以实现智能上线平台做自动上线,完全自主。

2、就是机房、网络和硬件等。

当面对自主上线的情况,如何保证平台的稳定?

下图是智能熔断的实现原理,搜狗引入熔断机制,当某些指标有发生上线动作、发生异动的时候,系统自动判断并做熔断,比如做停止或者回滚操作。并和一些其他的智能设备相结合,如手机上可操作熔断、停止及回滚等功能。这个系统能解决大部分问题,如环境、代码、人为误操作等等。

还有一个问题,就是一些研发人员水平不高,写出的代码在上线的瞬间,指标出现异常,但重启一段时间就好了。同时研发人员表示,当前没有精力去处理,暂时忽略。面对这种情况,就要引入更深的人工智能话题,要对异常进行判断,是已忽视的正常异常,还是需要处理的异常,这里就涉及到对故障点分类的问题。

威尼斯手机娱乐官网 1

随着百度各产品的蓬勃发展,百度的服务器数量也呈现出爆发式增长,最近5年增长了大概20倍的规模。与产品规模不断增长相对应地,运维人员每天会收到越来越多的监控报警,面对海量的运维指标,如何快速定位问题所发生的业务层面,达到精准化报警、快速解决问题的目标就成为运维监控常态化的需求。

当然,更进一步地,监控系统是不是可以先于故障发生而预测到故障,在故障发生之前就可以处理并解决故障,从而达成产品的超高可用性目标。未来的智能监控应该是这样的,运维工程师经过完善的监控部署,实现全方位的异常自动检测覆盖,同时,在系统刚出现故障征兆,有损之前就进行处理并解决,实现完整的智能化监控系统解决方案。

工程师标注

3. 报警依赖

2.灰度发布自动止损

2.故障诊断树

具体的组成如图所示:

当然,上述方法都是基于从历史数据进行学习分析从而进行异常检测的,如果缺少历史数据,那么对于这些指标,基于历史数据进行同环比分析的意义就不大,核心就转化为检测数据有没有突升和突降异常。可采用类似于局部平滑的方法查看真实数据与局部平滑后数据有没有大的出入,如果差距较大,可判断为有大的突升和突降,可以标识数据异常。

(1)事件和事件间的关联

(2)智能监控系统负责动态决策

威尼斯手机娱乐官网 2

2.动态阈值设定法

(2)事件&时序关联

2. 让监控更聪明

  • 关联挖掘
  • 合并置信度较高的频繁项集

威尼斯手机娱乐官网 ,举个例子,百度的总体流量指标对应每个地域的流量之和,总体流量有问题有可能是某个地域流量出现问题,找到目前对总体流量变化影响最大的地域进行问题处理就可以解决问题。同样的道理也可以推广到其它情况。

1.全方位覆盖

(1)领域专家知识

威尼斯手机娱乐官网 3

  • 多分布形式:将数据分段
  • 按天同期计算统计阈值
  • 分段3-sigma策略

九、未来运维变被动为主动

百度监控系统数据规模,单以时间序列数据为例,不包含日志类数据。

  • 指标异常经常与部署升级事件相伴发生
  • 问题诊断&故障定位

百度大多数业务数据的流量呈现很强的天周期特性,在某时刻出现数据波峰的骤降或波谷数据的骤增等变动情况时,恒定阈值法很难解决这类问题的精准异常判断。那么我们可以把上述方法衍变升级一下,采用动态时间窗口的阈值设定法来解决周期性数据的异常判断。

三、运维中面临的监控问题

具体的实现策略有:

单边故障指单个IDC故障、单个链路故障等。比如一个IDC或者某些IDC出现问题,解决办法是切走这部分流量,利用监控系统来做动态的部署调度。通过某个数据中心或链路的部署调整,帮助系统快速恢复,进而实现自动化决策和执行来实现单边故障止损。

七、解决问题篇

1.单边故障自动止损

威尼斯手机娱乐官网 4

(2)逻辑推导引擎

一、嘉宾介绍

监控系统采集到的很多指标具备包含关系,很多情况下,一个总体指标是由许多子指标加和构成的,或者也可以说成是总体维度是由许多子维度组成的。监控系统可以计算出每个子指标或子维度占总指标总维度的百分比,并按照影响权重去进行分析,当某个子指标的变化幅度对总体指标影响权重最大,我们就倾向于认为这个指标可能是问题的原因。

通过上述说明,百度的智能运维监控系统最终形成了一个监控闭环,包含问题发现、分析决策和问题的解决。具体的组成包括异常检测、报警收敛、关联分析、故障定位和自动处理五部分内容。

  • 标注报警 => 参数训练

参考方式:

通过关联变动,帮助运维人员分析重点数据的变动情况。

威尼斯手机娱乐官网 5

运维人员可以通过数据可视化(热力图、多维报表)的形式,结合以前发现问题的经验沉淀模式,发现指标间的强相关,做出问题诊断。那我们是不是可以将运维人员的经验固化到监控系统中,通过不同指标的分析方向和下探方法可以形成树状结构,通过树上的某个节点进行逐级探查。最终形成故障诊断树,通过推导路径不仅可以帮助运维人员快速完成问题出现时的排查过程,节省这部分的定位时间,也很有可能达到直接定位问题或加速解决故障的目的。

综合上述方法,百度智能监控系统中的自动异常检测最终形成两种状态的结合:离线状态和在线状态,离线部分可根据历史数据进行分类学习、参数训练,而在线部分能够进行最终的异常检测和报警。

  • 分析运用已有数据,并把服务状态、问题影响分析等可视化
  • 自动学习并理解故障的趋势和模式
  • 自动发现服务或依赖环境的变更
  • 基于历史数据统计
  • 假设正态分布
  • 3-sigma策略

1.关联挖掘

产品服务层级的关联关系图:

本文由威尼斯手机娱乐官网发布于网络运维,转载请注明出处:威尼斯手机娱乐官网揭破人工智能下的搜狗智能

上一篇:二〇一七年最巧妙的自动化运转,三个运营怎么 下一篇:如何在服务器在线模式诊断硬件故障,多么痛的
猜你喜欢
热门排行
精彩图文