问题描述

在对互联网Web服务的运维过程中,首要需求通常是对监控的各种关键性能指标(KPI)进行异常检测,而后则需要对检测出的异常信息进行分析定位,以便尽快做进一步的修复止损等操作。

在各类KPI中,有一类是多维度的指标集,在统计总指标(Total_KPI)时需要记录多个维度的指标信息,当Total_KPI被检测到异常时,需要尽快定位到是哪个维度(或交叉维度)中的哪些元素指标最可能是根因。例如某网页访问量(Total_PV),对应多个维度:用户位置(Location)、网络运营商(ISP)、公司数据中心(DC)等。各维度对应一系列属性,位置:北京,上海,广东等;运营商:移动,联通,电信等;数据中心:DC1,DC2等。当Total_PV发生异常时,需要定位到一个最可能是根因的元素指标集合,如{北京、上海},或{北京移动,广东电信}等。

多维度指标集示意见图1,其中 A, B, C 代表不同维度,a1, b1, a1b1 表示对应维度维度(或交叉维度)下的元素指标。

图1 多维度指标集示意

解决该问题主要有以下三个难点:

1 实时性要求高。随着维度的增多或各维度中属性数目的增加,总的元素指标数量会迅猛增加。当维度较多以及各维度中属性数目较多时,定位的复杂度也相对较大。
2 元素指标之间有关系较为复杂。如 图1 所示,上下层之间的元素指标间有可加和关系,如总指标Total_KPI等于A维度(或B\C维度)下所有元素指标之和,a1则等于 a1b1, a1b2,.. 一系列指标之和。此外,不同维度间的元素指标也会影响,以两个维度为例,位置 [北京,上海]、运营商 [移动,联通],当 北京 指标异常时,本质上 北京移动、北京联通 指标发生了异常,进而 移动、联通 指标也会表现出异常。
3 要求结果尽可能简洁。异常定位结果的形式是元素指标集合,该结果是提供给运维人员作参考以尽快核实并修复异常原因,因此需要结果尽量的简洁及精确,即需要集合内用尽可能少的元素表示出尽可能全面的根因。

评估

1、多维度KPI数据集

由于不同层级间的元素指标存在可加和关系,我们只提供最细粒度的元素及其指标值(时间序列)即可,如 图1 中 A_B_C 中的所有元素及其指标值,一个四维度的指标集数据示例见 表1。此外,告知某些时刻时,总指标出现异常需要进行异常定位, 见 表2。

timestamp element value
1504736000 a1b1c1d1 56
1504736060 a1b1c1d2 379
... ... ...
表1 指标集数据示例
timestamp
1504739000
1504744700
...
表2 总指标异常时刻

2、评估指标

评估指标为 F-score, 该指标是准确率(Precision)召回率(Recall)综合体现。具体计算如下所示:
score =(2 * Precision * Recall)/(Precision+ Recall)
其中:
Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

每个异常时刻都有一个根因集合,该集合中包含一个或多个元素指标:针对某一时刻根因集合中的每一个元素指标,记为S*,如果算法输出结果(记为S)中包含其中一个,则算一次true positive (TP),遗漏一个算一次false negative (FN),多出一个S*中不存在的,记一次false positive (FP)。计算出所有异常时刻的F-score,求其平均值得到全局的F-score

3、提交文件

结果文件为对应 表2 中的异常时刻,输出计算的结果集合。如 表3。

timestamp result
1504739000 {a1,a5,a6}
1504744700 {b1c2,b5c3}
... ...
表3 提交结果

常见解决方法

1、R. Bhagwan, R. Kumar, and R. o. Ramjee, “Adtributor: Revenue debugging in advertising systems,” in NSDI, 2014, pp. 43–55.
2 Q. Lin, J. Lou, H. Zhang, and D. Zhang, “idice: problem identification for emerging issues,” ICSE. ACM,, pp. 214–224, 2016.

注册

请输入正确的邮件格式

密码长度6-20位

两次输入密码不匹配,请重新输入

昵称已被占用,请重新输入

点击[注册],即代表你同意 《iOps注册协议》
注册

注册协议

【首部及导言】

为有效利用QQ号码资源,维护用户合法权益,特制订《QQ号码规则》(以下简称“本规则”)。请您务必审慎阅读、充分理解各条款内容,特别是免除或者限制责任的条款,以及开通或使用某项服务的单独协议,并选择接受或不接受。限制、免责条款可能以加粗形式提示您注意。

除非您已阅读并接受本规则所有条款,否则您无权申请或使用QQ号码。您申请或使用QQ号码的行为即视为您已阅读并同意受本规则的约束

一、【规则的范围】

1.1 本规则是腾讯制定的关于获取和使用QQ号码的相关规则。本规则适用于腾讯提供的需要注册或使用QQ号码的全部软件和服务。

1.2 本规则属于腾讯的业务规则,是《腾讯服务协议》不可分割的组成部分。

1.3 您通过QQ号码使用腾讯的软件和服务时,须同时遵守各项服务的单独协议。

二、【QQ号码的性质】

QQ号码是腾讯创设的用于识别用户身份的数字标识。QQ号码的所有权属于腾讯。

三、【QQ号码的获取】