问题描述

在互联网运维场景中,运维人员需要检测和分析大量的KPI。给出若干条KPI时序数据曲线,希望通过聚类和分类算法给出每条KPI所属的类别。在进行KPI异常检测等任务时,对于同类别的曲线,仅需对其中的一部分进行考察,从而大大降低数据标注开销及算法训练开销。KPI聚类问题以大量KPI时序数据曲线作为输入,通过相似性判别及聚类、分类算法,得出每条曲线所属的类别,如图1所示。

图1 KPI聚类算法示意

相比于传统的聚类问题,KPI聚类面临着诸多新的挑战,包括但不限于:

1 KPI时序数据上可能包含若干异常点/区段,对聚类任务可能产生干扰。
2 KPI时序数据具有较高的维度(每条曲线包含数万甚至更多的数据点),曲线数量多,算法可能具有较高的时间开销。
3 KPI曲线间可能存在相位、振幅等偏差,对聚类造成干扰。
4 互联网运维场景复杂,随时可能有新的KPI需要监控。因此,我们希望算法能够在出现新的KPI曲线时,快速确定其所属的类别。

因此,为提高KPI聚类算法的准确率、召回率和计算效率,我们收集了来自众多互联网公司的真实场景的KPI数据,未来将经过脱敏处理后提供出来,希望更多的学术界和工业界的人员参与进来,一起提高KPI聚类算法的性能。

常见方法

传统的聚类方法中有很多算法经过一定的改进,可以应用于时间序列数据的聚类任务中。这篇[1]中列举了一些算法以供参考。当然,在处理实际的KPI聚类问题时,直接应用这些算法仍会面临各种各样的问题。希望通过本次竞赛,与更多的各界参赛者一起发掘更加通用、有效的KPI聚类算法,推动智能运维的发展。这篇来自微软亚洲研究院的论文Yading[2]中也给出了一套更加贴近实践的KPI聚类算法,希望能给大家带来思路上的启发。

[1] Liao T W. Clustering of time series data—a survey[J]. Pattern recognition, 2005, 38(11): 1857-1874.

[2] Ding R, Wang Q, Dang Y, et al. Yading: Fast clustering of large-scale time series data[J]. Proceedings of the VLDB Endowment, 2015, 8(5): 473-484.

注册

请输入正确的邮件格式

密码长度6-20位

两次输入密码不匹配,请重新输入

昵称已被占用,请重新输入

点击[注册],即代表你同意 《iOps注册协议》
注册

注册协议

【首部及导言】

为有效利用QQ号码资源,维护用户合法权益,特制订《QQ号码规则》(以下简称“本规则”)。请您务必审慎阅读、充分理解各条款内容,特别是免除或者限制责任的条款,以及开通或使用某项服务的单独协议,并选择接受或不接受。限制、免责条款可能以加粗形式提示您注意。

除非您已阅读并接受本规则所有条款,否则您无权申请或使用QQ号码。您申请或使用QQ号码的行为即视为您已阅读并同意受本规则的约束

一、【规则的范围】

1.1 本规则是腾讯制定的关于获取和使用QQ号码的相关规则。本规则适用于腾讯提供的需要注册或使用QQ号码的全部软件和服务。

1.2 本规则属于腾讯的业务规则,是《腾讯服务协议》不可分割的组成部分。

1.3 您通过QQ号码使用腾讯的软件和服务时,须同时遵守各项服务的单独协议。

二、【QQ号码的性质】

QQ号码是腾讯创设的用于识别用户身份的数字标识。QQ号码的所有权属于腾讯。

三、【QQ号码的获取】