问题描述

​在实际的互联网运维中,经常遇到的一类问题就是针对高维度数据的瓶颈分析。下面使用搜索响应时间(SRT)的例子来说明该问题。

搜索响应时间是指从用户输入搜索内容,点击搜索开始,到看到搜索结果的总时间,主要包括了服务器处理,网络传输和用户端加载三部分。搜索响应时间直接反映了用户的真实体验,应该越快越好。图1是某搜索引擎的搜索响应时间的分布,可以发现30%的用户的搜索响应时间大于1秒钟,那么导致搜索响应时间大于1秒钟的性能瓶颈是什么呢?

图1 搜索响应时间分布

表1 中列出了一些可能影响搜索响应时间的因素,其中将SRT大于等于1秒钟的数据标注为1(高延迟),小于1秒钟的标注为0(低延迟)。由于实际中导致高延迟的性能瓶颈的原因可能是由某几个因素的组合,例如:当“图片数量 > 8” 且 “浏览器内核是 WebKit” 且 “用户使用的不是China Unicom”且“含有广告” 时,会导致高延迟。这时,简单的针对某个维度来分析无法找到真正的性能瓶颈,需要算法可以挖掘出高维度数据中的性能瓶颈。

用户使用的网络运营商 浏览器内核 网页的图片数量 是否包含广告 服务器负载 搜索响应时间(SRT) 标注
China Unicom WebKit 10 Yes 1000 queries/second 800ms 0
China Telecom Trident 5.0 5 No 500 queries/second 1200ms 1
... ... ... ... ... ... ...
表1 可能影响搜索响应时间的因素

因此,该问题可以表示为:存在一组因素:{f1, f2, …, fn},存在一个目标T,这些因素可以影响目标T的取值。T的取值可以标注为{0, 1},0表示符合预期,1表示不符合预期,目的是寻找出导致目标T为1(不符合预期)的某些因素的条件组合,如下表所示。

f1 f2 ... fn T 标注
... ... ... ... ... ...

常见问题及解决方案

  1. 变量之间的相关性分析

协方差及协方差矩阵
相关系数
回归分析
信息熵
A/B Testing
决策树

  1. 瓶颈分析的相关论文

Y. Chen, R. Mahajan, B. Sridharan, and Z.-L. Zhang, “A provider-side view of web search response time,” in SIGCOMM, ACM, 2013.

S. Sundaresan, N. Feamster, et al., “Measuring and mitigating web performance bottlenecks in broadband access networks,” in IMC, 2013.

M. Butkiewicz, H. V. Madhyastha, and V. Sekar, “Understanding website complexity: measurements, metrics, and implications,” in 2011 IMC.

J. Jiang, V. Sekar, et al., “Shedding light on the structure of internet video quality problems in the wild,” in CoNEXT, 2013.

Arapakis I, Bai X, Cambazoglu B B. Impact of response latency on user behavior in web search[C]//Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval. ACM, 2014: 103-112.

X. S. Wang, A. Balasubramanian, A. Krishnamurthy, and D. Wetherall,“Demystifying page load performance with wprof.,” in NSDI, 2013.

注册

请输入正确的邮件格式

密码长度6-20位

两次输入密码不匹配,请重新输入

昵称已被占用,请重新输入

点击[注册],即代表你同意 《iOps注册协议》
注册

注册协议

【首部及导言】

为有效利用QQ号码资源,维护用户合法权益,特制订《QQ号码规则》(以下简称“本规则”)。请您务必审慎阅读、充分理解各条款内容,特别是免除或者限制责任的条款,以及开通或使用某项服务的单独协议,并选择接受或不接受。限制、免责条款可能以加粗形式提示您注意。

除非您已阅读并接受本规则所有条款,否则您无权申请或使用QQ号码。您申请或使用QQ号码的行为即视为您已阅读并同意受本规则的约束

一、【规则的范围】

1.1 本规则是腾讯制定的关于获取和使用QQ号码的相关规则。本规则适用于腾讯提供的需要注册或使用QQ号码的全部软件和服务。

1.2 本规则属于腾讯的业务规则,是《腾讯服务协议》不可分割的组成部分。

1.3 您通过QQ号码使用腾讯的软件和服务时,须同时遵守各项服务的单独协议。

二、【QQ号码的性质】

QQ号码是腾讯创设的用于识别用户身份的数字标识。QQ号码的所有权属于腾讯。

三、【QQ号码的获取】