主 题:时间序列数据异常检测综述
时 间:5月25日(周三) 14:00-15:30
主讲人:虞晓韩
地 点:信电楼204
记录人:陈宇泽
内 容:
异常检测是对反常的、和历史不同的行为模式识别。时间序列数据是某一个指标按照时间的统计或者观测而成的数列数据。由于时间序列可视化成本低、含义明确、规律明显,因此经常被用于运维领域中监控系统的运行状态。系统的逐渐庞大,单纯的人力已经不能满足日益增长的监控需求,于是大家开始使用基于规则的异常检测手段,通过机器帮助人判断系统的健康程度。
虞晓韩老师从背景知识、目前研究现状、未来研究方向三个方面来对时间序列数据异常检测进行介绍,在大多数应用程序中,数据是由一个或多个生成过程创建的,它们既可以反映系统中的活动,也可以反映收集到的关于实体的观察结果。当生成过程的行为异常时,它会导致产生异常值。因此,一个异常值通常包含关于影响数据生成过程的系统和实体的异常特征的有用信息。首先虞老师详细介绍了离群点检测背景知识。离群点检测的目标是找到待检测数据集中与绝大多数数据对象不同的对象离群点检测的研究历史已经十分漫长,无论是在统计学领域或者机器学习与数据挖掘领域。离群点检测的算法种类十分繁杂,有基于距离、密度、神经网络等诸多类型,但所有的检测算法都基于这样一种共识,即:离群点在待检测数据集中的数据量是很少的。虽然根据共识可知,离群点在数据集中是较为罕见的,但这并不意味着离群点出现的次数特别少,这主要取决于待检测数据集的数据量。
接着虞老师向同学们介绍离群点目前研究现状。现如今离群点检测技术主要有点离群点检测、子序列异常检测、时间异常序列检测,以及每种检测方法的主要特点以及技术细节。在检测的过程中要注意检测方法是单变量还是多变量,单变量检测方法只考虑单个时间因变量,而多变量检测方法能够同时处理多个时间因变量。检测方法可以是单变量的,即使输入数据是多变量时间序列,因为可以对每个时间相关变量进行单独分析,而不考虑变量之间可能存在的依赖关系。相比之下,如果输入数据是单变量时间序列,则不能使用多变量技术,在点异常值检测中其一是是否将时间作为变量,其二是是否能实现实时预测。一些异常值检测算法,需要同时考虑一个点过去和将来的数据,不能实现来一个新样本,判断一个。另一些检测算法,则只考虑新样本点和之前的历史数据,可以实现实时判断样本点是否是异常点。
接着虞老师向同学们介绍离群点目前研究现状。现如今离群点检测技术主要有点离群点检测、子序列异常检测、时间异常序列检测,以及每种检测方法的主要特点以及技术细节。在检测的过程中要注意检测方法是单变量还是多变量,单变量检测方法只考虑单个时间因变量,而多变量检测方法能够同时处理多个时间因变量。检测方法可以是单变量的,即使输入数据是多变量时间序列,因为可以对每个时间相关变量进行单独分析,而不考虑变量之间可能存在的依赖关系。相比之下,如果输入数据是单变量时间序列,则不能使用多变量技术,在点异常值检测中其一是是否将时间作为变量,其二是是否能实现实时预测。一些异常值检测算法,需要同时考虑一个点过去和将来的数据,不能实现来一个新样本,判断一个。另一些检测算法,则只考虑新样本点和之前的历史数据,可以实现实时判断样本点是否是异常点。
最后虞老师亲切的询问与会同学对本次座谈会是否有不懂的问题,并对同学们感兴趣的离群点方向问题予以回答,同时向我们介绍了他近期的一些学术工作。
参加人:研一研二部分学生