查找数值数据中的异常值
极端值(或异常值)可被定义为比大多数数据点少得多的数据点。下面的例子用简单的数值数据集来说明如何查找异常值,并将异常值检测与“稀有概率”的概念联系起来。
加载费雪鸢尾花卉数据集并选择"PetalLength" 和 "SepalWidth" 属性。
查找数据集中的异常值。
可视化异常值与其余数据的位置。
也可以从数据中获得异常值检测函数。
用检测函数查找异常值。
对具体样例使用检测函数。
每个异常值检测器都包含一个在非异常数据点上训练过的 LearnedDistribution。根据该分布,可以计算新样例的 RarerProbability。
稀有概率 (rarer probability) 用于定义哪些样例是异常值。默认情况下,任何稀有概率小于 0.001 的样例都被视为异常值。可视化稀有概率函数、异常值判定边界和数据。