Wolfram言語

数値データの外れ値を見付ける

外れ値(異常)とは,他のほとんどのデータ点からかけ離れているデータ点として定義することができる.この例では簡単な数値データ集合を使って異常の見付け方および異常検出と「より低い確率」という概念を関連付ける方法を説明する.

FisherのIris(アヤメ)データ集合をロードし,属性"PetalLength"(花弁の長さ)と"SepalWidth"(萼片の幅)を選ぶ.

データ集合の外れ値を見付ける.

データの他の部分と比較した外れ値の位置を可視化する.

異常検出器関数はデータから得ることもできる.

検出関数を使って外れ値を見付ける.

特定の例に検出器関数を使う.

それぞれの異常検出器には異常ではないとされたデータ点で訓練されたLearnedDistributionが含まれている.この分布から新しい例のRarerProbabilityが計算できる.

より低い確率は,どの例が外れ値であるかを定義するために使われる.デフォルトでは,0.001より小さい確率を持つ例が外れ値とみなされる.低い確率の関数,外れ値決定境界線,データを可視化する.

関連する例

en