Recherchez les valeurs aberrantes dans les données numériques
Les valeurs aberrantes (ou anomalies) peuvent être définies comme des points de données qui sont beaucoup plus rares que la plupart des autres points de données. Cet exemple utilise un jeu de données numériques simple pour illustrer comment rechercher des anomalies et faire le lien entre la détection des anomalies et le concept de "probabilité plus rare".
Récupérez le jeu de données Iris de Fisher et sélectionnez les attributs "PetalLength" et "SepalWidth".
Recherchez les valeurs aberrantes dans le jeu de données.
Visualisez la position des valeurs aberrantes par rapport au reste des données.
Une fonction de détection d'anomalies peut également être obtenue à partir des données.
Utilisez la fonction de détection pour trouver les valeurs aberrantes.
Utilisez la fonction de détection sur des exemples spécifiques.
Chaque détecteur d'anomalies contient une distribution apprise (LearnedDistribution) entraînée sur les points de données qui n'ont pas été considérés comme anormaux. À partir de cette distribution, on peut calculer la probabilité plus rare pour de nouveaux exemples avec la fonction RarerProbability.
La probabilité plus rare est utilisée pour définir les exemples qui comportent des valeurs aberrantes. Par défaut, tout exemple ayant une probabilité plus rare inférieure à 0,001 est considéré comme une valeur aberrante. Visualisez la fonction de probabilité plus rare, la limite de décision aberrante et les données.