Analyse des données des maladies cardiovasculaires
L'analyse des données est un processus d'extraction, de présentation et de modélisation basée sur des informations extraites de sources premières. Dans cet exemple, un flux de travail de l'analyse des données effectuée en Wolfram Language est présenté. Le jeu de données utilisé ici provient d'UCI Machine Learning Repository, il est composé de données de diagnostic des maladies cardiovasculaires de 1541 patients.
Importez des données de diagnostic des maladies cardiovasculaires et analysez-les de sorte que les rangées correspondent aux différents patients et les colonnes correspondent à des attributs différents.
rawdata =
Import["https://archive.ics.uci.edu/ml/machine-learning-databases/\
heart-disease/new.data", "Text"];
data = StringSplit[rawdata, LetterCharacter ..];
data = Table[
ToExpression[StringSplit[dat, (" " | "\n") ..]], {dat, data}];
Extrayez les attributs pertinents avec des « étiquettes » et des « caractéristiques ». Les valeurs stockées dans des « étiquettes » sont comprises entre 0 et 1, elles correspondent à la présence et à l'absence de maladie cardiovasculaire, respectivement.
labels = Unitize[data[[All, 58]]];
features =
data[[All, {3, 4, 9, 10, 12, 16, 19, 32, 38, 40, 41, 44, 51}]];
Take[labels, 10]
Pour chaque patient, le vecteur de caractéristique est une liste de valeurs numériques. Toutefois, les données ne sont pas complètes et comportent des champs manquants enregistrés comme .
features[[-3]]
Remplacez les valeurs manquantes par la moyenne des données disponibles dans l'attribut correspondant, puis visualisez la corrélation entre les différents attributs.
features = Transpose[Table[
N[attribute /. {-9 -> Mean[N[DeleteCases[attribute, -9]]]}]
, {attribute, Transpose[features]}]];
cormat = Correlation[features];
Pour visualiser la distribution des données, l'APC est effectuée pour extraire les deux premières composantes principales, puis les données projetées sont présentées sur un diagramme de dispersion.
pcs2 = Take[PrincipalComponents[features, Method -> "Correlation"],
All, 2];
Pour distinguer les deux catégories, les données de projection sont ajustées sur un modèle de mélange gaussien à deux composantes.
edist = EstimatedDistribution[pcs2,
MixtureDistribution[{p1,
p2}, {BinormalDistribution[{m11, m12}, {s11, s12}, r1],
BinormalDistribution[{m21, m22}, {s21, s22}, r2]}]];
En vous basant sur le modèle de mélange, tracez la limite de décision (courbe noire) et les contours de densité de probabilité (courbe rouge) du modèle de mélange et montrez-les avec le diagramme de dispersion. La première composante du mélange gaussien a une probabilité élevée à l'intérieur de la limite de décision.