Précision et rappel

0

Dans la reconnaissance de formes , la récupération et la classification d’informations (apprentissage automatique) , la précision et le rappel sont des mesures de performance qui s’appliquent aux données extraites d’une collection , d’un corpus ou d’un espace d’échantillonnage .

Précision et rappel

La précision (également appelée Valeur prédictive positive ) est la fraction d’instances pertinentes parmi les instances récupérées, tandis que le rappel (également appelé sensibilité ) est la fraction d’instances pertinentes qui ont été récupérées. La précision et le rappel sont donc basés sur la pertinence .

Considérons un programme informatique pour reconnaître les chiens (l’ élément pertinent ) dans une photographie numérique. Lors du traitement d’une image contenant dix chats et douze chiens, le programme identifie huit chiens. Sur les huit éléments identifiés comme des chiens, seuls cinq sont en réalité des chiens (vrais positifs), tandis que les trois autres sont des chats (faux positifs). Sept chiens ont été manqués (faux négatifs) et sept chats ont été correctement exclus (vrais négatifs). La précision du programme est alors de 5/8 (vrais positifs / éléments sélectionnés) tandis que son rappel est de 5/12 (vrais positifs / éléments pertinents).

Lorsqu’un moteur de recherche renvoie 30 pages, dont seulement 20 sont pertinentes, tout en ne renvoyant pas 40 pages pertinentes supplémentaires, sa précision est de 20/30 = 2/3, ce qui nous indique la validité des résultats, tandis que son rappel est de 20/ 60 = 1/3, ce qui nous indique à quel point les résultats sont complets.

Adopter une approche de test d’hypothèses à partir des statistiques , dans laquelle, dans ce cas, l’ hypothèse nulle est qu’un élément donné n’est pas pertinent , c’est-à-dire pas un chien, absence d’ erreurs de type I et de type II (c’est-à-dire spécificité parfaite et sensibilité de 100% chacun) correspond respectivement à une précision parfaite (pas de Faux positif) et à un rappel parfait (pas de Faux négatif).

Plus généralement, le rappel est simplement le complément du taux d’Erreur de type II, c’est-à-dire un moins le taux d’Erreur de type II. La précision est liée au taux d’Erreur de type I, mais d’une manière un peu plus compliquée, car elle dépend également de la distribution antérieure de voir un élément pertinent par rapport à un élément non pertinent.

L’exemple de chat et de chien ci-dessus contenait 8 − 5 = 3 erreurs de type I, pour un taux d’Erreur de type I de 3/8, et 12 − 5 = 7 erreurs de type II, pour un taux d’Erreur de type II de 7/12. La précision peut être considérée comme une mesure de la qualité et le rappel comme une mesure de la quantité. Une précision plus élevée signifie qu’un algorithme renvoie des résultats plus pertinents que des résultats non pertinents, et un rappel élevé signifie qu’un algorithme renvoie la plupart des résultats pertinents (que des résultats non pertinents soient également renvoyés ou non).

Introduction

Dans la recherche d’informations , les instances sont des documents et la tâche consiste à renvoyer un ensemble de documents pertinents en fonction d’un terme de recherche. Le rappel est le nombre de documents pertinents récupérés par une recherche divisé par le nombre total de documents pertinents existants , tandis que la précision est le nombre de documents pertinents récupérés par une recherche divisé par le nombre total de documents récupérés par cette recherche.

Dans une tâche de classification , la précision d’une classe est le nombre de vrais positifs (c’est-à-dire le nombre d’éléments correctement étiquetés comme appartenant à la classe positive) divisé par le nombre total d’éléments étiquetés comme appartenant à la classe positive (c’est-à-dire la somme des vrais positifs et faux positifs , qui sont des éléments incorrectement étiquetés comme appartenant à la classe). Le rappel dans ce contexte est défini comme le nombre de vrais positifs divisé par le nombre total d’éléments qui appartiennent réellement à la classe positive (c’est-à-dire la somme des vrais positifs et des faux négatifs , qui sont des éléments qui n’ont pas été étiquetés comme appartenant à la classe positive mais aurait dû l’être).

Dans la recherche d’informations, un score de précision parfaite de 1,0 signifie que chaque résultat récupéré par une recherche était pertinent (mais ne dit rien sur le fait que tous les documents pertinents ont été récupérés) alors qu’un score de rappel parfait de 1,0 signifie que tous les documents pertinents ont été récupérés par la recherche ( mais ne dit rien sur le nombre de documents non pertinents qui ont également été récupérés).

La précision et le rappel ne sont pas des mesures particulièrement utiles lorsqu’ils sont utilisés isolément. Par exemple, il est possible d’avoir un rappel parfait en récupérant simplement chaque élément. De même, il est possible d’avoir une précision presque parfaite en ne sélectionnant qu’un très petit nombre d’éléments extrêmement probables.

Dans une tâche de classification, un score de précision de 1,0 pour une classe C signifie que chaque élément étiqueté comme appartenant à la classe C appartient bien à la classe C (mais ne dit rien sur le nombre d’éléments de la classe C qui n’ont pas été étiquetés correctement) alors qu’un un rappel de 1,0 signifie que chaque élément de la classe C a été étiqueté comme appartenant à la classe C (mais ne dit rien sur le nombre d’éléments d’autres classes qui ont également été incorrectement étiquetés comme appartenant à la classe C).

Souvent, il existe une relation inverse entre la précision et le rappel, où il est possible d’augmenter l’un au détriment de l’autre. La chirurgie cérébrale fournit un exemple illustratif du compromis. Prenons l’exemple d’un chirurgien du cerveau qui retire une tumeur cancéreuse du cerveau d’un patient. Le chirurgien doit retirer toutes les cellules tumorales car toutes les cellules cancéreuses restantes régénéreront la tumeur. À l’inverse, le chirurgien ne doit pas retirer les cellules cérébrales saines car cela laisserait le patient avec une fonction cérébrale altérée. Le chirurgien peut être plus libéral dans la zone du cerveau qu’il enlève pour s’assurer qu’il a extrait toutes les cellules cancéreuses. Cette décision augmente le rappel mais réduit la précision. D’un autre côté, le chirurgien peut être plus conservateur dans les cellules cérébrales qu’il prélève pour s’assurer qu’il n’extrait que des cellules cancéreuses. Cette décision augmente la précision mais réduit le rappel. C’est-à-dire qu’un rappel plus important augmente les chances d’éliminer les cellules saines (résultat négatif) et augmente les chances d’éliminer toutes les cellules cancéreuses (résultat positif). Une plus grande précision diminue les chances d’éliminer les cellules saines (résultat positif), mais diminue également les chances d’éliminer toutes les cellules cancéreuses (résultat négatif).

Habituellement, les scores de précision et de rappel ne sont pas discutés isolément. Au lieu de cela, soit les valeurs d’une mesure sont comparées pour un niveau fixe à l’autre mesure (par exemple, précision à un niveau de rappel de 0,75 ), soit les deux sont combinées en une seule mesure. Des exemples de mesures qui sont une combinaison de précision et de rappel sont la mesure F (la moyenne harmonique pondérée de la précision et du rappel), ou le Coefficient de corrélation de Matthews , qui est une moyenne géométrique des variantes corrigées au hasard : les coefficients de régression Informedness ( DeltaP’) et Marquage (DeltaP). [1] [2] Précisionest une moyenne arithmétique pondérée de la précision et de la précision inverse (pondérée par le biais) ainsi qu’une moyenne arithmétique pondérée du rappel et du rappel inverse (pondérée par la prévalence). [1] La précision inverse et le rappel inverse sont simplement la précision et le rappel du problème inverse où les étiquettes positives et négatives sont échangées (pour les classes réelles et les étiquettes de prédiction). Le rappel et le rappel inverse, ou de manière équivalente le Taux de vrais positifs et le taux de faux positifs, sont souvent tracés l’un par rapport à l’autre sous forme de ROCcourbes et fournir un mécanisme de principe pour explorer les compromis de point de fonctionnement. En dehors de la recherche d’informations, l’application du rappel, de la précision et de la mesure F est considérée comme imparfaite car ils ignorent la vraie cellule négative du tableau de contingence, et ils sont facilement manipulés en biaisant les prédictions. [1] Le premier problème est « résolu » en utilisant la précision et le deuxième problème est « résolu » en actualisant la composante de chance et en renormalisant le kappa de Cohen , mais cela ne permet plus d’explorer graphiquement les compromis. Cependant, Informedness et Markedness sont des renormalisations de type Kappa de Rappel et Précision, [3] et leur moyenne géométriqueLe Coefficient de corrélation de Matthews agit donc comme une mesure F débiaisée.

Définition (contexte de recherche d’informations)

Learn more.

Dans les contextes de recherche d’informations , la précision et le rappel sont définis en termes d’un ensemble de documents récupérés (par exemple, la liste des documents produits par un moteur de recherche Web pour une requête) et d’un ensemble de documents pertinents (par exemple, la liste de tous les documents sur Internet pertinents pour un certain sujet), cf. pertinence . [4]

Précision

Dans le domaine de la recherche d’ informations , la précision est la fraction de documents récupérés qui sont pertinents pour la requête :

précision = | { documents pertinents } ∩ { documents récupérés } | | { documents récupérés } | {displaystyle {text{précision}}={frac {|{{text{documents pertinents}}}cap {{text{documents récupérés}}}|}{|{{ texte{documents récupérés}}}|}}} {displaystyle {text{precision}}={frac {|{{text{relevant documents}}}cap {{text{retrieved documents}}}|}{|{{text{retrieved documents}}}|}}} {displaystyle {text{precision}}={frac {|{{text{relevant documents}}}cap {{text{retrieved documents}}}|}{|{{text{retrieved documents}}}|}}}

Par exemple, pour une recherche de texte sur un ensemble de documents, la précision est le nombre de résultats corrects divisé par le nombre de tous les résultats renvoyés.

La précision prend en compte tous les documents récupérés, mais elle peut également être évaluée à un niveau de coupure donné, en ne considérant que les résultats les plus élevés renvoyés par le système. Cette mesure est appelée précision à n ou P@n .

La précision est utilisée avec le rappel, le pourcentage de tous les documents pertinents qui est renvoyé par la recherche. Les deux mesures sont parfois utilisées ensemble dans le score F 1 (ou mesure f) pour fournir une mesure unique pour un système.

Notez que la signification et l’utilisation de « précision » dans le domaine de la recherche d’informations diffèrent de la définition de l’ exactitude et de la précision dans d’autres branches de la science et de la technologie.

Rappeler

Dans la recherche d’informations, le rappel est la fraction des documents pertinents qui sont récupérés avec succès.

rappeler = | { documents pertinents } ∩ { documents récupérés } | | { documents pertinents } | {displaystyle {text{rappel}}={frac {|{{text{documents pertinents}}}cap {{text{documents récupérés}}}|}{|{{ texte{documents pertinents}}}|}}} {displaystyle {text{recall}}={frac {|{{text{relevant documents}}}cap {{text{retrieved documents}}}|}{|{{text{relevant documents}}}|}}} {displaystyle {text{recall}}={frac {|{{text{relevant documents}}}cap {{text{retrieved documents}}}|}{|{{text{relevant documents}}}|}}}

Par exemple, pour une recherche textuelle sur un ensemble de documents, le rappel est le nombre de résultats corrects divisé par le nombre de résultats qui auraient dû être renvoyés.

Dans la classification binaire, le rappel est appelé sensibilité . Il peut être considéré comme la probabilité qu’un document pertinent soit récupéré par la requête.

Il est trivial d’atteindre un rappel de 100 % en renvoyant tous les documents en réponse à n’importe quelle requête. Par conséquent, le rappel seul ne suffit pas. Il faut aussi mesurer le nombre de documents non pertinents, par exemple en calculant également la précision.

Définition (contexte de classification)

Pour les tâches de classification, les termes vrais positifs , vrais négatifs , faux positifs et faux négatifs (voir Erreurs de type I et de type II pour les définitions) comparent les résultats du classificateur testé avec des jugements externes fiables. Les termes positif et négatif font référence à la prédiction du classificateur (parfois appelée attente ), et les termes vrai et faux indiquent si cette prédiction correspond au jugement externe (parfois appelé observation ).

Définissons une expérience à partir de P instances positives et de N instances négatives pour une condition. Les quatre résultats peuvent être formulés dans un tableau de contingence 2×2 ou une matrice de confusion , comme suit :

Terminologie et dérivations
à partir d’une matrice de confusion

État prévu Références : [5] [6] [7] [8] [9] [10] [11] [12]

  • voir
  • parler
  • Éditer

Population totale
= P + N
Positif (PP) Négatif (PN) Information , information du bookmaker (BM)
= TPR + TNR − 1
Seuil de prévalence (TP)
=√ TPR × FPR − FPR/TPR − FPR
État réel Positif (P) Vrai positif (TP),
frappé
Faux négatif (FN),
Erreur de type II , échec, sous-
estimation
Taux de vrais positifs (TPR), rappel , sensibilité (SEN), probabilité de détection, taux de réussite, puissance
= TP/P = 1 − FNR
Taux de faux négatifs (FNR),
taux d’échec
= FN/P = 1 − RPT
Négatif (N) Faux positif (FP),
Erreur de type I , fausse alarme,
surestimation
Vrai négatif (TN),
rejet correct
Taux de faux positifs (FPR),
probabilité de fausse alarme, retombées
= PF/N = 1 − TNR
Taux de vrais négatifs (TNR),
spécificité (SPC), sélectivité
= TN/N = 1 − FPR
Prévalence
= P/P + N
Valeur prédictive positive (VPP), précision
= TP/polypropylène = 1 − RAD
Taux de fausses omissions (FOR)
= FN/PN = 1 − VAN
Rapport de vraisemblance positif (RV+)
= TRP/FPR
Rapport de vraisemblance négatif (LR−)
= FNR/TNR
Précision (ACC) = TP + TN/P + N Taux de fausse découverte (FDR)
= PF/polypropylène = 1 − VPP
Valeur prédictive négative (VAN) = TN/PN = 1 − POUR Marquage (MK), deltaP (Δp)
= VPP + VPN − 1
Odds ratio diagnostique (DOR) = LR+/LR−
Précision équilibrée (BA) = TPR + TNR/2 Note F 1 =
2 VPP × TPR/PPV + TPR = 2 TP/2 TP + FP + FN
Indice de Fowlkes–Mallows (FM) = √ VPP × TPR Coefficient de corrélation de Matthews (MCC)
= √ TPR×TNR×PPV×NPV − √ FNR×FPR×FOR×FDR
Score de menace (TS), indice de réussite critique (CSI), indice Jaccard = TP/TP + FN + FP
condition positive (P) le nombre de vrais cas positifs dans les données condition négative (N) le nombre de cas réels négatifs dans les données


Vrai positif (TP) Un résultat de test qui indique correctement la présence d’une condition ou d’une caractéristique Vrai négatif (TN) Un résultat de test qui indique correctement l’absence d’une condition ou d’une caractéristique Faux positif (FP) Un résultat de test qui indique à tort qu’une condition ou un attribut particulier est présent Faux négatif (FN) Un résultat de test qui indique à tort qu’une condition ou un attribut particulier est absent


sensibilité , rappel , taux de réussite ou Taux de vrais positifs (TPR) J P R = T P P = T P T P + F N = 1 − F N R {displaystyle mathrm {TPR} ={frac {mathrm {TP} }{mathrm {P} }}={frac {mathrm {TP} }{mathrm {TP} +mathrm {FN} }}=1-mathrm {FNR} } {displaystyle mathrm {TPR} ={frac {mathrm {TP} }{mathrm {P} }}={frac {mathrm {TP} }{mathrm {TP} +mathrm {FN} }}=1-mathrm {FNR} } {displaystyle mathrm {TPR} ={frac {mathrm {TP} }{mathrm {P} }}={frac {mathrm {TP} }{mathrm {TP} +mathrm {FN} }}=1-mathrm {FNR} } spécificité , sélectivité ou taux de vrais négatifs (TNR) T N R = T N N = T N T N + F P = 1 − F P R {displaystyle mathrm {TNR} ={frac {mathrm {TN} }{mathrm {N} }}={frac {mathrm {TN} }{mathrm {TN} +mathrm {FP} }}=1-mathrm {FPR} } {displaystyle mathrm {TNR} ={frac {mathrm {TN} }{mathrm {N} }}={frac {mathrm {TN} }{mathrm {TN} +mathrm {FP} }}=1-mathrm {FPR} } {displaystyle mathrm {TNR} ={frac {mathrm {TN} }{mathrm {N} }}={frac {mathrm {TN} }{mathrm {TN} +mathrm {FP} }}=1-mathrm {FPR} } précision ou Valeur prédictive positive (PPV) P P V = T P T P + F P = 1 − F D R {displaystyle mathrm {PPV} ={frac {mathrm {TP} }{mathrm {TP} +mathrm {FP} }}=1-mathrm {FDR} } {displaystyle mathrm {PPV} ={frac {mathrm {TP} }{mathrm {TP} +mathrm {FP} }}=1-mathrm {FDR} } {displaystyle mathrm {PPV} ={frac {mathrm {TP} }{mathrm {TP} +mathrm {FP} }}=1-mathrm {FDR} } valeur prédictive négative (VAN) N P V = T N T N + F N = 1 − F O R {displaystyle mathrm {NPV} ={frac {mathrm {TN} }{mathrm {TN} +mathrm {FN} }}=1-mathrm {FOR} } {displaystyle mathrm {NPV} ={frac {mathrm {TN} }{mathrm {TN} +mathrm {FN} }}=1-mathrm {FOR} } {displaystyle mathrm {NPV} ={frac {mathrm {TN} }{mathrm {TN} +mathrm {FN} }}=1-mathrm {FOR} } taux de ratés ou Taux de faux négatifs (FNR) F N R = F N P = F N F N + T P = 1 − T P R {displaystyle mathrm {FNR} ={frac {mathrm {FN} }{mathrm {P} }}={frac {mathrm {FN} }{mathrm {FN} +mathrm {TP} }}=1-mathrm {TPR} } {displaystyle mathrm {FNR} ={frac {mathrm {FN} }{mathrm {P} }}={frac {mathrm {FN} }{mathrm {FN} +mathrm {TP} }}=1-mathrm {TPR} } {displaystyle mathrm {FNR} ={frac {mathrm {FN} }{mathrm {P} }}={frac {mathrm {FN} }{mathrm {FN} +mathrm {TP} }}=1-mathrm {TPR} } taux de retombées ou de faux positifs (FPR) F P R = F P N = F P F P + T N = 1 − T N R {displaystyle mathrm {FPR} ={frac {mathrm {FP} }{mathrm {N} }}={frac {mathrm {FP} }{mathrm {FP} +mathrm {TN} }}=1-mathrm {TNR} } {displaystyle mathrm {FPR} ={frac {mathrm {FP} }{mathrm {N} }}={frac {mathrm {FP} }{mathrm {FP} +mathrm {TN} }}=1-mathrm {TNR} } {displaystyle mathrm {FPR} ={frac {mathrm {FP} }{mathrm {N} }}={frac {mathrm {FP} }{mathrm {FP} +mathrm {TN} }}=1-mathrm {TNR} } taux de fausses découvertes (FDR) F D R = F P F P + T P = 1 − P P V {displaystyle mathrm {FDR} ={frac {mathrm {FP} }{mathrm {FP} +mathrm {TP} }}=1-mathrm {PPV} } {displaystyle mathrm {FDR} ={frac {mathrm {FP} }{mathrm {FP} +mathrm {TP} }}=1-mathrm {PPV} } {displaystyle mathrm {FDR} ={frac {mathrm {FP} }{mathrm {FP} +mathrm {TP} }}=1-mathrm {PPV} } taux de fausses omissions (FOR) F O R = F N F N + T N = 1 − N P V {displaystyle mathrm {FOR} ={frac {mathrm {FN} }{mathrm {FN} +mathrm {TN} }}=1-mathrm {NPV} } {displaystyle mathrm {FOR} ={frac {mathrm {FN} }{mathrm {FN} +mathrm {TN} }}=1-mathrm {NPV} } {displaystyle mathrm {FOR} ={frac {mathrm {FN} }{mathrm {FN} +mathrm {TN} }}=1-mathrm {NPV} } Rapport de vraisemblance positif (RV+) L R + = T P R F P R {displaystyle mathrm {LR+} ={frac {mathrm {TPR} }{mathrm {FPR} }}} {displaystyle mathrm {LR+} ={frac {mathrm {TPR} }{mathrm {FPR} }}} Rapport de vraisemblance négatif (LR-) L R − = F N R T N R {displaystyle mathrm {LR-} ={frac {mathrm {FNR} }{mathrm {TNR} }}} {displaystyle mathrm {LR-} ={frac {mathrm {FNR} }{mathrm {TNR} }}} {displaystyle mathrm {LR-} ={frac {mathrm {FNR} }{mathrm {TNR} }}} Seuil de prévalence (PT) P T = T P R ( − T N R + 1 ) + T N R − 1 ( T P R + T N R − 1 ) = F P R T P R + F P R {displaystyle mathrm {PT} ={frac {{sqrt {mathrm {TPR} (-mathrm {TNR} +1)}}+mathrm {TNR} -1}{(mathrm {TPR} +mathrm {TNR} -1)}}={frac {sqrt {mathrm {FPR} }}{{sqrt {mathrm {TPR} }}+{sqrt {mathrm {FPR} }} }}} {displaystyle mathrm {PT} ={frac {{sqrt {mathrm {TPR} (-mathrm {TNR} +1)}}+mathrm {TNR} -1}{(mathrm {TPR} +mathrm {TNR} -1)}}={frac {sqrt {mathrm {FPR} }}{{sqrt {mathrm {TPR} }}+{sqrt {mathrm {FPR} }}}}} {displaystyle mathrm {PT} ={frac {{sqrt {mathrm {TPR} (-mathrm {TNR} +1)}}+mathrm {TNR} -1}{(mathrm {TPR} +mathrm {TNR} -1)}}={frac {sqrt {mathrm {FPR} }}{{sqrt {mathrm {TPR} }}+{sqrt {mathrm {FPR} }}}}} score de menace (TS) ou indice de réussite critique (CSI) T S = T P T P + F N + F P {displaystyle mathrm {TS} ={frac {mathrm {TP} }{mathrm {TP} +mathrm {FN} +mathrm {FP} }}} {displaystyle mathrm {TS} ={frac {mathrm {TP} }{mathrm {TP} +mathrm {FN} +mathrm {FP} }}} {displaystyle mathrm {TS} ={frac {mathrm {TP} }{mathrm {TP} +mathrm {FN} +mathrm {FP} }}}


Prévalence P P + N {displaystyle {frac {mathrm {P} }{mathrm {P} +mathrm {N} }}} {displaystyle {frac {mathrm {P} }{mathrm {P} +mathrm {N} }}} {displaystyle {frac {mathrm {P} }{mathrm {P} +mathrm {N} }}} précision (ACC) A C C = T P + T N P + N = T P + T N T P + T N + F P + F N {displaystyle mathrm {ACC} ={frac {mathrm {TP} +mathrm {TN} }{mathrm {P} +mathrm {N} }}={frac {mathrm {TP} + mathrm {TN} }{mathrm {TP} +mathrm {TN} +mathrm {FP} +mathrm {FN} }}} {displaystyle mathrm {ACC} ={frac {mathrm {TP} +mathrm {TN} }{mathrm {P} +mathrm {N} }}={frac {mathrm {TP} +mathrm {TN} }{mathrm {TP} +mathrm {TN} +mathrm {FP} +mathrm {FN} }}} {displaystyle mathrm {ACC} ={frac {mathrm {TP} +mathrm {TN} }{mathrm {P} +mathrm {N} }}={frac {mathrm {TP} +mathrm {TN} }{mathrm {TP} +mathrm {TN} +mathrm {FP} +mathrm {FN} }}} précision équilibrée (BA) B A = T P R + T N R 2 {displaystyle mathrm {BA} ={frac {TPR+TNR}{2}}} {displaystyle mathrm {BA} ={frac {TPR+TNR}{2}}} {displaystyle mathrm {BA} ={frac {TPR+TNR}{2}}} Classement F1 est la moyenne harmonique de la précision et de la sensibilité : F 1 = 2 × P P V × T P R P P V + T P R = 2 T P 2 T P + F P + F N {displaystyle mathrm {F} _{1}=2times {frac {mathrm {PPV} times mathrm {TPR} }{mathrm {PPV} +mathrm {TPR} }}={ frac {2mathrm {TP} }{2mathrm {TP} +mathrm {FP} +mathrm {FN} }}} {displaystyle mathrm {F} _{1}=2times {frac {mathrm {PPV} times mathrm {TPR} }{mathrm {PPV} +mathrm {TPR} }}={frac {2mathrm {TP} }{2mathrm {TP} +mathrm {FP} +mathrm {FN} }}} {displaystyle mathrm {F} _{1}=2times {frac {mathrm {PPV} times mathrm {TPR} }{mathrm {PPV} +mathrm {TPR} }}={frac {2mathrm {TP} }{2mathrm {TP} +mathrm {FP} +mathrm {FN} }}} coefficient phi (φ ou r φ ) ou Coefficient de corrélation de Matthews (MCC) M C C = T P × T N − F P × F N ( T P + F P ) ( T P + F N ) ( T N + F P ) ( T N + F N ) {displaystyle mathrm {MCC} ={frac {mathrm {TP} times mathrm {TN} -mathrm {FP} times mathrm {FN} }{sqrt {(mathrm {TP} + mathrm {FP} )(mathrm {TP} +mathrm {FN} )(mathrm {TN} +mathrm {FP} )(mathrm {TN} +mathrm {FN} )}}}} {displaystyle mathrm {MCC} ={frac {mathrm {TP} times mathrm {TN} -mathrm {FP} times mathrm {FN} }{sqrt {(mathrm {TP} +mathrm {FP} )(mathrm {TP} +mathrm {FN} )(mathrm {TN} +mathrm {FP} )(mathrm {TN} +mathrm {FN} )}}}} {displaystyle mathrm {MCC} ={frac {mathrm {TP} times mathrm {TN} -mathrm {FP} times mathrm {FN} }{sqrt {(mathrm {TP} +mathrm {FP} )(mathrm {TP} +mathrm {FN} )(mathrm {TN} +mathrm {FP} )(mathrm {TN} +mathrm {FN} )}}}} Indice de Fowlkes-Mauves (FM) F M = T P T P + F P × T P T P + F N = P P V × T P R {displaystyle mathrm {FM} ={sqrt {{frac {TP}{TP+FP}}times {frac {TP}{TP+FN}}}}={sqrt {PPVtimes TPR }}} {displaystyle mathrm {FM} ={sqrt {{frac {TP}{TP+FP}}times {frac {TP}{TP+FN}}}}={sqrt {PPVtimes TPR}}} {displaystyle mathrm {FM} ={sqrt {{frac {TP}{TP+FP}}times {frac {TP}{TP+FN}}}}={sqrt {PPVtimes TPR}}} L’information ou L’information des bookmakers (BM) B M = T P R + T N R − 1 {displaystyle mathrm {BM} =mathrm {TPR} +mathrm {TNR} -1} {displaystyle mathrm {BM} =mathrm {TPR} +mathrm {TNR} -1} {displaystyle mathrm {BM} =mathrm {TPR} +mathrm {TNR} -1} marquage (MK) ou deltaP (Δp) M K = P P V + N P V − 1 {displaystyle mathrm {MK} =mathrm {PPV} +mathrm {NPV} -1} {displaystyle mathrm {MK} =mathrm {PPV} +mathrm {NPV} -1} {displaystyle mathrm {MK} =mathrm {PPV} +mathrm {NPV} -1} Rapport de cotes diagnostique (DOR) D O R = L R + L R − {displaystyle mathrm {DOR} ={frac {mathrm {LR+} }{mathrm {LR-} }}} {displaystyle mathrm {DOR} ={frac {mathrm {LR+} }{mathrm {LR-} }}}

Sources : Fawcett (2006), [13] Piryonesi et El-Diraby (2020), [14] Powers (2011), [15] Ting (2011), [16] CAWCR, [17] D. Chicco & G. Jurman (2020, 2021) , [18] [19] Tharwat (2018). [20]

La précision et le rappel sont alors définis comme : [21]

Precision = t p t p + f p Recall = t p t p + f n {displaystyle {begin{aligned}{text{Precision}}&={frac {tp}{tp+fp}}\{text{Recall}}&={frac {tp}{tp+ fn}},end{aligné}}} {displaystyle {begin{aligned}{text{Precision}}&={frac {tp}{tp+fp}}\{text{Recall}}&={frac {tp}{tp+fn}},end{aligned}}} {displaystyle {begin{aligned}{text{Precision}}&={frac {tp}{tp+fp}}\{text{Recall}}&={frac {tp}{tp+fn}},end{aligned}}}

Le rappel dans ce contexte est également appelé Taux de vrais positifs ou sensibilité , et la précision est également appelée Valeur prédictive positive (VPP) ; d’autres mesures connexes utilisées dans la classification comprennent le taux de vrais négatifs et l’ exactitude . [21] Le taux de vrais négatifs est également appelé spécificité .

True negative rate = t n t n + f p {displaystyle {text{Taux négatif réel}}={frac {tn}{tn+fp}},} {displaystyle {text{True negative rate}}={frac {tn}{tn+fp}},} {displaystyle {text{True negative rate}}={frac {tn}{tn+fp}},}

Données déséquilibrées

Accuracy = t p + t n t p + t n + f p + f n {displaystyle {text{Précision}}={frac {tp+tn}{tp+tn+fp+fn}},} {displaystyle {text{Accuracy}}={frac {tp+tn}{tp+tn+fp+fn}},} {displaystyle {text{Accuracy}}={frac {tp+tn}{tp+tn+fp+fn}},}

La précision peut être une mesure trompeuse pour les ensembles de données déséquilibrés. Considérons un échantillon avec 95 valeurs négatives et 5 valeurs positives. Classer toutes les valeurs comme négatives dans ce cas donne un score de précision de 0,95. Il existe de nombreuses métriques qui ne souffrent pas de ce problème. Par exemple, la précision équilibrée [22] (bACC) normalise les prédictions vraies positives et vraies négatives par le nombre d’échantillons positifs et négatifs, respectivement, et divise leur somme par deux :

Balanced accuracy = T P R + T N R 2 {displaystyle {text{Précision équilibrée}}={frac {TPR+TNR}{2}},} {displaystyle {text{Balanced accuracy}}={frac {TPR+TNR}{2}},} {displaystyle {text{Balanced accuracy}}={frac {TPR+TNR}{2}},}

Pour l’exemple précédent (95 échantillons négatifs et 5 échantillons positifs), classer tous comme négatifs donne un score de précision équilibré de 0,5 (le score bACC maximum est de un), ce qui équivaut à la valeur attendue d’une supposition aléatoire dans un ensemble de données équilibré. La précision équilibrée peut servir de mesure de performance globale pour un modèle, que les véritables étiquettes soient déséquilibrées ou non dans les données, en supposant que le coût de FN est le même que celui de FP.

Une autre mesure est le taux de condition positive prédit (PPCR), qui identifie le pourcentage de la population totale qui est signalé. Par exemple, pour un moteur de recherche qui renvoie 30 résultats (documents récupérés) sur 1 000 000 de documents, le PPCR est de 0,003 %.

Predicted positive condition rate = t p + f p t p + f p + t n + f n {displaystyle {text{Taux de conditions positives prévu}}={frac {tp+fp}{tp+fp+tn+fn}},} {displaystyle {text{Predicted positive condition rate}}={frac {tp+fp}{tp+fp+tn+fn}},} {displaystyle {text{Predicted positive condition rate}}={frac {tp+fp}{tp+fp+tn+fn}},}

Selon Saito et Rehmsmeier, les tracés de rappel de précision sont plus informatifs que les tracés ROC lors de l’évaluation de classificateurs binaires sur des données déséquilibrées. Dans de tels scénarios, les tracés ROC peuvent être visuellement trompeurs en ce qui concerne les conclusions sur la fiabilité des performances de classification. [23]

Contrairement aux approches ci-dessus, si une mise à l’échelle des déséquilibres est appliquée directement en pondérant les éléments de la matrice de confusion, les définitions de métriques standard s’appliquent toujours même dans le cas d’ensembles de données déséquilibrés. [24] La procédure de pondération relie les éléments de la matrice de confusion à l’ensemble de support de chaque classe considérée.

Interprétation probabiliste

On peut aussi interpréter la précision et le rappel non pas comme des ratios mais comme des estimations de probabilités : [25]

  • La précision est la probabilité estimée qu’un document sélectionné au hasard dans l’ensemble des documents récupérés soit pertinent.
  • Le rappel est la probabilité estimée qu’un document sélectionné au hasard dans le pool de documents pertinents soit récupéré.

Une autre interprétation est que la précision est la probabilité moyenne de récupération pertinente et le rappel est la probabilité moyenne de récupération complète moyennée sur plusieurs requêtes de récupération.

Mesure F

Une mesure qui combine précision et rappel est la moyenne harmonique de la précision et du rappel, la mesure F traditionnelle ou le score F équilibré :

F = 2 ⋅ p r e c i s i o n ⋅ r e c a l l p r e c i s i o n + r e c a l l {displaystyle F=2cdot {frac {mathrm {précision} cdot mathrm {rappel} }{mathrm {précision} +mathrm {rappel} }}} {displaystyle F=2cdot {frac {mathrm {precision} cdot mathrm {recall} }{mathrm {precision} +mathrm {recall} }}} {displaystyle F=2cdot {frac {mathrm {precision} cdot mathrm {recall} }{mathrm {precision} +mathrm {recall} }}}

Cette mesure est approximativement la moyenne des deux lorsqu’ils sont proches, et est plus généralement la moyenne harmonique , qui, pour le cas de deux nombres, coïncide avec le carré de la moyenne géométrique divisé par la moyenne arithmétique . Il existe plusieurs raisons pour lesquelles le score F peut être critiqué dans des circonstances particulières en raison de son biais en tant que mesure d’évaluation. [1] Ceci est également connu sous le nom de F 1 {displaystyle F_{1}} F_{1} F_{1}mesurer, car le rappel et la précision sont pondérés de manière égale.

C’est un cas particulier du général F β {displaystyle F_{beta }} F_{beta } F_{beta }mesure (pour les valeurs réelles non négatives de β {displaystyle bêta} beta beta ):

F β = ( 1 + β 2 ) ⋅ p r e c i s i o n ⋅ r e c a l l β 2 ⋅ p r e c i s i o n + r e c a l l {displaystyle F_{beta }=(1+beta ^{2})cdot {frac {mathrm {précision} cdot mathrm {rappel} }{beta ^{2}cdot mathrm { précision} +mathrm {rappel} }}} {displaystyle F_{beta }=(1+beta ^{2})cdot {frac {mathrm {precision} cdot mathrm {recall} }{beta ^{2}cdot mathrm {precision} +mathrm {recall} }}} {displaystyle F_{beta }=(1+beta ^{2})cdot {frac {mathrm {precision} cdot mathrm {recall} }{beta ^{2}cdot mathrm {precision} +mathrm {recall} }}}

Deux autres couramment utilisés F {displaystyle F} F Fles mesures sont les F 2 {displaystyle F_{2}} F_{2} F_{2}mesure, dont les poids rappellent plus que la précision, et la F 0.5 {displaystyle F_{0.5}} F_{0.5} F_{0.5}mesure, qui met davantage l’accent sur la précision que sur le rappel.

La mesure F a été dérivée par van Rijsbergen (1979) de sorte que F β {displaystyle F_{beta }} F_{beta } F_{beta }“mesure l’efficacité de la récupération par rapport à un utilisateur qui attache β {displaystyle bêta} beta beta fois autant d’importance à rappeler qu’à la précision”. Il est basé sur la mesure d’efficacité de van Rijsbergen E α = 1 − 1 α P + 1 − α R {displaystyle E_{alpha }=1-{frac {1}{{frac {alpha }{P}}+{frac {1-alpha }{R}}}}} {displaystyle E_{alpha }=1-{frac {1}{{frac {alpha }{P}}+{frac {1-alpha }{R}}}}} {displaystyle E_{alpha }=1-{frac {1}{{frac {alpha }{P}}+{frac {1-alpha }{R}}}}}, le second terme étant la moyenne harmonique pondérée de la précision et du rappel avec des poids ( α , 1 − α ) {displaystyle (alpha ,1-alpha )} {displaystyle (alpha ,1-alpha )} {displaystyle (alpha ,1-alpha )}. Leur relation est F β = 1 − E α {displaystyle F_{beta }=1-E_{alpha }} {displaystyle F_{beta }=1-E_{alpha }} {displaystyle F_{beta }=1-E_{alpha }}où α = 1 1 + β 2 {displaystyle alpha ={frac {1}{1+beta ^{2}}}} alpha ={frac {1}{1+beta ^{2}}} alpha ={frac {1}{1+beta ^{2}}}.

Limites comme objectifs

Il existe d’autres paramètres et stratégies pour la métrique de performance du système de recherche d’informations, comme l’aire sous la courbe ROC (AUC). [26]

Voir également

  • Coefficient d’incertitude , également appelé compétence
  • Sensibilité et spécificité

Références

  1. ^ un bcd Powers , David MW (2011). “Évaluation: de la précision, du rappel et de la mesure F au ROC, à L’information, au marquage et à la corrélation” (PDF) . Journal des technologies d’apprentissage automatique . 2 (1): 37–63. Archivé de l’original (PDF) le 2019-11-14.
  2. ^ Perruchet, P.; En lignePeereman, R. (2004). “L’exploitation de L’information distributionnelle dans le traitement des syllabes”. J. Neurolinguistique . 17 (2–3): 97–119. doi : 10.1016/s0911-6044(03)00059-9 . S2CID 17104364 .
  3. ^ Pouvoirs, David MW (2012). “Le problème avec Kappa” . Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop .
  4. ^ * Kent, Allen; Berry, Madeline M.; Luehrs, Jr., Fred U.; Perry, JW (1955). “Recherche de littérature sur les machines VIII. Critères opérationnels pour la conception de systèmes de recherche d’informations”. Documents américains . 6 (2): 93. doi : 10.1002/asi.5090060209 .
  5. ^ Fawcett, Tom (2006). “Une introduction à l’analyse ROC” (PDF) . Lettres de reconnaissance de formes . 27 (8): 861–874. doi : 10.1016/j.patrec.2005.10.010 .
  6. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). “Analyse des données dans la gestion des actifs : prévision rentable de l’indice d’état des chaussées”. Journal des systèmes d’infrastructure . 26 (1): 04019036. doi : 10.1061/(ASCE)IS.1943-555X.0000512 .
  7. ^ Pouvoirs, David MW (2011). “Évaluation : de la précision, du rappel et de la mesure F au ROC, à L’information, au marquage et à la corrélation” . Journal des technologies d’apprentissage automatique . 2 (1): 37–63.
  8. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (éd.). Encyclopédie de l’apprentissage automatique . Springer. doi : 10.1007/978-0-387-30164-8 . ISBN 978-0-387-30164-8.
  9. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris ; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). “Groupe de travail conjoint WWRP/WGNE sur la recherche sur la vérification des prévisions” . Collaboration pour la recherche australienne sur le temps et le climat . Organisation météorologique mondiale . Récupéré le 17/07/2019 .
  10. ^ Chicco D, Jurman G (janvier 2020). “Les avantages du Coefficient de corrélation de Matthews (MCC) par rapport au score F1 et à la précision de l’évaluation de la classification binaire” . Génomique BMC . 21 (1) : 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .
  11. ^ Chicco D, Toetsch N, Jurman G (février 2021). “Le Coefficient de corrélation de Matthews (MCC) est plus fiable que la précision équilibrée, L’information des bookmakers et la netteté dans l’évaluation de la matrice de confusion à deux classes” . Exploration de biodonnées . 14 (13): 1-22. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID 33541410 .
  12. ^ Tharwat A. (août 2018). “Méthodes d’évaluation du classement” . Informatique Appliquée et Informatique . doi : 10.1016/j.aci.2018.08.003 .
  13. ^ Fawcett, Tom (2006). “Une introduction à l’analyse ROC” (PDF) . Lettres de reconnaissance de formes . 27 (8): 861–874. doi : 10.1016/j.patrec.2005.10.010 .
  14. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). “Analyse des données dans la gestion des actifs : prévision rentable de l’indice d’état des chaussées”. Journal des systèmes d’infrastructure . 26 (1): 04019036. doi : 10.1061/(ASCE)IS.1943-555X.0000512 .
  15. ^ Pouvoirs, David MW (2011). “Évaluation : de la précision, du rappel et de la mesure F au ROC, à L’information, au marquage et à la corrélation” . Journal des technologies d’apprentissage automatique . 2 (1): 37–63.
  16. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (éd.). Encyclopédie de l’apprentissage automatique . Springer. doi : 10.1007/978-0-387-30164-8 . ISBN 978-0-387-30164-8.
  17. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris ; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). “Groupe de travail conjoint WWRP/WGNE sur la recherche sur la vérification des prévisions” . Collaboration pour la recherche australienne sur le temps et le climat . Organisation météorologique mondiale . Récupéré le 17/07/2019 .
  18. ^ Chicco D.; Jurman G. (janvier 2020). “Les avantages du Coefficient de corrélation de Matthews (MCC) par rapport au score F1 et à la précision de l’évaluation de la classification binaire” . Génomique BMC . 21 (1) : 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .
  19. ^ Chicco D.; Toetsch N.; Jurman G. (février 2021). “Le Coefficient de corrélation de Matthews (MCC) est plus fiable que la précision équilibrée, L’information des bookmakers et la netteté dans l’évaluation de la matrice de confusion à deux classes” . Exploration de biodonnées . 14 (13): 1-22. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID 33541410 .
  20. ^ Tharwat A. (août 2018). “Méthodes d’évaluation du classement” . Informatique Appliquée et Informatique . doi : 10.1016/j.aci.2018.08.003 .
  21. ^ un b Olson, David L.; et Delen, Dursun (2008); Advanced Data Mining Techniques , Springer, 1ère édition (1er février 2008), page 138, ISBN 3-540-76916-1
  22. ^ Tondeuse, Jeffrey P. (2005-04-12). “PREP-Mt : éditeur d’ARN prédictif pour les gènes mitochondriaux végétaux” . BMC Bioinformatique . 6 : 96. doi : 10.1186/1471-2105-6-96 . ISSN 1471-2105 . PMC 1087475 . PMID 15826309 .
  23. ^ Saito, Takaya; Rehmsmeier, Marc (2015-03-04). Brock, Guy (éd.). “Le tracé de rappel de précision est plus informatif que le tracé ROC lors de l’évaluation de classificateurs binaires sur des ensembles de données déséquilibrés” . PLOS ONE . 10 (3) : e0118432. Bibcode : 2015PLoSO..1018432S . doi : 10.1371/journal.pone.0118432 . ISSN 1932-6203 . PMC 4349800 . PMID 25738806 .
    • Suzanne Ekelund (mars 2017). “Courbes de précision-rappel – que sont-elles et comment sont-elles utilisées?” . Tests de soins aigus .
  24. ^ Tripicchio, Paolo; Camacho-Gonzalez, Gerardo; D’ Avella, Salvatore (2020). « Détection des défauts de soudage : faire face aux artefacts dans la chaîne de production » . Le Journal international de la technologie de fabrication avancée . 111 (5) : 1659-1669. doi : 10.1007/s00170-020-06146-4 . S2CID 225136860 .
  25. ^ Fatih Cakir, Kun He, Xide Xia, Brian Kulis, Stan Sclaroff, Deep Metric Learning to Rank , In Proc. Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 2019.
  26. ^ Zygmunt Zając. Ce que vous vouliez savoir sur l’AUC. http://fastml.com/what-you-wanted-to-know-about-auc/
  • Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). Recherche d’informations moderne . New York, NY : ACM Press, Addison-Wesley, pages 75 et suivantes. ISBN 0-201-39829-X
  • Hjorland, Birger (2010); Le fondement du concept de pertinence , Journal of the American Society for Information Science and Technology, 61(2), 217-237
  • Makhoul, Jean ; Kubala, François ; Schwartz, Richard; et Weischedel, Ralph (1999); Mesures de performance pour l’extraction d’informations , dans Actes du DARPA Broadcast News Workshop, Herndon, VA, février 1999
  • van Rijsbergen, Cornelis Joost “Keith” (1979); Recherche d’informations , Londres, GB ; Boston, MA : Butterworth, 2e édition, ISBN 0-408-70929-4

Liens externes

  • Recherche d’informations – CJ van Rijsbergen 1979
  • Calcul de la précision et du rappel pour un problème de classification multi-classes
You might also like
Leave A Reply

Your email address will not be published.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More