Fonction de vraisemblance

0

La fonction de vraisemblance (souvent appelée simplement la vraisemblance ) décrit la probabilité conjointe des données observées en fonction des paramètres du modèle statistique choisi . [1] Pour chaque valeur de paramètre spécifique θ {displaystyle thêta} thêtadans l’ espace des paramètres , la fonction de vraisemblance p ( X | θ ) {displaystyle p(X|thêta)} p(X|thêta )attribue donc une prédiction probabiliste aux données observées X {displaystyle X} X. Puisqu’il s’agit essentiellement du produit des densités d’échantillonnage , la vraisemblance englobe généralement à la fois le processus de génération de données et le mécanisme de données manquantes qui a produit l’échantillon observé.

Pour souligner que la vraisemblance n’est pas une fonction de densité de probabilité (pdf) des paramètres, elle est souvent écrite comme L ( θ ∣ X ) {displaystyle {mathcal {L}}(theta mid X)} {displaystyle {mathcal {L}}(theta mid X)}. [a] Dans l’Estimation du maximum de vraisemblance , la fonction de vraisemblance est maximisée pour obtenir la valeur spécifique θ ^ = argmax θ ∈ Θ ⁡ L ( θ ∣ X ) {displaystyle {hat {theta }}=operatorname {argmax} _{theta in Theta }{mathcal {L}}(theta mid X)} {displaystyle {hat {theta }}=operatorname {argmax} _{theta in Theta }{mathcal {L}}(theta mid X)}, c’est-à-dire la valeur des paramètres du Modèle probabiliste sous laquelle la donnée observée est la plus probable (ou sous laquelle elle a la densité de probabilité la plus élevée, dans le cas de données continues). Pendant ce temps, dans les statistiques bayésiennes , la fonction de vraisemblance sert de conduit par lequel les informations sur l’échantillon influencent p ( θ ∣ X ) {displaystyle p(theta mid X)} {displaystyle p(theta mid X)}, la probabilité a posteriori du paramètre. [2]

Le cas de l’utilisation de la vraisemblance a été présenté pour la première fois par RA Fisher [3] , qui croyait qu’il s’agissait d’un cadre autonome pour la modélisation statistique et l’inférence. Plus tard, Barnard et Birnbaum ont dirigé une école de pensée qui a préconisé le principe de vraisemblance , postulant que toutes les informations pertinentes pour l’ inférence sont contenues dans la fonction de vraisemblance. [4] [5] Dans les statistiques fréquentistes et bayésiennes , la fonction de vraisemblance joue un rôle fondamental. [6]

Définition

La fonction de vraisemblance est généralement définie différemment pour les distributions de probabilité discrètes et continues . Une définition générale est également possible, comme indiqué ci-dessous.

Distribution de probabilité discrète

Laisser X {displaystyle X} X Xêtre une variable aléatoire discrète avec une fonction de masse de probabilité p {displaystyle p} p pen fonction d’un paramètre θ {displaystyle thêta} theta thêta. Ensuite la fonction

L ( θ ∣ X ) = p θ ( x ) = P θ ( X = x ) , {displaystyle {mathcal {L}}(theta mid x)=p_{theta }(x)=P_{theta }(X=x),} {displaystyle {mathcal {L}}(theta mid x)=p_{theta }(x)=P_{theta }(X=x),} {displaystyle {mathcal {L}}(theta mid x)=p_{theta }(x)=P_{theta }(X=x),}

considéré en fonction de θ {displaystyle thêta} theta thêta, est la fonction de vraisemblance , compte tenu du résultat x {style d’affichage x} x Xde la variable aléatoire X {displaystyle X} X X. Parfois, la probabilité de “la valeur x {style d’affichage x} x Xde X {displaystyle X} X Xpour la valeur du paramètre θ {displaystyle thêta} theta thêta ” s’écrit P ( X = x | θ ) ou P ( X = x ; θ ) . La vraisemblance est égale à la probabilité qu’un résultat particulier x {style d’affichage x} x Xest observé lorsque la vraie valeur du paramètre est θ {displaystyle thêta} theta thêta, elle est égale à la densité de probabilité sur x {style d’affichage x} x X, ce n’est pas une densité de probabilité sur le paramètre θ {displaystyle thêta} theta thêta. La probabilité, L ( θ ∣ x ) {displaystyle {mathcal {L}}(theta mid x)} {displaystyle {mathcal {L}}(theta mid x)} {displaystyle {mathcal {L}}(theta mid x)}, ne doit pas être confondu avec p ( θ ∣ x ) {displaystyle p(theta mid x)} {displaystyle p(theta mid x)} {displaystyle p(theta mid x)}, qui est la probabilité a posteriori de θ {displaystyle thêta} theta thêtacompte tenu des données x {style d’affichage x} x X.

Étant donné aucun événement (aucune donnée), la probabilité et donc la vraisemblance est de 1 ; [ citation nécessaire ] tout événement non trivial aura une probabilité plus faible.

Exemple Figure 1. La fonction de vraisemblance ( p H 2 {displaystyle p_{text{H}}^{2}} p_text{H}^2 p_texte{H}^2) pour la probabilité qu’une pièce tombe tête haute (sans connaissance préalable de l’équité de la pièce), étant donné que nous avons observé HH. Figure 2. La fonction de vraisemblance ( p H 2 ( 1 − p H ) {displaystyle p_{text{H}}^{2}(1-p_{text{H}})} {displaystyle p_{text{H}}^{2}(1-p_{text{H}})} {displaystyle p_{text{H}}^{2}(1-p_{text{H}})}) pour la probabilité qu’une pièce atterrisse tête haute (sans connaissance préalable de l’équité de la pièce), étant donné que nous avons observé HHT.

Considérons un modèle statistique simple d’un coin flip : un seul paramètre p H {displaystyle p_{text{H}}} p_text{H} p_texte{H}qui exprime la “justice” de la pièce. Le paramètre est la probabilité qu’une pièce atterrisse tête haute (“H”) lorsqu’elle est lancée. p H {displaystyle p_{text{H}}} p_text{H} p_texte{H}peut prendre n’importe quelle valeur comprise entre 0,0 et 1,0. Pour une pièce parfaitement juste , p H = 0.5 {displaystyle p_{text{H}}=0.5} p_text{H} = 0.5 p_text{H} = 0,5.

Imaginez que vous lancez deux fois une pièce juste et que vous observez les données suivantes : deux têtes en deux lancers (“HH”). En supposant que chaque pile ou face successif est iid , alors la probabilité d’observer HH est

P ( HH ∣ p H = 0.5 ) = 0.5 2 = 0.25. {displaystyle P({text{HH}}mid p_{text{H}}=0.5)=0.5^{2}=0.25.} {displaystyle P({text{HH}}mid p_{text{H}}=0.5)=0.5^{2}=0.25.} {displaystyle P({text{HH}}mid p_{text{H}}=0.5)=0.5^{2}=0.25.}

Par conséquent, compte tenu des données observées HH, la probabilité que le paramètre du modèle p H {displaystyle p_{text{H}}} p_text{H} p_texte{H}égal à 0,5 est 0,25. Mathématiquement, cela s’écrit

L ( p H = 0.5 ∣ HH ) = 0.25. {displaystyle {mathcal {L}}(p_{text{H}}=0,5mid {text{HH}})=0,25.} {displaystyle {mathcal {L}}(p_{text{H}}=0.5mid {text{HH}})=0.25.} {displaystyle {mathcal {L}}(p_{text{H}}=0,5mid {text{HH}})=0,25.}

Ce n’est pas la même chose que de dire que la probabilité que p H = 0.5 {displaystyle p_{text{H}}=0.5} p_text{H} = 0.5 p_text{H} = 0,5, compte tenu de l’observation HH, est de 0,25. (Pour cela, nous pourrions appliquer le théorème de Bayes , qui implique que la probabilité a posteriori est proportionnelle à la vraisemblance multipliée par la probabilité a priori.)

Supposons que la pièce ne soit pas une pièce juste, mais qu’elle ait plutôt p H = 0.3 {displaystyle p_{text{H}}=0.3} {displaystyle p_{text{H}}=0.3} {displaystyle p_{text{H}}=0.3}. Alors la probabilité d’avoir deux faces est

P ( HH ∣ p H = 0.3 ) = 0.3 2 = 0.09. {displaystyle P({text{HH}}mid p_{text{H}}=0.3)=0.3^{2}=0.09.} {displaystyle P({text{HH}}mid p_{text{H}}=0.3)=0.3^{2}=0.09.} {displaystyle P({text{HH}}mid p_{text{H}}=0.3)=0.3^{2}=0.09.}

Ainsi

L ( p H = 0.3 ∣ HH ) = 0.09. {displaystyle {mathcal {L}}(p_{text{H}}=0,3mid {text{HH}})=0,09.} {displaystyle {mathcal {L}}(p_{text{H}}=0.3mid {text{HH}})=0.09.} {displaystyle {mathcal {L}}(p_{text{H}}=0,3mid {text{HH}})=0,09.}

Plus généralement, pour chaque valeur de p H {displaystyle p_{text{H}}} p_text{H} p_texte{H}, nous pouvons calculer la vraisemblance correspondante. Le résultat de ces calculs est affiché dans la figure 1.

Dans la figure 1, l’intégrale de la vraisemblance sur l’intervalle [0, 1] est de 1/3. Cela illustre un aspect important des vraisemblances : les vraisemblances n’ont pas à s’intégrer (ou à s’additionner) à 1, contrairement aux probabilités.

Distribution de probabilité continue

Laisser X {displaystyle X} X Xêtre une variable aléatoire suivant une distribution de probabilité absolument continue avec la fonction de densité f {displaystyle f} f F(une fonction de x {style d’affichage x} x X) qui dépend d’un paramètre θ {displaystyle thêta} theta thêta. Ensuite la fonction

L ( θ ∣ x ) = f θ ( x ) , {displaystyle {mathcal {L}}(theta mid x)=f_{theta }(x),,} {displaystyle {mathcal {L}}(theta mid x)=f_{theta }(x),,} {displaystyle {mathcal {L}}(theta mid x)=f_{theta }(x),,}

considéré en fonction de θ {displaystyle thêta} theta thêta, est la fonction de vraisemblance (de θ {displaystyle thêta} theta thêta, étant donné le résultat x {style d’affichage x} x Xde X {displaystyle X} X X). Parfois, la fonction de densité pour “la valeur x {style d’affichage x} x Xde X {displaystyle X} X Xétant donné la valeur du paramètre θ {displaystyle thêta} theta thêta ” s’écrit f ( x ∣ θ ) {displaystyle f(xmid thêta)} {displaystyle f(xmid theta )} {displaystyle f(xmid thêta)}. La fonction de vraisemblance, L ( θ ∣ x ) {displaystyle {mathcal {L}}(theta mid x)} {displaystyle {mathcal {L}}(theta mid x)} {displaystyle {mathcal {L}}(theta mid x)}, ne doit pas être confondu avec f ( θ ∣ x ) {displaystyle f(theta mid x)} {displaystyle f(theta mid x)} {displaystyle f(theta mid x)}; la vraisemblance est égale à la densité de probabilité du résultat observé, x {style d’affichage x} x X, lorsque la vraie valeur du paramètre est θ {displaystyle thêta} theta thêta, et donc il est égal à une densité de probabilité sur le résultat x {style d’affichage x} x X, c’est-à-dire que la fonction de vraisemblance n’est pas une densité sur le paramètre θ {displaystyle thêta} theta thêta. Mettre tout simplement, L ( θ ∣ x ) {displaystyle {mathcal {L}}(theta mid x)} {displaystyle {mathcal {L}}(theta mid x)} {displaystyle {mathcal {L}}(theta mid x)}consiste à tester des hypothèses (trouver la probabilité de résultats variables compte tenu d’un ensemble de paramètres définis dans l’ hypothèse nulle ) comme f ( θ ∣ x ) {displaystyle f(theta mid x)} {displaystyle f(theta mid x)} {displaystyle f(theta mid x)}est à l’inférence (trouver les paramètres probables étant donné un résultat spécifique).

En général

Dans la théorie des probabilités de la théorie des mesures , la fonction de densité est définie comme la dérivée de Radon-Nikodym de la distribution de probabilité par rapport à une mesure dominante commune. [7] La ​​fonction de vraisemblance est cette densité interprétée comme une fonction du paramètre (éventuellement un vecteur), plutôt que des résultats possibles. [8] Cela fournit une fonction de vraisemblance pour tout modèle statistique avec toutes les distributions, qu’elles soient discrètes, absolument continues, un mélange ou autre chose. (Les probabilités ne seront comparables, par exemple pour l’estimation des paramètres, que s’il s’agit de dérivés de Radon-Nikodym par rapport à la même mesure dominante.)

La discussion ci-dessus de la vraisemblance avec des probabilités discrètes en est un cas particulier en utilisant la mesure de comptage , qui rend la densité de probabilité à tout résultat égale à la probabilité de ce résultat unique.

Fonction de vraisemblance d’un modèle paramétré

Parmi de nombreuses applications, nous en considérons ici une d’une grande importance théorique et pratique. Étant donné une Famille paramétrée de fonctions de densité de probabilité (ou de fonctions de masse de probabilité dans le cas de distributions discrètes)

x ↦ f ( x ∣ θ ) , {displaystyle xmapsto f(xmid theta ),!} xmapsto f(xmidtheta), ! xmapsto f(xmidtheta), !

où θ {displaystyle thêta} theta thêtaest le paramètre, la fonction de vraisemblance est

θ ↦ f ( x ∣ θ ) , {displaystyle theta mapsto f(xmid theta ),!} thetamapsto f(xmidtheta), ! thetamapsto f(xmidtheta), !

écrit

L ( θ ∣ x ) = f ( x ∣ θ ) , {displaystyle {mathcal {L}}(theta mid x)=f(xmid theta ),!} mathcal{L}(theta mid x)=f(xmidtheta), ! mathcal{L}(theta mid x)=f(xmidtheta), !

où x {style d’affichage x} x xest le résultat observé d’une expérience. Autrement dit, quand f ( x ∣ θ ) {displaystyle f(xmid thêta)} {displaystyle f(xmid theta )} {displaystyle f(xmid theta )}est considéré comme une fonction de x {style d’affichage x} x xavec θ {displaystyle thêta} theta theta fixe, il s’agit d’une fonction de densité de probabilité, et lorsqu’il est considéré comme une fonction de θ {displaystyle thêta} theta theta avec x {style d’affichage x} x xfixe, c’est une fonction de vraisemblance.

Ce n’est pas la même chose que la probabilité que ces paramètres soient les bons, compte tenu de l’échantillon observé. Tenter d’interpréter la probabilité d’une hypothèse compte tenu des preuves observées comme la probabilité de l’hypothèse est une erreur courante, avec des conséquences potentiellement désastreuses. Voir l’erreur du procureur pour un exemple de cela.

D’un point de vue géométrique, si l’on considère f ( x ∣ θ ) {displaystyle f(xmid thêta)} {displaystyle f(xmid theta )} {displaystyle f(xmid theta )}en fonction de deux variables, alors la famille de distributions de probabilité peut être vue comme une famille de courbes parallèles à la x {style d’affichage x} x x-axe, tandis que la famille des fonctions de vraisemblance est constituée des courbes orthogonales parallèles aux θ {displaystyle thêta} theta theta -axe.

Probabilités pour les distributions continues

L’utilisation de la densité de probabilité dans la spécification de la fonction de vraisemblance ci-dessus est justifiée comme suit. Étant donné une observation x j {displaystyle x_{j}} x_{j} x_{j}, la vraisemblance pour l’intervalle [ x j , x j + h ] {displaystyle [x_{j},x_{j}+h]} {displaystyle [x_{j},x_{j}+h]} {displaystyle [x_{j},x_{j}+h]}, où h > 0 {displaystyle h>0} {displaystyle h>0} {displaystyle h>0}est une constante, est donnée par L ( θ ∣ x ∈ [ x j , x j + h ] ) {displaystyle {mathcal {L}}(theta mid xin [x_{j},x_{j}+h])} {displaystyle {mathcal {L}}(theta mid xin [x_{j},x_{j}+h])} {displaystyle {mathcal {L}}(theta mid xin [x_{j},x_{j}+h])}. Observe ceci

argmax θ ⁡ L ( θ ∣ x ∈ [ x j , x j + h ] ) = argmax θ ⁡ 1 h L ( θ ∣ x ∈ [ x j , x j + h ] ) {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax} _{ theta }{frac {1}{h}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])} {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax} _{theta }{frac {1}{h}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])} {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax} _{theta }{frac {1}{h}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])},

puisque h {displaystyle h} h hest positif et constant. Car

argmax θ ⁡ 1 h L ( θ ∣ x ∈ [ x j , x j + h ] ) = argmax θ ⁡ 1 h Pr ( x j ≤ x ≤ x j + h ∣ θ ) = argmax θ ⁡ 1 h ∫ x j x j + h f ( x ∣ θ ) d x , {displaystyle operatorname {argmax} _{theta }{frac {1}{h}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h ])=nomopérateur {argmax} _{theta }{frac {1}{h}}Pr(x_{j}leq xleq x_{j}+hmid theta )=nomopérateur { argmax} _{theta }{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx,} {displaystyle operatorname {argmax} _{theta }{frac {1}{h}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax} _{theta }{frac {1}{h}}Pr(x_{j}leq xleq x_{j}+hmid theta )=operatorname {argmax} _{theta }{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx,} {displaystyle operatorname {argmax} _{theta }{frac {1}{h}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax} _{theta }{frac {1}{h}}Pr(x_{j}leq xleq x_{j}+hmid theta )=operatorname {argmax} _{theta }{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx,}

où f ( x ∣ θ ) {displaystyle f(xmid thêta)} {displaystyle f(xmid theta )} {displaystyle f(xmid theta )}est la fonction de densité de probabilité, il s’ensuit que

argmax θ ⁡ L ( θ ∣ x ∈ [ x j , x j + h ] ) = argmax θ ⁡ 1 h ∫ x j x j + h f ( x ∣ θ ) d x {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax} _{ theta }{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx} {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax} _{theta }{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx} {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax} _{theta }{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx}.

Le premier théorème fondamental du calcul et la règle de l’Hôpital prévoient ensemble que

lim h → 0 + 1 h ∫ x j x j + h f ( x ∣ θ ) d x = lim h → 0 + d d h ∫ x j x j + h f ( x ∣ θ ) d x d h d h = lim h → 0 + f ( x j + h ∣ θ ) 1 = f ( x j ∣ θ ) . {displaystyle {begin{aligned}&lim _{hto 0^{+}}{frac {1}{h}}int _{x_{j}}^{x_{j}+h }f(xmid theta ),dx=lim _{hto 0^{+}}{frac {{frac {d}{dh}}int _{x_{j}}^ {x_{j}+h}f(xmid theta ),dx}{frac {dh}{dh}}}\[4pt]={}&lim _{hto 0^{ +}}{frac {f(x_{j}+hmid theta )}{1}}=f(x_{j}mid theta ).end{aligned}}} {displaystyle {begin{aligned}&lim _{hto 0^{+}}{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx=lim _{hto 0^{+}}{frac {{frac {d}{dh}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx}{frac {dh}{dh}}}\[4pt]={}&lim _{hto 0^{+}}{frac {f(x_{j}+hmid theta )}{1}}=f(x_{j}mid theta ).end{aligned}}} {displaystyle {begin{aligned}&lim _{hto 0^{+}}{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx=lim _{hto 0^{+}}{frac {{frac {d}{dh}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dx}{frac {dh}{dh}}}\[4pt]={}&lim _{hto 0^{+}}{frac {f(x_{j}+hmid theta )}{1}}=f(x_{j}mid theta ).end{aligned}}}

Puis

argmax θ ⁡ L ( θ ∣ x j ) = argmax θ ⁡ [ lim h → 0 + L ( θ ∣ x ∈ [ x j , x j + h ] ) ] = argmax θ ⁡ [ lim h → 0 + 1 h ∫ x j x j + h f ( x ∣ θ ) d x ] = argmax θ ⁡ f ( x j ∣ θ ) . {displaystyle {begin{aligned}&operatorname {argmax} _{theta }{mathcal {L}}(theta mid x_{j})=operatorname {argmax} _{theta }left [lim _{hto 0^{+}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])right]\[4pt ]={}&nomopérateur {argmax} _{theta }left[lim _{hto 0^{+}}{frac {1}{h}}int _{x_{j}} ^{x_{j}+h}f(xmid theta ),dxright]=operatorname {argmax} _{theta }f(x_{j}mid theta ).end{aligned }}} {displaystyle {begin{aligned}&operatorname {argmax} _{theta }{mathcal {L}}(theta mid x_{j})=operatorname {argmax} _{theta }left[lim _{hto 0^{+}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])right]\[4pt]={}&operatorname {argmax} _{theta }left[lim _{hto 0^{+}}{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dxright]=operatorname {argmax} _{theta }f(x_{j}mid theta ).end{aligned}}} {displaystyle {begin{aligned}&operatorname {argmax} _{theta }{mathcal {L}}(theta mid x_{j})=operatorname {argmax} _{theta }left[lim _{hto 0^{+}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])right]\[4pt]={}&operatorname {argmax} _{theta }left[lim _{hto 0^{+}}{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta ),dxright]=operatorname {argmax} _{theta }f(x_{j}mid theta ).end{aligned}}}

Donc,

argmax θ ⁡ L ( θ ∣ x j ) = argmax θ ⁡ f ( x j ∣ θ ) , {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid x_{j})=operatorname {argmax} _{theta }f(x_{j}mid thêta ),!} {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid x_{j})=operatorname {argmax} _{theta }f(x_{j}mid theta ),!} {displaystyle operatorname {argmax} _{theta }{mathcal {L}}(theta mid x_{j})=operatorname {argmax} _{theta }f(x_{j}mid theta ),!}

et ainsi maximiser la densité de probabilité à x j {displaystyle x_{j}} x_{j} x_{j}revient à maximiser la vraisemblance de l’observation spécifique x j {displaystyle x_{j}} x_{j} x_{j}.

Probabilités pour les distributions mixtes continues-discrètes

Ce qui précède peut être étendu de manière simple pour permettre la prise en compte de distributions contenant à la fois des composants discrets et continus. Supposons que la distribution se compose d’un certain nombre de masses de probabilité discrètes p k θ {displaystyle p_{k}thêta} {displaystyle p_{k}theta } et une densité f ( x ∣ θ ) {displaystyle f(xmid thêta)} {displaystyle f(xmid theta )} , où la somme de tous les p {displaystyle p} p s’ajoute à l’intégrale de f {displaystyle f} f fest toujours un. En supposant qu’il est possible de distinguer une observation correspondant à l’une des masses de probabilité discrètes de celle qui correspond à la composante de densité, la fonction de vraisemblance pour une observation de la composante continue peut être traitée de la manière indiquée ci-dessus. Pour une observation de la composante discrète, la fonction de vraisemblance d’une observation de la composante discrète est simplement

L ( θ ∣ x ) = p k ( θ ) , {displaystyle {mathcal {L}}(theta mid x)=p_{k}(theta ),!} mathcal{L}(theta mid x )= p_k(theta), ! mathcal{L}(theta mid x )= p_k(theta), !

où k {displaystyle k} k kest l’indice de la masse de probabilité discrète correspondant à l’observation x {style d’affichage x} x x, car la maximisation de la masse de probabilité (ou probabilité) à x {style d’affichage x} x xrevient à maximiser la vraisemblance de l’observation spécifique.

Le fait que la fonction de vraisemblance puisse être définie de manière à inclure des contributions non commensurables (la densité et la masse de probabilité) découle de la façon dont la fonction de vraisemblance est définie à une constante de proportionnalité près, où cette “constante” peut changer avec l’observation x {style d’affichage x} x x, mais pas avec le paramètre θ {displaystyle thêta} theta theta .

Conditions de régularité

Dans le contexte de l’estimation des paramètres, la fonction de vraisemblance est généralement supposée obéir à certaines conditions, appelées conditions de régularité. Ces conditions sont supposées dans diverses preuves impliquant des fonctions de vraisemblance et doivent être vérifiées dans chaque application particulière. Pour l’Estimation du maximum de vraisemblance, l’existence d’un maximum global de la fonction de vraisemblance est de la plus haute importance. D’après le théorème des valeurs extrêmes , il suffit que la fonction de vraisemblance soit continue sur un espace de paramètres compact pour que l’estimateur du maximum de vraisemblance existe. [9]Bien que l’hypothèse de continuité soit généralement satisfaite, l’hypothèse de Compacité concernant l’espace des paramètres ne l’est souvent pas, car les limites des valeurs réelles des paramètres sont inconnues. Dans ce cas, la concavité de la fonction de vraisemblance joue un rôle clé.

Plus précisément, si la fonction de vraisemblance est deux fois continûment différentiable sur l’ espace des paramètres à k dimensions Θ {displaystyle thêta} Theta Theta supposé être un sous-ensemble connexe ouvert de R k {displaystyle mathbb {R} ^{k}} {displaystyle mathbb {R} ^{k}} {displaystyle mathbb {R} ^{k}}, il existe un unique maximum θ ^ ∈ Θ {displaystyle {hat {thêta}}in thêta} {displaystyle {hat {theta }}in Theta } {displaystyle {hat {theta }}in Theta }si

H ( θ ) = { ∂ 2 L ∂ θ i ∂ θ j } {displaystyle mathbf {H} (theta )=left{{frac {partial ^{2}L}{partial theta _{i},partial theta _{j}}} à droite}} {displaystyle mathbf {H} (theta )=left{{frac {partial ^{2}L}{partial theta _{i},partial theta _{j}}}right}} {displaystyle mathbf {H} (theta )=left{{frac {partial ^{2}L}{partial theta _{i},partial theta _{j}}}right}}est définie négative en tout θ ∈ Θ {displaystyle thêta in thêta} theta in Theta theta in Theta pour quel gradient ∇ L = { ∂ L / ∂ θ i } {displaystyle nabla L=left{partial L/partial theta _{i}right}} {displaystyle nabla L=left{partial L/partial theta _{i}right}} {displaystyle nabla L=left{partial L/partial theta _{i}right}}disparaît, et lim θ → ∂ Θ L ( θ ) = 0 {displaystyle lim _{theta to partial Theta }L(theta )=0} {displaystyle lim _{theta to partial Theta }L(theta )=0} {displaystyle lim _{theta to partial Theta }L(theta )=0}, c’est-à-dire que la fonction de vraisemblance s’approche d’une constante à la frontière de l’espace des paramètres, qui peut inclure les points à l’infini si Θ {displaystyle thêta} Theta Theta est sans limite.

Mäkeläinen et al. prouver ce résultat en utilisant la théorie de Morse tout en faisant appel de manière informelle à une propriété de col de montagne. [10] Mascarenhas reformule leur preuve en utilisant le théorème du col de montagne . [11]

Dans les preuves de cohérence et de normalité asymptotique de l’estimateur du maximum de vraisemblance, des hypothèses supplémentaires sont faites sur les densités de probabilité qui forment la base d’une fonction de vraisemblance particulière. Ces conditions ont d’abord été établies par Chanda. [12] En particulier, pour presque tous x {style d’affichage x} x x, et pour tout θ ∈ Θ {displaystyle thêta in thêta} theta in Theta theta in Theta ,

∂ log ⁡ f ∂ θ r , ∂ 2 log ⁡ f ∂ θ r ∂ θ s , ∂ 3 log ⁡ f ∂ θ r ∂ θ s ∂ θ t {displaystyle {frac {partial log f}{partial theta _{r}}},,quad {frac {partial ^{2}log f}{partial theta _{ r}partial theta _{s}}},,quad {frac {partial ^{3}log f}{partial theta _{r},partial theta _{s} ,partiel theta _{t}}}} {displaystyle {frac {partial log f}{partial theta _{r}}},,quad {frac {partial ^{2}log f}{partial theta _{r}partial theta _{s}}},,quad {frac {partial ^{3}log f}{partial theta _{r},partial theta _{s},partial theta _{t}}}} {displaystyle {frac {partial log f}{partial theta _{r}}},,quad {frac {partial ^{2}log f}{partial theta _{r}partial theta _{s}}},,quad {frac {partial ^{3}log f}{partial theta _{r},partial theta _{s},partial theta _{t}}}}

exister pour tous r , s , t = 1 , 2 , … , k {displaystyle r,s,t=1,2,ldots ,k} {displaystyle r,s,t=1,2,ldots ,k} {displaystyle r,s,t=1,2,ldots ,k}afin de s’assurer de l’existence d’un Développement de Taylor . Deuxièmement, pour presque tous x {style d’affichage x} x xet pour chaque θ ∈ Θ {displaystyle thêta in thêta} theta in Theta theta in Theta ça doit être ça

| ∂ f ∂ θ r | < F r ( x ) , | ∂ 2 f ∂ θ r ∂ θ s | < F r s ( x ) , | ∂ 3 f ∂ θ r ∂ θ s ∂ θ t | < H r s t ( x ) {displaystyle left|{frac {partial f}{partial theta _{r}}}right|<F_{r}(x),,quad left|{frac {partial ^{2}f}{partial theta _{r},partial theta _{s}}}right|<F_{rs}(x),,quad left|{frac { partial ^{3}f}{partial theta _{r},partial theta _{s},partial theta _{t}}}right|<H_{rst}(x) } {displaystyle left|{frac {partial f}{partial theta _{r}}}right|<F_{r}(x),,quad left|{frac {partial ^{2}f}{partial theta _{r},partial theta _{s}}}right|<F_{rs}(x),,quad left|{frac {partial ^{3}f}{partial theta _{r},partial theta _{s},partial theta _{t}}}right|<H_{rst}(x)} {displaystyle left|{frac {partial f}{partial theta _{r}}}right|<F_{r}(x),,quad left|{frac {partial ^{2}f}{partial theta _{r},partial theta _{s}}}right|<F_{rs}(x),,quad left|{frac {partial ^{3}f}{partial theta _{r},partial theta _{s},partial theta _{t}}}right|<H_{rst}(x)}

où H {displaystyle H} H Hest telle que ∫ − ∞ ∞ H r s t ( z ) d z ≤ M < ∞ {displaystyle int _{-infty }^{infty }H_{rst}(z)mathrm {d} zleq M<infty } {displaystyle int _{-infty }^{infty }H_{rst}(z)mathrm {d} zleq M<infty } {displaystyle int _{-infty }^{infty }H_{rst}(z)mathrm {d} zleq M<infty }. Cette délimitation des dérivées est nécessaire pour permettre la Différenciation sous le signe intégral . Et enfin, on suppose que la matrice d’information ,

I ( θ ) = ∫ − ∞ ∞ ∂ log ⁡ f ∂ θ r ∂ log ⁡ f ∂ θ s f d z {displaystyle mathbf {I} (theta )=int _{-infty }^{infty }{frac {partial log f}{partial theta _{r}}}{frac {partial log f}{partial theta _{s}}}fmathrm {d} z} {displaystyle mathbf {I} (theta )=int _{-infty }^{infty }{frac {partial log f}{partial theta _{r}}}{frac {partial log f}{partial theta _{s}}}fmathrm {d} z} {displaystyle mathbf {I} (theta )=int _{-infty }^{infty }{frac {partial log f}{partial theta _{r}}}{frac {partial log f}{partial theta _{s}}}fmathrm {d} z}

est défini positif et | I ( θ ) | {displaystyle left|mathbf {Je} (theta )right|} {displaystyle left|mathbf {I} (theta )right|} {displaystyle left|mathbf {I} (theta )right|}est fini. Cela garantit que le score a une variance finie. [13]

Les conditions ci-dessus sont suffisantes, mais pas nécessaires. Autrement dit, un modèle qui ne satisfait pas à ces conditions de régularité peut avoir ou non un estimateur du maximum de vraisemblance des propriétés mentionnées ci-dessus. En outre, dans le cas d’observations distribuées de manière non indépendante ou non identique, des propriétés supplémentaires peuvent devoir être supposées.

En statistique bayésienne, des conditions de régularité presque identiques sont imposées à la fonction de vraisemblance afin de justifier l’ approximation de Laplace de la probabilité a posteriori . [14]

Rapport de vraisemblance et vraisemblance relative

Rapport de vraisemblance

Un rapport de vraisemblance est le rapport de deux probabilités spécifiées, souvent écrit comme suit :

Λ ( θ 1 : θ 2 ∣ x ) = L ( θ 1 ∣ x ) L ( θ 2 ∣ x ) {displaystyle Lambda (theta _{1} :theta _{2}mid x)={frac {{mathcal {L}}(theta _{1}mid x)}{{ mathcal {L}}(theta _{2}mid x)}}} {displaystyle Lambda (theta _{1}:theta _{2}mid x)={frac {{mathcal {L}}(theta _{1}mid x)}{{mathcal {L}}(theta _{2}mid x)}}} {displaystyle Lambda (theta _{1}:theta _{2}mid x)={frac {{mathcal {L}}(theta _{1}mid x)}{{mathcal {L}}(theta _{2}mid x)}}}

Le rapport de vraisemblance est au cœur des statistiques de vraisemblance : la Loi de vraisemblance stipule que la mesure dans laquelle les données (considérées comme des preuves) soutiennent une valeur de paramètre par rapport à une autre est mesurée par le rapport de vraisemblance.

Dans l’inférence fréquentiste , le rapport de vraisemblance est la base d’une statistique de test , appelée test du rapport de vraisemblance . Selon le lemme de Neyman-Pearson , il s’agit du test le plus puissant pour comparer deux hypothèses simples à un Niveau de signification donné . De nombreux autres tests peuvent être considérés comme des tests de rapport de vraisemblance ou des approximations de ceux-ci. [15] La distribution asymptotique du rapport de log-vraisemblance, considérée comme une statistique de test, est donnée par le théorème de Wilks .

Le rapport de vraisemblance est également d’une importance capitale dans l’inférence bayésienne , où il est connu sous le nom de facteur de Bayes , et est utilisé dans La règle de Bayes . Exprimée en termes de cotes , La règle de Bayes stipule que la cote postérieure de deux alternatives, A 1 {displaystyle A_{1}} A_{1} A_{1}et A 2 {displaystyle A_{2}} A_{2} A_{2}, étant donné un événement B {displaystyle B} B B, est la cote a priori , multipliée par le rapport de vraisemblance. Sous forme d’équation :

O ( A 1 : A 2 ∣ B ) = O ( A 1 : A 2 ) ⋅ Λ ( A 1 : A 2 ∣ B ) . {displaystyle O(A_{1} :A_{2}mid B)=O(A_{1} :A_{2})cdot Lambda (A_{1} :A_{2}mid B). } {displaystyle O(A_{1}:A_{2}mid B)=O(A_{1}:A_{2})cdot Lambda (A_{1}:A_{2}mid B).} {displaystyle O(A_{1}:A_{2}mid B)=O(A_{1}:A_{2})cdot Lambda (A_{1}:A_{2}mid B).}

Le rapport de vraisemblance n’est pas directement utilisé dans les statistiques basées sur l’AIC. Au lieu de cela, ce qui est utilisé est la vraisemblance relative des modèles (voir ci-dessous).

Fonction de vraisemblance relative

Étant donné que la valeur réelle de la fonction de vraisemblance dépend de l’échantillon, il est souvent pratique de travailler avec une mesure standardisée. Supposons que l’ Estimation du maximum de vraisemblance pour le paramètre θ est θ ^ {displaystyle {chapeau {thêta}}} hat{theta} hat{theta}. Les plausibilités relatives d’autres valeurs de θ peuvent être trouvées en comparant les probabilités de ces autres valeurs avec la probabilité de θ ^ {displaystyle {chapeau {thêta}}} hat{theta} hat{theta}. La vraisemblance relative de θ est définie comme étant [16] [17] [18] [19] [20]

R ( θ ) = L ( θ ∣ x ) L ( θ ^ ∣ x ) . {displaystyle R(theta )={frac {{mathcal {L}}(theta mid x)}{{mathcal {L}}({hat {theta }}mid x)} }.} {displaystyle R(theta )={frac {{mathcal {L}}(theta mid x)}{{mathcal {L}}({hat {theta }}mid x)}}.} {displaystyle R(theta )={frac {{mathcal {L}}(theta mid x)}{{mathcal {L}}({hat {theta }}mid x)}}.}

Ainsi, la vraisemblance relative est le rapport de vraisemblance (discuté ci-dessus) avec le dénominateur fixe L ( θ ^ ) {displaystyle {mathcal {L}}({hat {theta}})} {displaystyle {mathcal {L}}({hat {theta }})} {displaystyle {mathcal {L}}({hat {theta }})}. Cela correspond à normaliser la probabilité d’avoir un maximum de 1.

Région de probabilité

Une région de vraisemblance est l’ensemble de toutes les valeurs de θ dont la vraisemblance relative est supérieure ou égale à un seuil donné. En termes de pourcentages, une région de vraisemblance p % pour θ est définie comme étant [16] [18] [21]

{ θ : R ( θ ) ≥ p 100 } . {displaystyle left{theta :R(theta )geq {frac {p}{100}}right}.} {displaystyle left{theta :R(theta )geq {frac {p}{100}}right}.} {displaystyle left{theta :R(theta )geq {frac {p}{100}}right}.}

Si θ est un paramètre réel unique, une région de vraisemblance à p % comprendra généralement un intervalle de valeurs réelles. Si la région comprend un intervalle, on parle alors d’ intervalle de vraisemblance . [16] [18] [22]

Les intervalles de vraisemblance, et plus généralement les régions de vraisemblance, sont utilisés pour l’estimation d’intervalle dans les statistiques vraisemblistes : ils sont similaires aux intervalles de confiance dans les statistiques fréquentistes et aux intervalles crédibles dans les statistiques bayésiennes. Les intervalles de vraisemblance sont interprétés directement en termes de vraisemblance relative, et non en termes de probabilité de couverture (fréquentisme) ou de probabilité a posteriori (bayésianisme).

Étant donné un modèle, les intervalles de vraisemblance peuvent être comparés à des intervalles de confiance. Si θ est un paramètre réel unique, alors sous certaines conditions, un intervalle de vraisemblance de 14,65 % (probabilité d’environ 1:7) pour θ sera le même qu’un intervalle de confiance de 95 % (probabilité de couverture de 19/20). [16] [21] Dans une formulation légèrement différente adaptée à l’utilisation des log-vraisemblances (voir le théorème de Wilks ), la statistique de test est le double de la différence de log-vraisemblance et la distribution de probabilité de la statistique de test est d’environ un chi- distribution au carré avec des degrés de liberté (df) égaux à la différence de df entre les deux modèles (par conséquent, le e −2l’intervalle de vraisemblance est le même que l’intervalle de confiance de 0,954 ; en supposant que la différence de df est égale à 1). [21] [22]

Des probabilités qui éliminent les paramètres de nuisance

Dans de nombreux cas, la vraisemblance est fonction de plusieurs paramètres, mais l’intérêt se porte sur l’estimation d’un seul, ou tout au plus de quelques-uns d’entre eux, les autres étant considérés comme des paramètres de nuisance . Plusieurs approches alternatives ont été développées pour éliminer ces paramètres de nuisance, de sorte qu’une vraisemblance puisse être écrite en fonction du seul paramètre (ou des paramètres) d’intérêt : les principales approches sont les vraisemblances de profil, conditionnelles et marginales. [23] [24] Ces approches sont également utiles lorsqu’une surface de probabilité de grande dimension doit être réduite à un ou deux paramètres d’intérêt afin de permettre un graphe .

Probabilité de profil

Il est possible de réduire les dimensions en concentrant la fonction de vraisemblance pour un sous-ensemble de paramètres en exprimant les paramètres de nuisance en fonction des paramètres d’intérêt et en les remplaçant dans la fonction de vraisemblance. [25] [26] En général, pour une fonction de vraisemblance dépendant du vecteur paramètre θ {displaystyle mathbf {thêta}} mathbf {theta } mathbf {theta } qui peut être partitionné en θ = ( θ 1 : θ 2 ) {displaystyle mathbf {theta } =left(mathbf {theta } _{1} :mathbf {theta } _{2}right)} {displaystyle mathbf {theta } =left(mathbf {theta } _{1}:mathbf {theta } _{2}right)} {displaystyle mathbf {theta } =left(mathbf {theta } _{1}:mathbf {theta } _{2}right)}, et où une correspondance θ ^ 2 = θ ^ 2 ( θ 1 ) {displaystyle mathbf {hat {theta }} _{2}=mathbf {hat {theta }} _{2}left(mathbf {theta } _{1}right)} {displaystyle mathbf {hat {theta }} _{2}=mathbf {hat {theta }} _{2}left(mathbf {theta } _{1}right)} {displaystyle mathbf {hat {theta }} _{2}=mathbf {hat {theta }} _{2}left(mathbf {theta } _{1}right)}peut être déterminée explicitement, la concentration réduit la charge de calcul du problème de maximisation d’origine. [27]

Par exemple, dans une régression linéaire avec des erreurs normalement distribuées, y = X β + u {displaystyle mathbf {y} =mathbf {X} beta +u} {displaystyle mathbf {y} =mathbf {X} beta +u} {displaystyle mathbf {y} =mathbf {X} beta +u}, le vecteur de coefficients pourrait être partitionné en β = [ β 1 : β 2 ] {displaystyle beta =left[beta _{1} :beta _{2}right]} {displaystyle beta =left[beta _{1}:beta _{2}right]} {displaystyle beta =left[beta _{1}:beta _{2}right]}(et par conséquent la matrice de conception X = [ X 1 : X 2 ] {displaystyle mathbf {X} =left[mathbf {X} _{1} :mathbf {X} _{2}right]} {displaystyle mathbf {X} =left[mathbf {X} _{1}:mathbf {X} _{2}right]} {displaystyle mathbf {X} =left[mathbf {X} _{1}:mathbf {X} _{2}right]}). Maximiser par rapport à β 2 {displaystyle bêta _{2}} {displaystyle beta _{2}} {displaystyle beta _{2}}donne une fonction de valeur optimale β 2 ( β 1 ) = ( X 2 T X 2 ) − 1 X 2 T ( y − X 1 β 1 ) {displaystyle beta _{2}(beta _{1})=left(mathbf {X} _{2}^{mathsf {T}}mathbf {X} _{2}right) ^{-1}mathbf {X} _{2}^{mathsf {T}}left(mathbf {y} -mathbf {X} _{1}beta _{1}right)} {displaystyle beta _{2}(beta _{1})=left(mathbf {X} _{2}^{mathsf {T}}mathbf {X} _{2}right)^{-1}mathbf {X} _{2}^{mathsf {T}}left(mathbf {y} -mathbf {X} _{1}beta _{1}right)} {displaystyle beta _{2}(beta _{1})=left(mathbf {X} _{2}^{mathsf {T}}mathbf {X} _{2}right)^{-1}mathbf {X} _{2}^{mathsf {T}}left(mathbf {y} -mathbf {X} _{1}beta _{1}right)}. En utilisant ce résultat, l’estimateur du maximum de vraisemblance pour β 1 {displaystyle bêta _{1}} {displaystyle beta _{1}} {displaystyle beta _{1}}peut alors être déduit comme

β ^ 1 = ( X 1 T ( I − P 2 ) X 1 ) − 1 X 1 T ( I − P 2 ) y {displaystyle {hat {beta}}_{1}=left(mathbf {X} _{1}^{mathsf {T}}left(mathbf {I} -mathbf {P} _{2}right)mathbf {X} _{1}right)^{-1}mathbf {X} _{1}^{mathsf {T}}left(mathbf {I} – mathbf {P} _{2}right)mathbf {y} } {displaystyle {hat {beta }}_{1}=left(mathbf {X} _{1}^{mathsf {T}}left(mathbf {I} -mathbf {P} _{2}right)mathbf {X} _{1}right)^{-1}mathbf {X} _{1}^{mathsf {T}}left(mathbf {I} -mathbf {P} _{2}right)mathbf {y} } {displaystyle {hat {beta }}_{1}=left(mathbf {X} _{1}^{mathsf {T}}left(mathbf {I} -mathbf {P} _{2}right)mathbf {X} _{1}right)^{-1}mathbf {X} _{1}^{mathsf {T}}left(mathbf {I} -mathbf {P} _{2}right)mathbf {y} }

où P 2 = X 2 ( X 2 T X 2 ) − 1 X 2 T {displaystyle mathbf {P} _{2}=mathbf {X} _{2}left(mathbf {X} _{2}^{mathsf {T}}mathbf {X} _{2 }right)^{-1}mathbf {X} _{2}^{mathsf {T}}} {displaystyle mathbf {P} _{2}=mathbf {X} _{2}left(mathbf {X} _{2}^{mathsf {T}}mathbf {X} _{2}right)^{-1}mathbf {X} _{2}^{mathsf {T}}} {displaystyle mathbf {P} _{2}=mathbf {X} _{2}left(mathbf {X} _{2}^{mathsf {T}}mathbf {X} _{2}right)^{-1}mathbf {X} _{2}^{mathsf {T}}}est la matrice de projection de X 2 {displaystyle mathbf {X} _{2}} {displaystyle mathbf {X} _{2}} {displaystyle mathbf {X} _{2}}. Ce résultat est connu sous le nom de théorème de Frisch-Waugh-Lovell .

Étant donné que graphiquement, la procédure de concentration équivaut à découper la surface de vraisemblance le long de la crête des valeurs du paramètre de nuisance β 2 {displaystyle bêta _{2}} {displaystyle beta _{2}} {displaystyle beta _{2}}qui maximise la fonction de vraisemblance, créant un profil isométrique de la fonction de vraisemblance pour un β 1 {displaystyle bêta _{1}} {displaystyle beta _{1}} {displaystyle beta _{1}}, le résultat de cette procédure est également connu sous le nom de probabilité de profil . [28] [29] En plus d’être représentée graphiquement, la vraisemblance du profil peut également être utilisée pour calculer des intervalles de confiance qui ont souvent de meilleures propriétés de petit échantillon que celles basées sur les erreurs types asymptotiques calculées à partir de la pleine vraisemblance. [30] [31]

Vraisemblance conditionnelle

Parfois, il est possible de trouver une statistique suffisante pour les paramètres de nuisance, et le conditionnement sur cette statistique conduit à une vraisemblance qui ne dépend pas des paramètres de nuisance. [32]

Un exemple se produit dans les tableaux 2 × 2, où le conditionnement sur les quatre totaux marginaux conduit à une vraisemblance conditionnelle basée sur la distribution hypergéométrique non centrale . Cette forme de conditionnement est également à la base du test exact de Fisher .

Probabilité marginale

Parfois, nous pouvons supprimer les paramètres de nuisance en considérant une vraisemblance basée sur une partie seulement des informations contenues dans les données, par exemple en utilisant l’ensemble des rangs plutôt que les valeurs numériques. Un autre exemple se produit dans les modèles mixtes linéaires , où la prise en compte d’une probabilité pour les résidus uniquement après l’ajustement des effets fixes conduit à une estimation de la probabilité maximale résiduelle des composantes de la variance.

Probabilité partielle

Une vraisemblance partielle est une adaptation de la vraisemblance totale telle que seule une partie des paramètres (les paramètres d’intérêt) y figurent. [33] C’est un élément clé du modèle à risques proportionnels : en utilisant une restriction sur la fonction de risque, la vraisemblance ne contient pas la forme du risque dans le temps.

Produits de vraisemblances

La vraisemblance, étant donné deux ou plusieurs événements indépendants , est le produit des vraisemblances de chacun des événements individuels :

Λ ( A ∣ X 1 ∧ X 2 ) = Λ ( A ∣ X 1 ) ⋅ Λ ( A ∣ X 2 ) {displaystyle Lambda (Amid X_{1}land X_{2})=Lambda (Amid X_{1})cdot Lambda (Amid X_{2})} {displaystyle Lambda (Amid X_{1}land X_{2})=Lambda (Amid X_{1})cdot Lambda (Amid X_{2})} {displaystyle Lambda (Amid X_{1}land X_{2})=Lambda (Amid X_{1})cdot Lambda (Amid X_{2})}

Cela découle de la définition de l’indépendance en probabilité : la probabilité que deux événements indépendants se produisent, étant donné un modèle, est le produit des probabilités.

Ceci est particulièrement important lorsque les événements proviennent de variables aléatoires indépendantes et distribuées de manière identique , telles que des observations indépendantes ou un échantillonnage avec remise . Dans une telle situation, la fonction de vraisemblance se factorise en un produit de fonctions de vraisemblance individuelles.

Le produit vide a la valeur 1, ce qui correspond à la probabilité, sans événement, d’être 1 : avant toute donnée, la probabilité est toujours de 1. Ceci est similaire à un a priori uniforme dans les statistiques bayésiennes, mais dans les statistiques probabilistes, ce n’est pas un impropre a priori car les vraisemblances ne sont pas intégrées.

Log-vraisemblance

La fonction log-vraisemblance est une transformation logarithmique de la fonction de vraisemblance, souvent désignée par un l minuscule ou l {displaystyle ell } ell ell , pour contraster avec le L majuscule ou L {displaystyle {mathcal{L}}} {mathcal {L}} {mathcal {L}}pour la vraisemblance. Comme les logarithmes sont des fonctions strictement croissantes , maximiser la vraisemblance revient à maximiser la log-vraisemblance. Mais pour des raisons pratiques, il est plus pratique de travailler avec la fonction log-vraisemblance dans l’Estimation du maximum de vraisemblance , en particulier puisque les distributions de probabilité les plus courantes, notamment la famille exponentielle, ne sont que logarithmiquement concaves , [34] [35] et la concavité de l’ objectif La fonction joue un rôle clé dans la maximisation .

Étant donné l’indépendance de chaque événement, la log-vraisemblance globale de l’intersection est égale à la somme des log-vraisemblances des événements individuels. Ceci est analogue au fait que la log-probabilité globale est la somme de la log-probabilité des événements individuels. En plus de la commodité mathématique qui en découle, le processus d’ajout de log-vraisemblance a une interprétation intuitive, aussi souvent exprimée que le “support” des données. Lorsque les paramètres sont estimés à l’aide du log de vraisemblance pour l’ Estimation du maximum de vraisemblance , chaque point de données est utilisé en étant ajouté au log de vraisemblance total. Étant donné que les données peuvent être considérées comme une preuve à l’appui des paramètres estimés, ce processus peut être interprété comme “l’appui de preuves indépendantes ajoute”,et la log-vraisemblance est le “poids de la preuve”. En interprétant la log-probabilité négative comme contenu informatif ou surprise , le support (log-vraisemblance) d’un modèle, étant donné un événement, est le négatif de la surprise de l’événement, étant donné le modèle : un modèle est supporté par un événement dans la mesure où que l’événement n’est pas surprenant, compte tenu du modèle.

Un logarithme d’un rapport de vraisemblance est égal à la différence des log-vraisemblances :

log ⁡ L ( A ) L ( B ) = log ⁡ L ( A ) − log ⁡ L ( B ) = l ( A ) − l ( B ) . {displaystyle log {frac {L(A)}{L(B)}}=log L(A)-log L(B)=ell (A)-ell (B).} {displaystyle log {frac {L(A)}{L(B)}}=log L(A)-log L(B)=ell (A)-ell (B).} {displaystyle log {frac {L(A)}{L(B)}}=log L(A)-log L(B)=ell (A)-ell (B).}

Tout comme la vraisemblance, en l’absence d’événement, étant de 1, la log-vraisemblance, en l’absence d’événement, est de 0, ce qui correspond à la valeur de la somme vide : sans aucune donnée, il n’y a de support pour aucun modèle.

Équations de vraisemblance

Si la fonction log-vraisemblance est lisse , son gradient par rapport au paramètre, appelé score et noté s n ( θ ) ≡ ∇ θ l n ( θ ) {displaystyle s_{n}(theta )equiv nabla _{theta }ell _{n}(theta )} {displaystyle s_{n}(theta )equiv nabla _{theta }ell _{n}(theta )} {displaystyle s_{n}(theta )equiv nabla _{theta }ell _{n}(theta )}, existe et permet l’application du calcul différentiel . La méthode de base pour maximiser une fonction différentiable est de trouver les points stationnaires (les points où la dérivée est nulle) ; puisque la dérivée d’une somme n’est que la somme des dérivées, mais que la dérivée d’un produit nécessite la règle du produit , il est plus facile de calculer les points stationnaires de la log-vraisemblance d’événements indépendants que pour la probabilité d’événements indépendants.

Les équations définies par le point stationnaire de la fonction de score servent d’ équations d’estimation pour l’estimateur du maximum de vraisemblance.

s n ( θ ) = 0 {displaystyle s_{n}(theta )=mathbf {0} } {displaystyle s_{n}(theta )=mathbf {0} } {displaystyle s_{n}(theta )=mathbf {0} }

En ce sens, l’estimateur du maximum de vraisemblance est implicitement défini par la valeur à 0 {displaystyle mathbf {0}} mathbf {0} mathbf {0} de la fonction inverse s n − 1 : E d → Θ {displaystyle s_{n}^{-1} :mathbb {E} ^{d}to Theta} {displaystyle s_{n}^{-1}:mathbb {E} ^{d}to Theta } {displaystyle s_{n}^{-1}:mathbb {E} ^{d}to Theta }, où E d {displaystyle mathbb {E} ^{d}} {displaystyle mathbb {E} ^{d}} {displaystyle mathbb {E} ^{d}}est l’ espace euclidien de dimension d , et Θ {displaystyle thêta} Theta Theta est l’espace des paramètres. En utilisant le théorème de la fonction inverse , on peut montrer que s n − 1 {displaystyle s_{n}^{-1}} {displaystyle s_{n}^{-1}} {displaystyle s_{n}^{-1}}est bien défini dans un voisinage ouvert d’environ 0 {displaystyle mathbf {0}} mathbf {0} mathbf {0} avec probabilité allant à un, et θ ^ n = s n − 1 ( 0 ) {displaystyle {hat {theta}}_{n}=s_{n}^{-1}(mathbf {0})} {displaystyle {hat {theta }}_{n}=s_{n}^{-1}(mathbf {0} )} {displaystyle {hat {theta }}_{n}=s_{n}^{-1}(mathbf {0} )}est une estimation cohérente de θ {displaystyle thêta} theta theta . Il existe donc une suite { θ ^ n } {displaystyle left{{hat {theta}}_{n}right}} {displaystyle left{{hat {theta }}_{n}right}} {displaystyle left{{hat {theta }}_{n}right}}tel que s n ( θ ^ n ) = 0 {displaystyle s_{n}({hat {theta}}_{n})=mathbf {0} } {displaystyle s_{n}({hat {theta }}_{n})=mathbf {0} } {displaystyle s_{n}({hat {theta }}_{n})=mathbf {0} }asymptotiquement presque sûrement , et θ ^ n → p θ 0 {displaystyle {hat {theta }}_{n}{xrightarrow {text{p}}}theta _{0}} {displaystyle {hat {theta }}_{n}{xrightarrow {text{p}}}theta _{0}} {displaystyle {hat {theta }}_{n}{xrightarrow {text{p}}}theta _{0}}. [36] Un résultat similaire peut être établi en utilisant le théorème de Rolle . [37] [38]

La dérivée seconde évaluée à θ ^ {displaystyle {chapeau {thêta}}} hat{theta} hat{theta}, connue sous le nom d’ information de Fisher , détermine la courbure de la surface de vraisemblance, [39] et indique ainsi la précision de l’estimation. [40]

Familles exponentielles

La log-vraisemblance est également particulièrement utile pour les familles exponentielles de distributions, qui incluent de nombreuses distributions de probabilité paramétriques courantes . La fonction de distribution de probabilité (et donc la fonction de vraisemblance) pour les familles exponentielles contient des produits de facteurs impliquant l’exponentiation . Le logarithme d’une telle fonction est une somme de produits, encore une fois plus facile à différencier que la fonction d’origine.

Une famille exponentielle est une famille dont la fonction de densité de probabilité est de la forme (pour certaines fonctions, écrire ⟨ − , − ⟩ {displaystyle langle -,-rangle } {displaystyle langle -,-rangle } pour le produit intérieur ):

p ( x ∣ θ ) = h ( x ) exp ⁡ ( ⟨ η ( θ ) , T ( x ) ⟩ − A ( θ ) ) . {displaystyle p(xmid {boldsymbol {theta }})=h(x)exp {Big (}langle {boldsymbol {eta }}({boldsymbol {theta }}), mathbf {T} (x)rangle -A({boldsymbol {theta }}){Big )}.} {displaystyle p(xmid {boldsymbol {theta }})=h(x)exp {Big (}langle {boldsymbol {eta }}({boldsymbol {theta }}),mathbf {T} (x)rangle -A({boldsymbol {theta }}){Big )}.} {displaystyle p(xmid {boldsymbol {theta }})=h(x)exp {Big (}langle {boldsymbol {eta }}({boldsymbol {theta }}),mathbf {T} (x)rangle -A({boldsymbol {theta }}){Big )}.}

Chacun de ces termes a une interprétation, [b] mais le simple fait de passer de la probabilité à la vraisemblance et de prendre des logarithmes donne la somme :

l ( θ ∣ x ) = ⟨ η ( θ ) , T ( x ) ⟩ − A ( θ ) + log ⁡ h ( x ) . {displaystyle ell ({boldsymbol {theta }}mid x)=langle {boldsymbol {eta }}({boldsymbol {theta }}),mathbf {T} (x)rangle -A({boldsymbol {theta }})+log h(x).} {displaystyle ell ({boldsymbol {theta }}mid x)=langle {boldsymbol {eta }}({boldsymbol {theta }}),mathbf {T} (x)rangle -A({boldsymbol {theta }})+log h(x).} {displaystyle ell ({boldsymbol {theta }}mid x)=langle {boldsymbol {eta }}({boldsymbol {theta }}),mathbf {T} (x)rangle -A({boldsymbol {theta }})+log h(x).}

Le η ( θ ) {displaystyle {boldsymbol {eta }}({boldsymbol {theta }})} {displaystyle {boldsymbol {eta }}({boldsymbol {theta }})} {displaystyle {boldsymbol {eta }}({boldsymbol {theta }})}et h ( x ) {displaystyle h(x)} h(x) h(x)correspondent chacune à un changement de coordonnées , donc dans ces coordonnées, la log-vraisemblance d’une famille exponentielle est donnée par la formule simple :

l ( η ∣ x ) = ⟨ η , T ( x ) ⟩ − A ( η ) . {displaystyle ell ({boldsymbol {eta }}mid x)=langle {boldsymbol {eta }},mathbf {T} (x)rangle -A({boldsymbol {eta } }).} {displaystyle ell ({boldsymbol {eta }}mid x)=langle {boldsymbol {eta }},mathbf {T} (x)rangle -A({boldsymbol {eta }}).} {displaystyle ell ({boldsymbol {eta }}mid x)=langle {boldsymbol {eta }},mathbf {T} (x)rangle -A({boldsymbol {eta }}).}

En d’autres termes, la log-vraisemblance d’une famille exponentielle est le produit intérieur du paramètre naturel η {displaystyle {boldsymbol {eta}}} {boldsymbol {eta }} {boldsymbol {eta }}et la statistique suffisante T ( x ) {displaystyle mathbf {T} (x)} mathbf {T} (x) mathbf {T} (x), moins le facteur de normalisation ( fonction log-partition ) A ( η ) {displaystyle A({boldsymbol {eta }})} A({boldsymbol {eta }}) A({boldsymbol {eta }}). Ainsi, par exemple, l’Estimation du maximum de vraisemblance peut être calculée en prenant les dérivées de la statistique suffisante T et de la fonction de partition logarithmique A .

Exemple : la distribution gamma

La distribution gamma est une famille exponentielle à deux paramètres, α {displaystylealpha} alpha alpha et β {displaystyle bêta} beta beta . La fonction de vraisemblance est

L ( α , β ∣ x ) = β α Γ ( α ) x α − 1 e − β x . {displaystyle {mathcal {L}}(alpha ,beta mid x)={frac {beta ^{alpha }}{Gamma (alpha )}}x^{alpha -1} e^{-beta x}.} {displaystyle {mathcal {L}}(alpha ,beta mid x)={frac {beta ^{alpha }}{Gamma (alpha )}}x^{alpha -1}e^{-beta x}.} {displaystyle {mathcal {L}}(alpha ,beta mid x)={frac {beta ^{alpha }}{Gamma (alpha )}}x^{alpha -1}e^{-beta x}.}

Trouver l’Estimation du maximum de vraisemblance de β {displaystyle bêta} beta beta pour une seule valeur observée x {style d’affichage x} x xsemble plutôt intimidant. Son logarithme est beaucoup plus simple à utiliser :

log ⁡ L ( α , β ∣ x ) = α log ⁡ β − log ⁡ Γ ( α ) + ( α − 1 ) log ⁡ x − β x . {displaystyle log {mathcal {L}}(alpha ,beta mid x)=alpha log beta -log Gamma (alpha)+(alpha -1)log x- bêta x.,} {displaystyle log {mathcal {L}}(alpha ,beta mid x)=alpha log beta -log Gamma (alpha )+(alpha -1)log x-beta x.,} {displaystyle log {mathcal {L}}(alpha ,beta mid x)=alpha log beta -log Gamma (alpha)+(alpha -1)log x- bêta x.,}

Pour maximiser la log-vraisemblance, nous prenons d’abord la dérivée partielle par rapport à β {displaystyle bêta} beta bêta:

∂ log ⁡ L ( α , β ∣ x ) ∂ β = α β − x . {displaystyle {frac {partial log {mathcal {L}}(alpha ,beta mid x)}{partial beta }}={frac {alpha }{beta }}- X.} {displaystyle {frac {partial log {mathcal {L}}(alpha ,beta mid x)}{partial beta }}={frac {alpha }{beta }}-x.} {displaystyle {frac {partial log {mathcal {L}}(alpha ,beta mid x)}{partial beta }}={frac {alpha }{beta }}- X.}

S’il y a plusieurs observations indépendantes x 1 , … , x n {displaystyle x_{1},ldots ,x_{n}} x_{1},ldots ,x_{n} x_{1},ldots ,x_{n}, alors la log-vraisemblance conjointe sera la somme des log-vraisemblances individuelles, et la dérivée de cette somme sera une somme des dérivées de chaque log-vraisemblance individuelle :

∂ log ⁡ L ( α , β ∣ x 1 , … , x n ) ∂ β = ∂ log ⁡ L ( α , β ∣ x 1 ) ∂ β + ⋯ + ∂ log ⁡ L ( α , β ∣ x n ) ∂ β = n α β − ∑ i = 1 n x i . {displaystyle {begin{aligned}&{frac {partial log {mathcal {L}}(alpha ,beta mid x_{1},ldots ,x_{n})}{partial beta }}\={}&{frac {partial log {mathcal {L}}(alpha ,beta mid x_{1})}{partial beta }}+cdots + {frac {partial log {mathcal {L}}(alpha ,beta mid x_{n})}{partial beta }}={frac {nalpha }{beta }} -sum _{i=1}^{n}x_{i}.end{aligned}}} {displaystyle {begin{aligned}&{frac {partial log {mathcal {L}}(alpha ,beta mid x_{1},ldots ,x_{n})}{partial beta }}\={}&{frac {partial log {mathcal {L}}(alpha ,beta mid x_{1})}{partial beta }}+cdots +{frac {partial log {mathcal {L}}(alpha ,beta mid x_{n})}{partial beta }}={frac {nalpha }{beta }}-sum _{i=1}^{n}x_{i}.end{aligned}}} {displaystyle {begin{aligned}&{frac {partial log {mathcal {L}}(alpha ,beta mid x_{1},ldots ,x_{n})}{partial beta }}\={}&{frac {partial log {mathcal {L}}(alpha ,beta mid x_{1})}{partial beta }}+cdots + {frac {partial log {mathcal {L}}(alpha ,beta mid x_{n})}{partial beta }}={frac {nalpha }{beta }} -sum _{i=1}^{n}x_{i}.end{aligned}}}

Pour terminer la procédure de maximisation de la log-vraisemblance conjointe, l’équation est mise à zéro et résolue pour β {displaystyle bêta} beta bêta:

β ^ = α x ̄ . {displaystyle {widehat {beta }}={frac {alpha }{bar {x}}}.} {displaystyle {widehat {beta }}={frac {alpha }{bar {x}}}.} {displaystyle {widehat {beta }}={frac {alpha }{bar {x}}}.}

Ici β ^ {displaystyle {widehat {beta}}} {displaystyle {widehat {beta }}} {displaystyle {widehat {beta}}}désigne l’Estimation du maximum de vraisemblance, et x ̄ = 1 n ∑ i = 1 n x i {displaystyle textstyle {bar {x}}={frac {1}{n}}sum _{i=1}^{n}x_{i}} {displaystyle textstyle {bar {x}}={frac {1}{n}}sum _{i=1}^{n}x_{i}} {displaystyle textstyle {bar {x}}={frac {1}{n}}sum _{i=1}^{n}x_{i}}est la moyenne d’échantillon des observations.

Contexte et interprétation

Remarques historiques

Le terme “probabilité” est utilisé en anglais depuis au moins la fin du moyen anglais . [41] Son utilisation formelle pour désigner une fonction spécifique dans les statistiques mathématiques a été proposée par Ronald Fisher , [42] dans deux articles de recherche publiés en 1921 [43] et 1922. [44] L’article de 1921 a introduit ce qu’on appelle aujourd’hui un ” intervalle de vraisemblance” ; l’article de 1922 a introduit le terme « méthode du maximum de vraisemblance ». Citant Fisher :

[E]n 1922, j’ai proposé le terme “vraisemblance”, compte tenu du fait que, par rapport à [le paramètre], ce n’est pas une probabilité, et n’obéit pas aux lois de la probabilité, alors qu’en même temps il entretient avec le problème du choix rationnel entre les valeurs possibles du [paramètre] une relation analogue à celle que la probabilité entretient avec le problème de la prédiction des événements dans les jeux de hasard. . . . Alors que, par rapport au jugement psychologique, la vraisemblance a une certaine ressemblance avec la probabilité, les deux concepts sont entièrement distincts. . . .” [45]

Le concept de vraisemblance ne doit pas être confondu avec la probabilité tel que mentionné par Sir Ronald Fisher

J’insiste là-dessus parce qu’en dépit de l’accent que j’ai toujours mis sur la différence entre la probabilité et la vraisemblance, il y a encore une tendance à traiter la vraisemblance comme si c’était une sorte de probabilité. Le premier résultat est donc qu’il existe deux mesures différentes de la croyance rationnelle appropriées à des cas différents. Connaissant la population, nous pouvons exprimer notre connaissance incomplète ou notre attente de l’échantillon en termes de probabilité ; connaissant l’échantillon, nous pouvons exprimer notre connaissance incomplète de la population en termes de vraisemblance. [46]

L’invention de Fisher de la vraisemblance statistique était en réaction contre une forme antérieure de raisonnement appelée probabilité inverse . [47] Son utilisation du terme “vraisemblance” a fixé le sens du terme dans les statistiques mathématiques.

AWF Edwards (1972) a établi la base axiomatique de l’utilisation du rapport log-vraisemblance comme mesure du soutien relatif d’une hypothèse par rapport à une autre. La fonction de support est alors le logarithme népérien de la fonction de vraisemblance. Les deux termes sont utilisés en phylogénétique , mais n’ont pas été adoptés dans un traitement général du sujet de la preuve statistique. [48]

Interprétations sous différentes fondations

Parmi les statisticiens, il n’y a pas de consensus sur ce que devrait être le fondement des statistiques . Quatre principaux paradigmes ont été proposés pour la fondation : fréquentisme , bayésianisme , vraisemblance et basé sur l’AIC . [6] Pour chacun des fondements proposés, l’interprétation de la vraisemblance est différente. Les quatre interprétations sont décrites dans les sous-sections ci-dessous.

Interprétation fréquentiste

Apprendre encore plus Cette rubrique est vide. Vous pouvez aider en y ajoutant . ( mars 2019 )

Interprétation bayésienne

Dans l’inférence bayésienne , bien que l’on puisse parler de la vraisemblance de toute proposition ou variable aléatoire étant donné une autre variable aléatoire : par exemple la vraisemblance d’une valeur de paramètre ou d’un modèle statistique (voir vraisemblance marginale ), étant donné des données spécifiées ou d’autres preuves, [49 ] [50] [51] [52] la fonction de vraisemblance reste la même entité, avec les interprétations supplémentaires de (i) une densité conditionnelle des données compte tenu du paramètre (puisque le paramètre est alors une variable aléatoire) et (ii) une mesure ou quantité d’information apportée par les données sur la valeur du paramètre ou même le modèle. [49] [50] [51][52] [53] En raison de l’introduction d’une structure de probabilité sur l’espace des paramètres ou sur la collection de modèles, il est possible qu’une valeur de paramètre ou un modèle statistique ait une grande valeur de vraisemblance pour des données données, et pourtant une faible probabilité , ou vice versa. [51] [53] C’est souvent le cas dans des contextes médicaux. [54] Selon La règle de Bayes , la probabilité lorsqu’elle est considérée comme une densité conditionnelle peut être multipliée par la densité de probabilité antérieure du paramètre, puis normalisée, pour donner unedensité de probabilité postérieure . [49] [50] [51] [52] [53]Plus généralement, la probabilité d’une quantité inconnue X {displaystyle X} X Xdonné une autre quantité inconnue Y {displaystyle Y} Y Ouiest proportionnel à la probabilité de Y {displaystyle Y} Y Ouidonné X {displaystyle X} X X. [49] [50] [51] [52] [53]

Interprétation de vraisemblance

Dans les statistiques fréquentistes, la fonction de vraisemblance est elle-même une statistique qui résume un seul échantillon d’une population, dont la valeur calculée dépend d’un choix de plusieurs paramètres θ 1θ p , où p est le nombre de paramètres dans certains paramètres déjà sélectionnés. modèle statistique . La valeur de la vraisemblance sert de facteur de mérite pour le choix des paramètres, et le jeu de paramètres avec le maximum de vraisemblance est le meilleur choix, compte tenu des données disponibles.

Le calcul spécifique de la vraisemblance est la probabilité que l’échantillon observé soit attribué, en supposant que le modèle choisi et les valeurs des différents paramètres θ donnent une approximation précise de la distribution de fréquence de la population à partir de laquelle l’échantillon observé a été tiré. Heuristiquement, il est logique qu’un bon choix de paramètres soit ceux qui donnent à l’échantillon réellement observé la probabilité post-hoc maximale possible de s’être produit. Théorème de Wilksquantifie la règle heuristique en montrant que la différence entre le logarithme de la vraisemblance générée par les valeurs des paramètres de l’estimation et le logarithme de la vraisemblance générée par les valeurs des paramètres “vrais” (mais inconnus) de la population est asymptotiquement distribuée χ 2 .

L’Estimation du maximum de vraisemblance de chaque échantillon indépendant est une estimation distincte de l’ensemble de paramètres “vrais” décrivant la population échantillonnée. Les estimations successives de nombreux échantillons indépendants se regrouperont avec le «véritable» ensemble de valeurs de paramètres de la population caché quelque part au milieu d’eux. La différence entre les logarithmes du maximum de vraisemblance et des vraisemblances d’ensembles de paramètres adjacents peut être utilisée pour tracer une région de confiance sur un graphique dont les coordonnées sont les paramètres θ 1θ p . La région entoure l’Estimation du maximum de vraisemblance et tous les points (ensembles de paramètres) de cette région diffèrent au plus en log de vraisemblance d’une certaine valeur fixe.Le théorème de Wilks convertit les différences de log-vraisemblance de la région en “confiance” que le “vrai” jeu de paramètres de la population se trouve à l’intérieur. L’art de choisir la différence de log-vraisemblance fixe est de rendre la confiance suffisamment élevée tout en maintenant la région suffisamment petite (gamme étroite d’estimations).

Au fur et à mesure que davantage de données sont observées, au lieu d’être utilisées pour faire des estimations indépendantes, elles peuvent être combinées avec les échantillons précédents pour former un seul échantillon combiné, et ce grand échantillon peut être utilisé pour une nouvelle Estimation du maximum de vraisemblance. À mesure que la taille de l’échantillon combiné augmente, la taille de la région de vraisemblance avec la même confiance diminue. Finalement, soit la taille de la région de confiance est très proche d’un seul point, soit toute la population a été échantillonnée; dans les deux cas, l’ensemble de paramètres estimé est essentiellement le même que l’ensemble de paramètres de population.

Interprétation basée sur l’AIC

Apprendre encore plus Cette section a besoin d’être agrandie . Vous pouvez aider en y ajoutant . ( mars 2019 )

Selon le paradigme AIC , la vraisemblance est interprétée dans le contexte de la théorie de l’information . [55] [56] [57]

Voir également

  • Facteur de Bayes
  • Entropie conditionnelle
  • Probabilite conditionnelle
  • Vraisemblance empirique
  • Principe de vraisemblance
  • Test du rapport de vraisemblance
  • Statistiques de vraisemblance
  • Plausibilité maximum
  • Principe d’entropie maximale
  • Pseudo-vraisemblance
  • Note (statistiques)

Remarques

  1. Bien qu’ils soient souvent utilisés comme synonymes dans le langage courant, les termes « vraisemblance » et « probabilité » ont des significations distinctes en statistique. La probabilité est une propriété de l’échantillon, en particulier la probabilité d’obtenir un échantillon particulier pour une valeur donnée des paramètres de la distribution ; la vraisemblance est une propriété des valeurs des paramètres. Voir Valavanis, Stefan (1959). “Probabilité et vraisemblance”. Économétrie : une introduction aux méthodes du maximum de vraisemblance . New York : McGraw Hill. p. 24–28. OCLC 6257066 .
  2. ^ Voir Famille exponentielle § Interprétation

Références

  1. ^ Casella, George; En ligneBerger, Roger L. (2002). Inférence statistique (2e éd.). Duxbury. p. 290. ISBN 0-534-24312-6.
  2. ^ Zellner, Arnold (1971). Une introduction à l’inférence bayésienne en économétrie . New York : Wiley. p. 13–14. ISBN 0-471-98165-6.
  3. ^ Fisher, RA Méthodes statistiques pour les chercheurs . §1.2.
  4. ^ Edwards, AWF (1992). Probabilité . Presse de l’Université Johns Hopkins . ISBN 9780521318716.
  5. ^ Berger, James O.; En ligneWolpert, Robert L. (1988). Le principe de vraisemblance . Hayward : Institut de statistiques mathématiques. p. 19. ISBN 0-940600-13-7.
  6. ^ un b Bandyopadhyay, PS; Forster, MR, éd. (2011). Philosophie de la statistique . Édition Hollande du Nord .
  7. ^ Billingsley, Patrick (1995). Probabilité et mesure (troisième éd.). John Wiley et fils . p. 422–423.
  8. ^ Shao, juin (2003). Statistique mathématique (2e éd.). Springer. §4.4.1.
  9. Gouriéroux, Christian ; Montfort, Alain (1995). Statistiques et modèles économétriques . New York : Cambridge University Press. p. 161. ISBN 0-521-40551-3.
  10. ^ Mäkeläinen, Timo; Schmidt, Klaus; Styan, George PH (1981). “Sur l’existence et l’unicité de l’estimation de probabilité maximale d’un paramètre à valeur vectorielle dans des échantillons de taille fixe” . Annales de statistiques . 9 (4): 758–767. doi : 10.1214/aos/1176345516 . JSTOR 2240844 .
  11. ^ Mascarenhas, WF (2011). “Un lemme de col de montagne et ses implications concernant l’unicité des minimiseurs contraints”. Optimisation . 60 (8–9) : 1121–1159. doi : 10.1080/02331934.2010.527973 . S2CID 15896597 .
  12. ^ Chanda, KC (1954). “Une note sur la cohérence et les maxima des racines des équations de probabilité”. Biométrie . 41 (1–2): 56–61. doi : 10.2307/2333005 . JSTOR 2333005 .
  13. ^ Greenberg, Edouard; Webster, Charles E. Jr. (1983). Économétrie avancée : un pont vers la littérature . New York : John Wiley & Fils. p. 24–25. ISBN 0-471-09077-8.
  14. ^ Kass, Robert E.; Tierney, Luc; Kadane, Joseph B. (1990). “La validité des expansions postérieures basées sur la méthode de Laplace”. Dans Geisser, S.; Hodges, JS ; Presse, SJ ; Zellner, A. (éd.). Méthodes bayésiennes et de vraisemblance en statistique et économétrie . Elsevier. p. 473–488. ISBN 0-444-88376-2.
  15. ^ Buse, A. (1982). “Les tests du rapport de probabilité, de Wald et du multiplicateur de Lagrange: une note explicative”. Le statisticien américain . 36 (3a) : 153–157. doi : 10.1080/00031305.1982.10482817 .
  16. ^ un bcd Kalbfleisch , JG ( 1985), Probabilité et inférence statistique , Springer (§9.3).
  17. ^ Azzalini, A. (1996), Inférence statistique basée sur la vraisemblance , Chapman & Hall , ISBN 9780412606502(§1.4.2).
  18. ^ un bc Sprott , DA (2000), l’Inférence Statistique dans la Science , Springer (le chapitre 2).
  19. ^ Davison, AC (2008), Modèles statistiques , Cambridge University Press (§4.1.2).
  20. ^ Tenu, L.; Sabanés Bové, DS (2014), Inférence statistique appliquée—Vraisemblance et Bayes , Springer (§2.1).
  21. ^ un bc Rossi , RJ (2018), Statistiques mathématiques , Wiley , p. 267 .
  22. ^ un b Hudson, DJ (1971), “Estimation d’intervalle à partir de la fonction de vraisemblance”, Journal de la Royal Statistical Society, série B , 33 (2): 256–262 .
  23. ^ Pawitan, Yudi (2001). Selon toute vraisemblance : modélisation statistique et inférence à l’aide de la probabilité . Presse universitaire d’Oxford .
  24. ^ Wen Hsiang Wei. “Modèle linéaire généralisé – notes de cours” . Taichung, Taïwan : Université Tunghai . p. Chapitre 5 . Récupéré le 01/10/2017 .
  25. ^ Amemiya, Takeshi (1985). “Fonction de vraisemblance concentrée” . Économétrie avancée . Cambridge : Harvard University Press. p. 125–127 . ISBN 978-0-674-00560-0.
  26. ^ Davidson, Russel; MacKinnon, James G. (1993). “Concentration de la fonction de logvraisemblance”. Estimation et inférence en économétrie . New York : presse universitaire d’Oxford. p. 267–269. ISBN 978-0-19-506011-9.
  27. Gourieroux, chrétien ; Montfort, Alain (1995). “Fonction de vraisemblance concentrée” . Statistiques et modèles économétriques . New York : Cambridge University Press. p. 170–175. ISBN 978-0-521-40551-5.
  28. ^ Cornichons, Andrew (1985). Une introduction à l’analyse de vraisemblance . Norwich : WH Hutchins & Sons. p. 21–24 . ISBN 0-86094-190-6.
  29. ^ Bolker, Benjamin M. (2008). Modèles et données écologiques dans R . Presse universitaire de Princeton. pp. 187–189. ISBN 978-0-691-12522-0.
  30. ^ Aitkin, Murray (1982). “Inférence de vraisemblance directe”. GLIM 82 : Actes de la conférence internationale sur les modèles linéaires généralisés . Springer. p. 76–86. ISBN 0-387-90777-7.
  31. ^ Venzon, DJ; Moolgavkar, SH (1988). “Une méthode pour calculer les intervalles de confiance basés sur la vraisemblance du profil”. Journal de la Société royale de statistique . Série C (Statistiques appliquées). 37 (1): 87–94. doi : 10.2307/2347496 . JSTOR 2347496 .
  32. ^ Kalbfleisch, JD; Sprott, DA (1973). “Probabilités marginales et conditionnelles”. Sankhyā: Le Journal indien des statistiques . Série A. 35 (3): 311–328. JSTOR 25049882 .
  33. ^ Cox, DR (1975). “Vraisemblance partielle”. Biométrie . 62 (2): 269-276. doi : 10.1093/biomet/62.2.269 . MR 0400509 .
  34. ^ Kass, Robert E.; Vos, Paul W. (1997). Fondements géométriques de l’inférence asymptotique . New York : John Wiley & Fils. p. 14. ISBN 0-471-82668-5.
  35. ^ Papadopoulos, Alecos (25 septembre 2013). “Pourquoi mettons-nous toujours log() avant le pdf joint lorsque nous utilisons MLE (Estimation du maximum de vraisemblance) ?” . Échange de pile .
  36. ^ Foutz, Robert V. (1977). “Sur la solution cohérente unique aux équations de probabilité”. Journal de l’Association statistique américaine . 72 (357): 147–148. doi : 10.1080/01621459.1977.10479926 .
  37. ^ Tarone, Robert E.; Gruenhage, Gary (1975). “Une note sur l’unicité des racines des équations de probabilité pour les paramètres à valeur vectorielle”. Journal de l’Association statistique américaine . 70 (352): 903–904. doi : 10.1080/01621459.1975.10480321 .
  38. ^ Rai, Kamta; Van Ryzin, John (1982). “Une note sur une version multivariée du théorème de Rolle et de l’unicité des racines de vraisemblance maximale”. Communications en statistiques . Théorie et méthodes. 11 (13): 1505-1510. doi : 10.1080/03610928208828325 .
  39. ^ Rao, B. Raja (1960). “Une formule pour la courbure de la surface de vraisemblance d’un échantillon tiré d’une distribution admettant des statistiques suffisantes”. Biométrie . 47 (1–2): 203–207. doi : 10.1093/biomet/47.1-2.203 .
  40. ^ Salle, Michael D.; En ligneAhlquist, John S. (2018). Maximum de vraisemblance pour les sciences sociales : stratégies d’analyse . Presse universitaire de Cambridge . p. 25–27.
  41. ^ “probabilité”, Shorter Oxford English Dictionary (2007).
  42. ^ Hald, A. (1999). “Sur l’histoire du maximum de vraisemblance par rapport à la probabilité inverse et aux moindres carrés” . Sciences statistiques . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741 .
  43. ^ Fisher, RA (1921). “Sur “l’erreur probable” d’un coefficient de corrélation déduit d’un petit échantillon”. Métron . 1 : 3–32.
  44. ^ Fisher, RA (1922). “Sur les fondements mathématiques de la statistique théorique” . Transactions philosophiques de la Royal Society A . 222 (594–604) : 309–368. Bibcode : 1922RSPTA.222..309F . doi : 10.1098/rsta.1922.0009 . JFM 48.1280.02 . JSTOR 91208 .
  45. ^ Klemens, Ben (2008). Modélisation avec des données : outils et techniques pour le calcul scientifique . Presse de l’Université de Princeton . p. 329.
  46. ^ Fisher, Ronald (1930). “Probabilité inverse”. Actes mathématiques de la Cambridge Philosophical Society . 26 (4): 528–535. Bibcode : 1930PCPS…26..528F . doi : 10.1017/S0305004100016297 .
  47. ^ Fienberg, Stephen E (1997). “Introduction à RA Fisher sur la probabilité inverse et la vraisemblance”. Sciences statistiques . 12 (3): 161. doi : 10.1214/ss/1030037905 .
  48. ^ Royall, R. (1997). Preuve statistique . Chapman & Hall .
  49. ^ un bcd IJ Good : Probabilité et pesée des preuves (Griffin 1950), §6.1
  50. ^ un bcd H. Jeffreys: Théorie des probabilités (3e éd., Oxford University Press 1983), §1.22
  51. ^ un bcde ET Jaynes : Théorie des probabilités: La logique de la science (Cambridge University Press 2003), §4.1
  52. ^ un bcd DV Lindley : Introduction à la probabilité et aux statistiques d’ un point de vue bayésien. Partie 1 : Probabilité (Cambridge University Press 1980), §1.6
  53. ^ un bcd A. Gelman , JB Carlin, HS Stern, DB Dunson, A. Vehtari, DB Rubin: analyse de données bayésienne (3e éd., Chapman & Hall / CRC 2014), §1.3
  54. ^ Sox, HC; Higgins, MC ; Owens, DK (2013), Medical Decision Making (2e éd.), Wiley, chapitres 3–4, doi : 10.1002/9781118341544 , ISBN 9781118341544
  55. ^ Akaike, H. (1985). “Prédiction et entropie”. À Atkinson, AC ; Fienberg, SE (éd.). Une fête des statistiques . Springer. p. 1–24.
  56. ^ Sakamoto, Y.; Ishiguro, M.; En ligneKitagawa, G. (1986). Statistiques des critères d’information d’Akaike . D.Reidel . Première partie.
  57. ^ Burnham, KP; Anderson, DR (2002). Sélection de modèles et inférence multimodèle: une approche pratique de la théorie de l’information (2e éd.). Springer-Verlag . type. 7.

Lectures complémentaires

  • Azzalini, Adelchi (1996). “Probabilité, vraisemblance”. Inférence statistique basée sur la vraisemblance . Chapman et Hall. p. 17–50. ISBN 0-412-60650-X.
  • Boos, Dennis D. ; Stefanski, LA (2013). “Construction et estimation de probabilité”. Inférence statistique essentielle : théorie et méthodes . New York : Springer. p. 27–124. doi : 10.1007/978-1-4614-4818-1_2 . ISBN 978-1-4614-4817-4.
  • Edwards, AWF (1992) [1972]. Probabilité (éd. Développé). Presse de l’Université Johns Hopkins . ISBN 0-8018-4443-6.
  • Roi, Gary (1989). “Le modèle de probabilité d’inférence” . Méthodologie politique unificatrice : la théorie de la vraisemblance de l’inférence statistique . La presse de l’Universite de Cambridge. p. 59–94. ISBN 0-521-36697-6.
  • Lindsey, JK (1996). “Probabilité” . Inférence statistique paramétrique . Presse universitaire d’Oxford. p. 69–139. ISBN 0-19-852359-9.
  • En ligneRohde, Charles A. (2014). Introduction à l’inférence statistique avec la fonction de vraisemblance . Berlin : Springer. ISBN 978-3-319-10460-7.
  • Royall, Richard (1997). Preuve statistique : un paradigme de probabilité . Londres : Chapman & Hall. ISBN 0-412-04411-0.
  • Ward, Michael D. ; En ligneAhlquist, John S. (2018). “La fonction de probabilité : une plongée plus profonde” . Maximum de vraisemblance pour les sciences sociales : stratégies d’analyse . Presse universitaire de Cambridge . p. 21–28. ISBN 978-1-316-63682-4.

Liens externes

Recherchez la probabilité dans Wiktionary, le dictionnaire gratuit.
  • Fonction de vraisemblance chez Planetmath
  • “Log-vraisemblance” . Statecte .

Portail : Mathématiques

You might also like
Leave A Reply

Your email address will not be published.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More