Moyenne arithmétique pondérée
La moyenne arithmétique pondérée est similaire à une moyenne arithmétique ordinaire (le type de moyenne le plus courant ), sauf qu’au lieu que chacun des points de données contribue de manière égale à la moyenne finale, certains points de données contribuent plus que d’autres. La notion de Moyenne pondérée joue un rôle dans les statistiques descriptives et apparaît également sous une forme plus générale dans plusieurs autres domaines des mathématiques.
Si tous les poids sont égaux, alors la Moyenne pondérée est la même que la moyenne arithmétique . Bien que les moyennes pondérées se comportent généralement de la même manière que les moyennes arithmétiques, elles ont quelques propriétés contre-intuitives, comme le montre par exemple le paradoxe de Simpson .
Exemples
Exemple de base
Étant donné deux classes d’école – une avec 20 élèves, une avec 30 élèves – et les notes de test dans chaque classe comme suit :
Cours du matin = {62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98} Cours de l’après-midi = {81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 94, 95, 96, 97, 98, 99}
La moyenne du cours du matin est de 80 et la moyenne du cours de l’après-midi est de 90. La moyenne non pondérée des deux moyennes est de 85. Cependant, cela ne tient pas compte de la différence de nombre d’élèves dans chaque classe (20 contre 30); par conséquent, la valeur de 85 ne reflète pas la note moyenne des élèves (indépendamment de la classe). La note moyenne des élèves peut être obtenue en faisant la moyenne de toutes les notes, sans tenir compte des classes (additionnez toutes les notes et divisez par le nombre total d’élèves):
x ̄ = 4300 50 = 86. {displaystyle {bar {x}}={frac {4300}{50}}=86.}
Ou, cela peut être accompli en pondérant les moyennes de classe par le nombre d’élèves dans chaque classe. La classe la plus grande reçoit plus de “poids”:
x ̄ = ( 20 × 80 ) + ( 30 × 90 ) 20 + 30 = 86. {displaystyle {bar {x}}={frac {(20fois 80)+(30fois 90)}{20+30}}=86.}
Ainsi, la Moyenne pondérée permet de trouver la note moyenne moyenne des élèves sans connaître le score de chaque élève. Seuls les moyens de la classe et le nombre d’élèves dans chaque classe sont nécessaires.
Exemple de combinaison convexe
Étant donné que seuls les poids relatifs sont pertinents, toute Moyenne pondérée peut être exprimée à l’aide de coefficients dont la somme est égale à un. Une telle combinaison linéaire est appelée combinaison convexe .
En utilisant l’exemple précédent, nous obtiendrions les poids suivants :
20 20 + 30 = 0.4 {displaystyle {frac {20}{20+30}}=0.4} 30 20 + 30 = 0.6 {displaystyle {frac {30}{20+30}}=0.6}
Ensuite, appliquez les poids comme ceci :
x ̄ = ( 0.4 × 80 ) + ( 0.6 × 90 ) = 86. {displaystyle {bar {x}}=(0,4fois 80)+(0,6fois 90)=86.}
Définition mathématique
Formellement, la Moyenne pondérée d’un multi -ensemble fini non vide de données { x 1 , x 2 , … , x n } , {displaystyle {x_{1},x_{2},dots ,x_{n}},} avec des poids non négatifs correspondants { w 1 , w 2 , … , w n } {displaystyle {w_{1},w_{2},dots ,w_{n}}} est
x ̄ = ∑ i = 1 n w i x i ∑ i = 1 n w i , {displaystyle {bar {x}}={frac {sum limits _{i=1}^{n}w_{i}x_{i}}{sum limits _{i=1}^ {n}w_{i}}},}
qui s’étend à :
x ̄ = w 1 x 1 + w 2 x 2 + ⋯ + w n x n w 1 + w 2 + ⋯ + w n . {displaystyle {bar {x}}={frac {w_{1}x_{1}+w_{2}x_{2}+cdots +w_{n}x_{n}}{w_{1} +w_{2}+cdots +w_{n}}}.}
Par conséquent, les éléments de données avec un poids élevé contribuent davantage à la Moyenne pondérée que les éléments avec un poids faible. Les poids ne peuvent pas être négatifs. Certains peuvent être nuls, mais pas tous (puisque la division par zéro n’est pas autorisée).
Les formules sont simplifiées lorsque les poids sont normalisés de sorte qu’ils totalisent 1, c’est-à-dire ∑ i = 1 n w i ′ = 1 {textstyle sum limits _{i=1}^{n}{w_{i}’}=1} . Pour de tels poids normalisés, la Moyenne pondérée est équivalente :
x ̄ = ∑ i = 1 n w i ′ x i {displaystyle {bar {x}}=sum limits _{i=1}^{n}{w_{i}’x_{i}}} .
Notez que l’on peut toujours normaliser les poids en effectuant la transformation suivante sur les poids d’origine :
w i ′ = w i ∑ j = 1 n w j {displaystyle w_{i}’={frac {w_{i}}{sum limits _{j=1}^{n}{w_{j}}}}} .
Le moyen ordinaire 1 n ∑ i = 1 n x i {textstyle {frac {1}{n}}sum limits _{i=1}^{n}{x_{i}}} est un cas particulier de la Moyenne pondérée où toutes les données ont des poids égaux.
Si les éléments de données sont des Variables aléatoires indépendantes et identiquement distribuées avec variance σ 2 {displaystyle sigma ^{2}} , l’ erreur type de la Moyenne pondérée , σ x ̄ {displaystyle sigma _{bar {x}}} , peut être montré via la Propagation de l’incertitude comme étant :
σ x ̄ = σ ∑ i = 1 n w i ′ 2 {textstyle sigma _{bar {x}}=sigma {sqrt {sum limits _{i=1}^{n}w_{i}’^{2}}}}
Pondérations définies par la variance
Pour la Moyenne pondérée d’une liste de données dont chaque élément x i {displaystyle x_{i}} provient potentiellement d’une distribution de probabilité différente avec une variance connue σ i 2 {displaystyle sigma _{i}^{2}} , tous ayant la même moyenne, un choix possible pour les poids est donné par l’inverse de la variance :
w i = 1 σ i 2 . {displaystyle w_{i}={frac {1}{sigma _{i}^{2}}}.}
La Moyenne pondérée dans ce cas est :
x ̄ = ∑ i = 1 n ( x i σ i 2 ) ∑ i = 1 n 1 σ i 2 , {displaystyle {bar {x}}={frac {sum _{i=1}^{n}left({dfrac {x_{i}}{sigma _{i}^{2} }}right)}{sum _{i=1}^{n}{dfrac {1}{sigma _{i}^{2}}}}},}
et l’ erreur type de la Moyenne pondérée (avec des pondérations de variance inverse) est :
σ x ̄ = 1 ∑ i = 1 n σ i − 2 , {displaystyle sigma _{bar {x}}={sqrt {frac {1}{sum _{i=1}^{n}sigma _{i}^{-2}}}} ,}
Notez que cela se réduit à σ x ̄ 2 = σ 0 2 / n {displaystyle sigma _{bar {x}}^{2}=sigma _{0}^{2}/n} quand tout σ i = σ 0 {displaystyle sigma _{i}=sigma _{0}} . C’est un cas particulier de la formule générale de la section précédente,
σ x ̄ 2 = ∑ i = 1 n w i ′ 2 σ i 2 = ∑ i = 1 n σ i − 4 σ i 2 ( ∑ i = 1 n σ i − 2 ) 2 . {displaystyle sigma _{bar {x}}^{2}=sum _{i=1}^{n}{w_{i}’^{2}sigma _{i}^{2} }={frac {sum _{i=1}^{n}{sigma _{i}^{-4}sigma _{i}^{2}}}{left(sum _{ i=1}^{n}sigma _{i}^{-2}right)^{2}}}.}
Les équations ci-dessus peuvent être combinées pour obtenir :
x ̄ = σ x ̄ 2 ∑ i = 1 n x i σ i 2 . {displaystyle {bar {x}}=sigma _{bar {x}}^{2}sum _{i=1}^{n}{frac {x_{i}}{sigma _ {je}^{2}}}.}
La signification de ce choix est que cette Moyenne pondérée est l’ Estimateur du maximum de vraisemblance de la moyenne des distributions de probabilité sous l’hypothèse qu’elles sont indépendantes et normalement distribuées avec la même moyenne.
Propriétés statistiques
Attente
La Moyenne pondérée de l’échantillon, x ̄ {displaystyle {bar {x}}} , est lui-même une variable aléatoire. Sa valeur attendue et son écart type sont liés aux valeurs attendues et aux écarts types des observations, comme suit. Pour plus de simplicité, nous supposons des poids normalisés (poids sommant à un).
Si les observations ont des valeurs attendues
E ( x i ) = μ i , {displaystyle E(x_{i})={mu _{i}},} alors la Moyenne pondérée de l’échantillon a une espérance E ( x ̄ ) = ∑ i = 1 n w i ′ μ i . {displaystyle E({bar {x}})=sum _{i=1}^{n}{w_{i}’mu _{i}}.} En particulier, si les moyennes sont égales, μ i = μ {displaystyle mu _{i}=mu } , alors l’espérance de la Moyenne pondérée de l’échantillon sera cette valeur, E ( x ̄ ) = μ . {displaystyle E({bar {x}})=mu .}
Variance
Cas iid simple
En traitant les poids comme des constantes et en ayant un échantillon de n observations à partir de Variables aléatoires non corrélées , toutes avec la même variance et la même attente (comme c’est le cas pour les Variables aléatoires iid ), alors la variance de la Moyenne pondérée peut être estimée comme la multiplication de la variance par l’effet de plan de Kish (voir preuve ) :
Var ( y ̄ w ) = σ ^ y 2 n w 2 ̄ w ̄ 2 {displaystyle operatorname {Var} ({bar {y}}_{w})={frac {{hat {sigma }}_{y}^{2}}{n}}{frac {overline {w^{2}}}{{bar {w}}^{2}}}}
Avec σ ^ y 2 = ∑ i = 1 n ( y i − y ̄ ) 2 n − 1 {displaystyle {hat {sigma}}_{y}^{2}={frac {sum _{i=1}^{n}(y_{i}-{bar {y}}) ^{2}}{n-1}}} , w ̄ = ∑ i = 1 n w i n {displaystyle {bar {w}}={frac {sum _{i=1}^{n}w_{i}}{n}}} , et w 2 ̄ = ∑ i = 1 n w i 2 n {displaystyle {overline {w^{2}}}={frac {sum _{i=1}^{n}w_{i}^{2}}{n}}}
Cependant, cette estimation est plutôt limitée en raison de l’hypothèse forte sur les observations y . Cela a conduit au développement d’estimateurs alternatifs, plus généraux.
Perspective d’échantillonnage de l’enquête
D’un point de vue basé sur un modèle , nous nous intéressons à l’estimation de la variance de la Moyenne pondérée lorsque les différents y i {displaystyle y_{i}} ne sont pas iid Variables aléatoires. Une perspective alternative pour ce problème est celle d’un plan d’échantillonnage arbitraire des données dans lequel les unités sont sélectionnées avec des probabilités inégales (avec remise). [1] : 306
Dans la méthodologie d’enquête , la moyenne de la population, d’une certaine quantité d’intérêt y , est calculée en prenant une estimation du total de y sur tous les éléments de la population ( Y ou parfois T ) et en la divisant par la taille de la population – soit connue ( N {displaystyle N} ) ou estimé ( N ^ {displaystyle {chapeau {N}}} ). Dans ce contexte, chaque valeur de y est considérée comme constante et la variabilité provient de la procédure de sélection. Cela contraste avec les approches “basées sur un modèle” dans lesquelles le caractère aléatoire est souvent décrit dans les valeurs de y. La procédure d’échantillonnage de l’enquête donne une série de valeurs de l’indicateur de Bernoulli ( I i {displaystyle I_{i}} ) qui obtiennent 1 si une observation i est dans l’échantillon et 0 si elle n’a pas été sélectionnée. Cela peut se produire avec une taille d’échantillon fixe ou un échantillonnage à taille d’échantillon variée (par exemple : échantillonnage de Poisson ). La probabilité qu’un élément soit choisi, étant donné un échantillon, est notée P ( I i = 1 ∣ Some sample of size n ) = π i {displaystyle P(I_{i}=1mid {text{Quelque échantillon de taille}}n)=pi _{i}} , et la probabilité de sélection à un tirage est P ( I i = 1 | one sample draw ) = p i ≈ π i n {displaystyle P(I_{i}=1|{text{un échantillon tiré}})=p_{i}approx {frac {pi _{i}}{n}}} (Si N est très grand et que chaque p i {displaystyle p_{i}} est très petit). Pour la dérivation suivante, nous supposerons que la probabilité de sélectionner chaque élément est entièrement représentée par ces probabilités. [2] : 42, 43, 51 C’est-à- dire : la sélection d’un élément n’influencera pas la probabilité de tirer un autre élément (cela ne s’applique pas à des éléments tels que le plan d’ échantillonnage en grappes ).
Puisque chaque élément ( y i {displaystyle y_{i}} ) est fixe, et le caractère aléatoire vient de son inclusion ou non dans l’échantillon ( I i {displaystyle I_{i}} ), on parle souvent de la multiplication des deux, qui est une variable aléatoire. Pour éviter toute confusion dans la section suivante, appelons ce terme : y i ′ = y i I i {displaystyle y’_{i}=y_{i}I_{i}} . Avec l’attente suivante : E [ y i ′ ] = y i E [ I i ] = y i π i {displaystyle E[y’_{i}]=y_{i}E[I_{i}]=y_{i}pi _{i}} ; et écart : V [ y i ′ ] = y i 2 V [ I i ] = y i 2 π i ( 1 − π i ) {displaystyle V[y’_{i}]=y_{i}^{2}V[I_{i}]=y_{i}^{2}pi _{i}(1-pi _{ je})} .
Lorsque chaque élément de l’échantillon est gonflé par l’inverse de sa probabilité de sélection, il est appelé le π {style d’affichage pi} -valeurs y étendues , c’est-à-dire : y ˇ i = y i π i {displaystyle {check {y}}_{i}={frac {y_{i}}{pi _{i}}}} . Une quantité liée est p {displaystyle p} -valeurs y étendues : y i p i = n y ˇ i {displaystyle {frac {y_{i}}{p_{i}}}=n{check {y}}_{i}} . [2] : 42, 43, 51, 52 Comme ci-dessus, nous pouvons ajouter une coche si nous multiplions par la fonction indicatrice. C’est à dire: y ˇ i ′ = I i y ˇ i = I i y i π i {displaystyle {check {y}}’_{i}=I_{i}{check {y}}_{i}={frac {I_{i}y_{i}}{pi _{ je}}}}
Dans cette perspective basée sur le plan de sondage, les poids, utilisés dans le numérateur de la Moyenne pondérée, sont obtenus en prenant l’inverse de la probabilité de sélection (c’est-à-dire le facteur d’inflation). C’est à dire: w i = 1 π i ≈ 1 n × p i {displaystyle w_{i}={frac {1}{pi _{i}}}approx {frac {1}{ntimes p_{i}}}} .
Variance de la somme pondérée ( pwr – estimateur pour les totaux)
Si la taille de la population N est connue, nous pouvons estimer la moyenne de la population en utilisant Y ̄ ^ known N = Y ^ p w r N ≈ ∑ i = 1 n w i y i ′ N {displaystyle {hat {bar {Y}}}_{{text{known}}N}={frac {{hat {Y}}_{pwr}}{N}}approx { fraction {sum _{i=1}^{n}w_{i}y’_{i}}{N}}} .
Si le plan d’échantillonnage est celui qui aboutit à une taille d’échantillon fixe n (comme dans l’échantillonnage pps ), alors la variance de cet estimateur est :
Var ( Y ̄ ^ known N ) = 1 N 2 n n − 1 ∑ i = 1 n ( w i y i − w y ̄ ) 2 {displaystyle operatorname {Var} left({hat {bar {Y}}}_{{text{known}}N}right)={frac {1}{N^{2}} }{frac {n}{n-1}}sum _{i=1}^{n}left(w_{i}y_{i}-{overline {wy}}right)^{2 }} Preuve
La formule générale peut être développée comme suit :
Y ̄ ^ known N = Y ^ p w r N = 1 n ∑ i = 1 n y i ′ p i N ≈ ∑ i = 1 n y i ′ π i N = ∑ i = 1 n w i y i ′ N . {displaystyle {hat {bar {Y}}}_{{text{connu}}N}={frac {{hat {Y}}_{pwr}}{N}}={frac {{frac {1}{n}}sum _{i=1}^{n}{frac {y’_{i}}{p_{i}}}}{N}}environ { frac {sum _{i=1}^{n}{frac {y’_{i}}{pi _{i}}}}{N}}={frac {sum _{i= 1}^{n}w_{i}y’_{i}}{N}}.}
Le total de la population est noté Y = ∑ i = 1 N y i {displaystyle Y=sum _{i=1}^{N}y_{i}} et il peut être estimé par l’ estimateur (sans biais) de Horvitz–Thompson , également appelé π {style d’affichage pi} -estimateur. Cet estimateur peut être lui-même estimé à l’aide de l’ estimateur pwr (c’est-à-dire : p {displaystyle p} -développé avec estimateur de remplacement, ou estimateur “probabilité avec remplacement”). Avec la notation ci-dessus, c’est : Y ^ p w r = 1 n ∑ i = 1 n y i ′ p i = ∑ i = 1 n y i ′ n p i ≈ ∑ i = 1 n y i ′ π i = ∑ i = 1 n w i y i ′ {displaystyle {hat {Y}}_{pwr}={frac {1}{n}}sum _{i=1}^{n}{frac {y’_{i}}{p_ {i}}}=sum _{i=1}^{n}{frac {y’_{i}}{np_{i}}}approx sum _{i=1}^{n} {frac {y’_{i}}{pi _{i}}}=sum _{i=1}^{n}w_{i}y’_{i}} . [2] : 51
La variance estimée du pwr -estimator est donnée par : [2] : 52
Var ( Y ^ p w r ) = n n − 1 ∑ i = 1 n ( w i y i − w y ̄ ) 2 {displaystyle operatorname {Var} ({hat {Y}}_{pwr})={frac {n}{n-1}}sum _{i=1}^{n}left(w_ {i}y_{i}-{overline {wy}}right)^{2}} où w y ̄ = ∑ i = 1 n w i y i n {displaystyle {overline {wy}}=sum _{i=1}^{n}{frac {w_{i}y_{i}}{n}}} .
La formule ci-dessus est tirée de Sarndal et al. (1992) (également présenté dans Cochran 1977), mais a été écrit différemment. [2] : 52 [1] : 307 (11.35) Le côté gauche est la façon dont la variance a été écrite et le côté droit est la façon dont nous avons développé la version pondérée :
Var ( Y ^ pwr ) = 1 n 1 n − 1 ∑ i = 1 n ( y i p i − Y ^ p w r ) 2 = 1 n 1 n − 1 ∑ i = 1 n ( n n y i p i − n n ∑ i = 1 n w i y i ) 2 = 1 n 1 n − 1 ∑ i = 1 n ( n y i π i − n ∑ i = 1 n w i y i n ) 2 = n 2 n 1 n − 1 ∑ i = 1 n ( w i y i − w y ̄ ) 2 = n n − 1 ∑ i = 1 n ( w i y i − w y ̄ ) 2 {displaystyle {begin{aligned}operatorname {Var} ({hat {Y}}_{text{pwr}})&={frac {1}{n}}{frac {1}{ n-1}}sum _{i=1}^{n}left({frac {y_{i}}{p_{i}}}-{hat {Y}}_{pwr}right )^{2}\&={frac {1}{n}}{frac {1}{n-1}}sum _{i=1}^{n}left({frac { n}{n}}{frac {y_{i}}{p_{i}}}-{frac {n}{n}}sum _{i=1}^{n}w_{i}y_ {i}right)^{2}={frac {1}{n}}{frac {1}{n-1}}sum _{i=1}^{n}left(n{ frac {y_{i}}{pi _{i}}}-n{frac {sum _{i=1}^{n}w_{i}y_{i}}{n}}right )^{2}\&={frac {n^{2}}{n}}{frac {1}{n-1}}sum _{i=1}^{n}left( w_{i}y_{i}-{overline {wy}}right)^{2}\&={frac {n}{n-1}}sum _{i=1}^{n }left(w_{i}y_{i}-{overline {wy}}right)^{2}end{aligned}}}
Et nous sommes arrivés à la formule d’en haut.
Un terme alternatif, pour quand l’échantillonnage a une taille d’échantillon aléatoire (comme dans l’échantillonnage de Poisson ), est présenté dans Sarndal et al. (1992) comme: [2] : 182
Var ( Y ̄ ^ pwr (known N ) ) = 1 N 2 ∑ i = 1 n ∑ j = 1 n ( Δ ˇ i j y ˇ i y ˇ j ) {displaystyle operatorname {Var} ({hat {bar {Y}}}_{{text{pwr (connu}}N{text{)}}})={frac {1}{N ^{2}}}sum _{i=1}^{n}sum _{j=1}^{n}left({check {Delta }}_{ij}{check {y }}_{i}{vérifier {y}}_{j}right)}
Avec y ˇ i = y i π i {displaystyle {check {y}}_{i}={frac {y_{i}}{pi _{i}}}} . Aussi, C ( I i , I j ) = π i j − π i π j = Δ i j {displaystyle C(I_{i},I_{j})=pi _{ij}-pi _{i}pi _{j}=Delta _{ij}} où π i j {displaystyle pi _{ij}} est la probabilité de sélectionner à la fois i et j. [2] : 36 Et Δ ˇ i j = 1 − π i π j π i j {displaystyle {check {Delta}}_{ij}=1-{frac {pi _{i}pi _{j}}{pi _{ij}}}} , et pour i=j : Δ ˇ i i = 1 − π i π i π i = 1 − π i {displaystyle {check {Delta}}_{ii}=1-{frac {pi _{i}pi _{i}}{pi _{i}}}=1-pi _ {je}} . [2] : 43
Si les probabilités de sélection ne sont pas corrélées (c’est-à-dire : ∀ i ≠ j : C ( I i , I j ) = 0 {displaystyle forall ineq j:C(I_{i},I_{j})=0} ), et en supposant que la probabilité de chaque élément est très faible, alors :
Var ( Y ̄ ^ pwr (known N ) ) = 1 N 2 ∑ i = 1 n ( w i y i ) 2 {displaystyle operatorname {Var} ({hat {bar {Y}}}_{{text{pwr (connu}}N{text{)}}})={frac {1}{N ^{2}}}sum _{i=1}^{n}left(w_{i}y_{i}right)^{2}} Preuve
Nous supposons que ( 1 − π i ) ≈ 0 {displaystyle (1-pi _{i})environ 0} et cela
Var ( Y ^ pwr (known N ) ) = 1 N 2 ∑ i = 1 n ∑ j = 1 n ( Δ ˇ i j y ˇ i y ˇ j ) = 1 N 2 ∑ i = 1 n ( Δ ˇ i i y ˇ i y ˇ i ) = 1 N 2 ∑ i = 1 n ( ( 1 − π i ) y i π i y i π i ) = 1 N 2 ∑ i = 1 n ( w i y i ) 2 {displaystyle {begin{aligned}operatorname {Var} ({hat {Y}}_{{text{pwr (connu}}N{text{)}}})&={frac {1 }{N^{2}}}sum _{i=1}^{n}sum _{j=1}^{n}left({check {Delta}}_{ij}{ check {y}}_{i}{check {y}}_{j}right)\&={frac {1}{N^{2}}}sum _{i=1}^ {n}left({check {Delta }}_{ii}{check {y}}_{i}{check {y}}_{i}right)\&={frac {1}{N^{2}}}sum _{i=1}^{n}left((1-pi _{i}){frac {y_{i}}{pi _{ i}}}{frac {y_{i}}{pi _{i}}}right)\&={frac {1}{N^{2}}}sum _{i=1 }^{n}left(w_{i}y_{i}right)^{2}end{aligned}}} Variance de la Moyenne pondérée ( π -estimateur pour ratio-moyenne)
La section précédente traitait de l’estimation de la moyenne de la population en tant que rapport d’un total estimé de la population ( Y ^ {displaystyle {chapeau {Y}}} ) avec une taille de population connue ( N {displaystyle N} ), et la variance a été estimée dans ce contexte. Un autre cas courant est que la taille de la population elle-même ( N {displaystyle N} ) est inconnue et est estimée à partir de l’échantillon (c’est-à-dire : N ^ {displaystyle {chapeau {N}}} ). L’estimation de N {displaystyle N} peut être décrit comme la somme des poids. Donc quand w i = 1 π i {displaystyle w_{i}={frac {1}{pi _{i}}}} on a N ^ = ∑ i = 1 n w i I i = ∑ i = 1 n I i π i = ∑ i = 1 n 1 ˇ i ′ {displaystyle {hat {N}}=sum _{i=1}^{n}w_{i}I_{i}=sum _{i=1}^{n}{frac {I_{ i}}{pi _{i}}}=sum _{i=1}^{n}{check {1}}’_{i}} . Lorsque vous utilisez la notation des sections précédentes, le rapport qui nous intéresse est la somme de y i {displaystyle y_{i}} s, et 1s. C’est à dire: R = Y ̄ = ∑ i = 1 N y i π i ∑ i = 1 N 1 π i = ∑ i = 1 N y ˇ i ∑ i = 1 N 1 ˇ i = ∑ i = 1 N w i y i ∑ i = 1 N w i {displaystyle R={bar {Y}}={frac {sum _{i=1}^{N}{frac {y_{i}}{pi _{i}}}}{ somme _{i=1}^{N}{frac {1}{pi _{i}}}}}={frac {somme _{i=1}^{N}{vérifier {y }}_{i}}{sum _{i=1}^{N}{check {1}}_{i}}}={frac {sum _{i=1}^{N} w_{i}y_{i}}{sum _{i=1}^{N}w_{i}}}} . Nous pouvons l’estimer à l’aide de notre échantillon avec : R ^ = Y ̄ ^ = ∑ i = 1 N I i y i π i ∑ i = 1 N I i 1 π i = ∑ i = 1 N y ˇ i ′ ∑ i = 1 N 1 ˇ i ′ = ∑ i = 1 N w i y i ′ ∑ i = 1 N w i 1 i ′ = ∑ i = 1 n w i y i ′ ∑ i = 1 n w i 1 i ′ = y ̄ w {displaystyle {hat {R}}={hat {bar {Y}}}={frac {sum _{i=1}^{N}I_{i}{frac {y_{i }}{pi _{i}}}}{sum _{i=1}^{N}I_{i}{frac {1}{pi _{i}}}}}={frac {sum _{i=1}^{N}{check {y}}’_{i}}{sum _{i=1}^{N}{check {1}}’_{i }}}={frac {sum _{i=1}^{N}w_{i}y’_{i}}{sum _{i=1}^{N}w_{i}1′ _{i}}}={frac {sum _{i=1}^{n}w_{i}y’_{i}}{sum _{i=1}^{n}w_{i }1’_{i}}}={bar {y}}_{w}} . Au fur et à mesure que nous sommes passés de l’utilisation de N à l’utilisation de n, nous savons en fait que toutes les variables indicatrices obtiennent 1, nous pourrions donc simplement écrire : y ̄ w = ∑ i = 1 n w i y i ∑ i = 1 n w i {displaystyle {bar {y}}_{w}={frac {sum _{i=1}^{n}w_{i}y_{i}}{sum _{i=1}^ {n}w_{i}}}} . Ce sera l’ estimation pour des valeurs spécifiques de y et w, mais les propriétés statistiques viennent en incluant la variable indicatrice y ̄ w = ∑ i = 1 n w i y i ′ ∑ i = 1 n w i 1 i ′ {displaystyle {bar {y}}_{w}={frac {sum _{i=1}^{n}w_{i}y’_{i}}{sum _{i=1 }^{n}w_{i}1’_{i}}}} . [2] : 162, 163, 176
C’est ce qu’on appelle l’ estimateur de rapport et il est approximativement sans biais pour R . [2] : 182
Dans ce cas, la variabilité du rapport dépend de la variabilité des Variables aléatoires tant au numérateur qu’au dénominateur – ainsi que de leur corrélation. Puisqu’il n’y a pas de forme analytique fermée pour calculer cette variance, diverses méthodes sont utilisées pour l’estimation approximative. Principalement linéarisation de premier ordre de la série de Taylor , asymptotique et bootstrap/jackknife. [2] : 172 La méthode de linéarisation de Taylor pourrait conduire à une sous-estimation de la variance pour les petits échantillons en général, mais cela dépend de la complexité de la statistique. Pour la Moyenne pondérée, la variance approximative est supposée être relativement précise même pour des échantillons de taille moyenne. [2] : 176 Car lorsque l’échantillonnage a une taille d’échantillon aléatoire (comme dans l’échantillonnage de Poisson ), il est comme suit : [2] : 182
V ( y ̄ w ) ^ = 1 ( ∑ i = 1 n w i ) 2 ∑ i = 1 n w i 2 ( y i − y ̄ w ) 2 {displaystyle {widehat {V({bar {y}}_{w})}}={frac {1}{(sum _{i=1}^{n}w_{i})^ {2}}}sum _{i=1}^{n}w_{i}^{2}(y_{i}-{bar {y}}_{w})^{2}} .
Nous notons que si π i ≈ p i n {displaystyle pi _{i}environ p_{i}n} , puis soit en utilisant w i = 1 π i {displaystyle w_{i}={frac {1}{pi _{i}}}} ou alors w i = 1 p i {displaystyle w_{i}={frac {1}{p_{i}}}} donnerait le même estimateur, puisque multiplier w i {displaystyle w_{i}} par un certain facteur conduirait au même estimateur. Cela signifie également que si nous mettons à l’échelle la somme des poids pour qu’elle soit égale à une taille de population connue avant N , le calcul de la variance aurait le même aspect. Lorsque tous les poids sont égaux les uns aux autres, cette formule est réduite à l’estimateur de variance sans biais standard.
Preuve
La linéarisation de Taylor stipule que pour un estimateur par rapport général de deux sommes ( R ^ = Y ^ Z ^ {displaystyle {hat {R}}={frac {hat {Y}}{hat {Z}}}} ), elles peuvent être développées autour de la vraie valeur R, et donnent : [2] : 178
R ^ = Y ^ Z ^ = ∑ i = 1 n w i y i ′ ∑ i = 1 n w i z i ′ ≈ R + 1 Z ∑ i = 1 n ( y i ′ π i − R z i ′ π i ) {displaystyle {hat {R}}={frac {hat {Y}}{hat {Z}}}={frac {sum _{i=1}^{n}w_{i} y’_{i}}{sum _{i=1}^{n}w_{i}z’_{i}}}approx R+{frac {1}{Z}}sum _{i =1}^{n}left({frac {y’_{i}}{pi _{i}}}-R{frac {z’_{i}}{pi _{i} }}à droite)}
Et la variance peut être approchée par : [2] : 178, 179
V ( R ^ ) ^ = 1 Z ^ 2 ∑ i = 1 n ∑ j = 1 n ( Δ ˇ i j y i − R ^ z i π i y j − R ^ z j π j ) = 1 Z ^ 2 [ V ( Y ^ ) ^ + R ^ V ( Z ^ ) ^ − 2 R ^ C ^ ( Y ^ , Z ^ ) ] {displaystyle {widehat {V({hat {R}})}}={frac {1}{{hat {Z}}^{2}}}sum _{i=1}^{ n}sum _{j=1}^{n}left({check {Delta}}_{ij}{frac {y_{i}-{hat {R}}z_{i}} {pi _{i}}}{frac {y_{j}-{hat {R}}z_{j}}{pi _{j}}}right)={frac {1}{ {hat {Z}}^{2}}}left[{widehat {V({hat {Y}})}}+{hat {R}}{widehat {V({hat { Z}})}}-2{chapeau {R}}{chapeau {C}}({chapeau {Y}},{chapeau {Z}})droite]} .
Le terme C ^ ( Y ^ , Z ^ ) {displaystyle {chapeau {C}}({chapeau {Y}},{chapeau {Z}})} est la covariance estimée entre la somme estimée de Y et la somme estimée de Z. Puisqu’il s’agit de la covariance de deux sommes de Variables aléatoires , elle comprendrait de nombreuses combinaisons de covariances qui dépendront des variables indicatrices. Si les probabilités de sélection ne sont pas corrélées (c’est-à-dire : ∀ i ≠ j : Δ i j = C ( I i , I j ) = 0 {displaystyle forall ineq j:Delta _{ij}=C(I_{i},I_{j})=0} ), ce terme inclurait encore une sommation de n covariances pour chaque élément i entre y i ′ = I i y i {displaystyle y’_{i}=I_{i}y_{i}} et z i ′ = I i z i {displaystyle z’_{i}=I_{i}z_{i}} . Cela permet d’illustrer que cette formule intègre l’effet de la corrélation entre y et z sur la variance des estimateurs par rapport.
Lors de la définition z i = 1 {displaystyle z_{i}=1} ce qui précède devient : [2] : 182
V ( R ^ ) ^ = V ( y ̄ w ) ^ = 1 N ^ 2 ∑ i = 1 n ∑ j = 1 n ( Δ ˇ i j y i − y ̄ w π i y j − y ̄ w π j ) . {displaystyle {widehat {V({hat {R}})}}={widehat {V({bar {y}}_{w})}}={frac {1}{{ chapeau {N}}^{2}}}sum _{i=1}^{n}sum _{j=1}^{n}left({check {Delta}}_{ij} {frac {y_{i}-{bar {y}}_{w}}{pi _{i}}}{frac {y_{j}-{bar {y}}_{w} }{pi _{j}}}right).}
Si les probabilités de sélection ne sont pas corrélées (c’est-à-dire : ∀ i ≠ j : Δ i j = C ( I i , I j ) = 0 {displaystyle forall ineq j:Delta _{ij}=C(I_{i},I_{j})=0} ), et en supposant que la probabilité de chaque élément est très faible (c’est-à-dire : ( 1 − π i ) ≈ 0 {displaystyle (1-pi _{i})environ 0} ), puis ce qui précède réduit à ce qui suit :
V ( y ̄ w ) ^ = 1 N ^ 2 ∑ i = 1 n ( ( 1 − π i ) y i − y ̄ w π i ) 2 = 1 ( ∑ i = 1 n w i ) 2 ∑ i = 1 n w i 2 ( y i − y ̄ w ) 2 . {displaystyle {widehat {V({bar {y}}_{w})}}={frac {1}{{hat {N}}^{2}}}sum _{i= 1}^{n}left((1-pi _{i}){frac {y_{i}-{bar {y}}_{w}}{pi _{i}}} droite)^{2}={frac {1}{(sum _{i=1}^{n}w_{i})^{2}}}sum _{i=1}^{n} w_{i}^{2}(y_{i}-{bar {y}}_{w})^{2}.}
Une recréation similaire de la preuve (avec quelques erreurs à la fin) a été fournie par Thomas Lumley en validation croisée. [3]
Nous avons (au moins) deux versions de la variance pour la Moyenne pondérée : une avec une estimation connue et une avec une estimation inconnue de la taille de la population. Il n’y a pas d’approche uniformément meilleure, mais la littérature présente plusieurs arguments pour préférer utiliser la version d’estimation de la population (même lorsque la taille de la population est connue). [2] : 188 Par exemple : si toutes les valeurs de y sont constantes, l’estimateur avec une taille de population inconnue donnera le bon résultat, tandis que celui avec une taille de population connue aura une certaine variabilité. De même, lorsque la taille de l’échantillon elle-même est aléatoire (par exemple : dans l’échantillonnage de Poisson), la version avec une moyenne de population inconnue est considérée comme plus stable. Enfin, si la proportion d’échantillonnage est négativement corrélée avec les valeurs (c’est-à-dire : plus petite chance d’échantillonner une observation qui est grande), alors la version de taille de population inconnue compense légèrement cela.
Validation d’amorçage
Il a été montré, par Gatz et al. (1995), que par rapport aux méthodes d’ amorçage , ce qui suit (estimation de la variance de la moyenne du rapport à l’aide de la linéarisation de la série de Taylor ) est une estimation raisonnable du carré de l’erreur type de la moyenne (lorsqu’elle est utilisée dans le contexte de la mesure des constituants chimiques) : [4] : 1186
σ x ̄ w 2 ^ = n ( n − 1 ) ( n w ̄ ) 2 [ ∑ ( w i x i − w ̄ x ̄ w ) 2 − 2 x ̄ w ∑ ( w i − w ̄ ) ( w i x i − w ̄ x ̄ w ) + x ̄ w 2 ∑ ( w i − w ̄ ) 2 ] {displaystyle {widehat {sigma _{{bar {x}}_{w}}^{2}}}={frac {n}{(n-1)(n{bar {w} })^{2}}}left[sum (w_{i}x_{i}-{bar {w}}{bar {x}}_{w})^{2}-2{ barre {x}}_{w}sum (w_{i}-{bar {w}})(w_{i}x_{i}-{bar {w}}{bar {x}}_ {w})+{bar {x}}_{w}^{2}sum (w_{i}-{bar {w}})^{2}right]}
où w ̄ = ∑ w i n {displaystyle {bar {w}}={frac {sum w_{i}}{n}}} . Une simplification supplémentaire conduit à
σ x ̄ 2 ^ = n ( n − 1 ) ( n w ̄ ) 2 ∑ w i 2 ( x i − x ̄ w ) 2 {displaystyle {widehat {sigma _{bar {x}}^{2}}}={frac {n}{(n-1)(n{bar {w}})^{2} }}sum w_{i}^{2}(x_{i}-{bar {x}}_{w})^{2}}
Gatz et al. mentionner que la formulation ci-dessus a été publiée par Endlich et al. (1988) en traitant la Moyenne pondérée comme une combinaison d’un estimateur total pondéré divisé par un estimateur de la taille de la population, [5] basé sur la formulation publiée par Cochran (1977), comme une approximation de la moyenne du rapport. Cependant, Endlich et al. n’ont pas semblé publier cette dérivation dans leur article (même s’ils mentionnent qu’ils l’ont utilisée), et le livre de Cochran inclut une formulation légèrement différente. [1] : 155 Pourtant, c’est presque identique aux formulations décrites dans les sections précédentes.
Estimateurs basés sur la réplication
Puisqu’il n’y a pas de forme analytique fermée pour la variance de la Moyenne pondérée, il a été proposé dans la littérature de s’appuyer sur des méthodes de réplication telles que le Jackknife et le Bootstrapping . [1] : 321
Autres notes
Pour les observations non corrélées avec des variances σ i 2 {displaystyle sigma _{i}^{2}} , la variance de la Moyenne pondérée de l’échantillon est [ citation nécessaire ]
σ x ̄ 2 = ∑ i = 1 n w i ′ 2 σ i 2 {displaystyle sigma _{bar {x}}^{2}=sum _{i=1}^{n}{w_{i}’^{2}sigma _{i}^{2} }}
dont la racine carrée σ x ̄ {displaystyle sigma _{bar {x}}} peut être appelée l’ erreur type de la Moyenne pondérée (cas général) . [ citation nécessaire ]
Par conséquent, si toutes les observations ont la même variance, σ i 2 = σ 0 2 {displaystyle sigma _{i}^{2}=sigma _{0}^{2}} , la Moyenne pondérée de l’échantillon aura une variance
σ x ̄ 2 = σ 0 2 ∑ i = 1 n w i ′ 2 , {displaystyle sigma _{bar {x}}^{2}=sigma _{0}^{2}sum _{i=1}^{n}{w_{i}’^{2} },}
où 1 / n ≤ ∑ i = 1 n w i ′ 2 ≤ 1 {textstyle 1/nleq sum _{i=1}^{n}{w_{i}’^{2}}leq 1} . La variance atteint sa valeur maximale, σ 0 2 {displaystyle sigma _{0}^{2}} , lorsque tous les poids sauf un sont nuls. Sa valeur minimale est trouvée lorsque tous les poids sont égaux (c’est-à-dire moyenne non pondérée), auquel cas nous avons σ x ̄ = σ 0 / n {textstyle sigma _{bar {x}}=sigma _{0}/{sqrt {n}}} , c’est-à-dire qu’il dégénère en Erreur standard de la moyenne , au carré.
Notez que comme on peut toujours transformer des poids non normalisés en poids normalisés, toutes les formules de cette section peuvent être adaptées aux poids non normalisés en remplaçant tous w i ′ = w i ∑ i = 1 n w i {displaystyle w_{i}’={frac {w_{i}}{sum _{i=1}^{n}{w_{i}}}}} .
Notions connexes
Écart d’échantillon pondéré
Généralement, lorsqu’une moyenne est calculée, il est important de connaître la variance et l’écart type de cette moyenne. Lorsqu’une Moyenne pondérée μ ∗ {displaystylemu ^{*}} est utilisé, la variance de l’échantillon pondéré est différente de la variance de l’échantillon non pondéré.
La variance d’échantillon pondérée biaisée σ ^ w 2 {displaystyle {hat {sigma}}_{mathrm {w}}^{2}} est défini de la même manière que la variance de l’échantillon biaisé normal σ ^ 2 {displaystyle {chapeau {sigma}}^{2}} :
σ ^ 2 = ∑ i = 1 N ( x i − μ ) 2 N σ ^ w 2 = ∑ i = 1 N w i ( x i − μ ∗ ) 2 ∑ i = 1 N w i {displaystyle {begin{aligned}{hat {sigma}}^{2} &={frac {sum limits _{i=1}^{N}left(x_{i}- mu right)^{2}}{N}}\{hat {sigma }}_{mathrm {w} }^{2}&={frac {sum limits _{i= 1}^{N}w_{i}left(x_{i}-mu ^{*}right)^{2}}{sum _{i=1}^{N}w_{i}} }end{aligné}}}
où ∑ i = 1 N w i = 1 {displaystyle sum _{i=1}^{N}w_{i}=1} pour les poids normalisés. Si les poids sont des poids de fréquence (et sont donc des Variables aléatoires), on peut montrer [ citation nécessaire ] que σ ^ w 2 {displaystyle {hat {sigma}}_{mathrm {w}}^{2}} est l’Estimateur du maximum de vraisemblance de σ 2 {displaystyle sigma ^{2}} pour iid observations gaussiennes.
Pour les petits échantillons, il est d’usage d’utiliser un Estimateur sans biais pour la variance de la population. Dans les échantillons normaux non pondérés, le N au dénominateur (correspondant à la taille de l’échantillon) est remplacé par N – 1 (voir la correction de Bessel ). Dans le cadre pondéré, il existe en fait deux estimateurs sans biais différents, un pour le cas des pondérations de fréquence et un autre pour le cas des pondérations de fiabilité .
Pondérations de fréquence
Si les pondérations sont des pondérations de fréquence (où une pondération est égale au nombre d’occurrences), alors l’Estimateur sans biais est :
s 2 = ∑ i = 1 N w i ( x i − μ ∗ ) 2 ∑ i = 1 N w i − 1 {displaystyle s^{2} ={frac {sum limits _{i=1}^{N}w_{i}left(x_{i}-mu ^{*}right)^ {2}}{somme _{i=1}^{N}w_{i}-1}}}
Cela applique effectivement la correction de Bessel pour les pondérations fréquentielles.
Par exemple, si les valeurs { 2 , 2 , 4 , 5 , 5 , 5 } {style d’affichage {2,2,4,5,5,5}} sont tirés de la même distribution, alors nous pouvons traiter cet ensemble comme un échantillon non pondéré, ou nous pouvons le traiter comme l’échantillon pondéré { 2 , 4 , 5 } {displaystyle{2,4,5}} avec les poids correspondants { 2 , 1 , 3 } {style d’affichage {2,1,3}} , et nous obtenons le même résultat dans les deux cas.
Si la fréquence pèse { w i } {displaystyle {w_{i}}} sont normalisés à 1, alors l’expression correcte après la correction de Bessel devient
s 2 = ∑ i = 1 N w i ∑ i = 1 N w i − 1 ∑ i = 1 N w i ( x i − μ ∗ ) 2 {displaystyle s^{2} ={frac {sum _{i=1}^{N}w_{i}}{sum _{i=1}^{N}w_{i}-1 }}sum _{i=1}^{N}w_{i}left(x_{i}-mu ^{*}right)^{2}}
où le nombre total d’échantillons est ∑ i = 1 N w i {displaystyle sum _{i=1}^{N}w_{i}} (ne pas N {displaystyle N} ). Dans tous les cas, l’information sur le nombre total d’échantillons est nécessaire pour obtenir une correction impartiale, même si w i {displaystyle w_{i}} a une signification différente autre que le poids fréquentiel.
Notez que l’estimateur ne peut être sans biais que si les poids ne sont ni standardisés ni normalisés , ces processus modifiant la moyenne et la variance des données et entraînant ainsi une perte du taux de base (le dénombrement de la population, qui est une exigence pour la correction de Bessel).
Pondérations de fiabilité
Si les pondérations sont plutôt non aléatoires ( pondérations de fiabilité [ définition nécessaire ] ), nous pouvons déterminer un facteur de correction pour produire un Estimateur sans biais. En supposant que chaque variable aléatoire est échantillonnée à partir de la même distribution avec une moyenne μ {displaystylemu} et écart réel σ actual 2 {displaystyle sigma _{text{réel}}^{2}} , compte tenu des attentes que nous avons,
E [ σ ^ 2 ] = ∑ i = 1 N E [ ( x i − μ ) 2 ] N = E [ ( X − E [ X ] ) 2 ] − 1 N E [ ( X − E [ X ] ) 2 ] = ( N − 1 N ) σ actual 2 E [ σ ^ w 2 ] = ∑ i = 1 N w i E [ ( x i − μ ∗ ) 2 ] V 1 = E [ ( X − E [ X ] ) 2 ] − V 2 V 1 2 E [ ( X − E [ X ] ) 2 ] = ( 1 − V 2 V 1 2 ) σ actual 2 {displaystyle {begin{aligned}operatorname {E} [{hat {sigma}}^{2}]&={frac {sum limits _{i=1}^{N}operatorname {E} [(x_{i}-mu )^{2}]}{N}}\&=nomopérateur {E} [(X-nomopérateur{E} [X])^{2}] -{frac {1}{N}}operatorname {E} [(X-operatorname {E} [X])^{2}]\&=left({frac {N-1}{ N}}right)sigma _{text{réel}}^{2}\operatorname {E} [{hat {sigma }}_{mathrm {w} }^{2}]& ={frac {sum limits _{i=1}^{N}w_{i}operatorname {E} [(x_{i}-mu ^{*})^{2}]}{V_ {1}}}\&=nomopérateur{E} [(X-nomopérateur{E} [X])^{2}]-{frac {V_{2}}{V_{1}^{2 }}}nomopérateur {E} [(X-nomopérateur{E} [X])^{2}]\&=left(1-{frac {V_{2}}{V_{1}^ {2}}}right)sigma _{text{réel}}^{2}end{aligned}}}
où V 1 = ∑ i = 1 N w i {displaystyle V_{1}=sum _{i=1}^{N}w_{i}} et V 2 = ∑ i = 1 N w i 2 {displaystyle V_{2}=sum _{i=1}^{N}w_{i}^{2}} . Par conséquent, le biais de notre estimateur est ( 1 − V 2 V 1 2 ) {displaystyle left(1-{frac {V_{2}}{V_{1}^{2}}}right)} , analogue à la ( N − 1 N ) {displaystyle left({frac {N-1}{N}}right)} biais dans l’estimateur non pondéré (notez également que V 1 2 / V 2 = N e f f {displaystyle V_{1}^{2}/V_{2}=N_{eff}} est la taille effective de l’échantillon ). Cela signifie que pour ne pas biaiser notre estimateur, nous devons pré-diviser par 1 − ( V 2 / V 1 2 ) {displaystyle 1-left(V_{2}/V_{1}^{2}right)} , garantissant que la valeur attendue de la variance estimée est égale à la variance réelle de la distribution d’échantillonnage.
L’estimation finale non biaisée de la variance de l’échantillon est :
s w 2 = σ ^ w 2 1 − ( V 2 / V 1 2 ) = ∑ i = 1 N w i ( x i − μ ∗ ) 2 V 1 − ( V 2 / V 1 ) , {displaystyle {begin{aligned}s_{mathrm {w} }^{2} &={frac {{hat {sigma }}_{mathrm {w} }^{2}}{ 1-(V_{2}/V_{1}^{2})}}\[4pt]&={frac {sum limits _{i=1}^{N}w_{i}(x_ {i}-mu ^{*})^{2}}{V_{1}-(V_{2}/V_{1})}},end{aligned}}} [6]
où E [ s w 2 ] = σ actual 2 {displaystyle operatorname {E} [s_{mathrm {w}}^{2}]=sigma _{text{réel}}^{2}} .
Les degrés de liberté de la variance pondérée et non biaisée de l’échantillon varient en conséquence de N – 1 à 0.
L’écart type est simplement la racine carrée de la variance ci-dessus.
En remarque, d’autres approches ont été décrites pour calculer la variance pondérée de l’échantillon. [7]
Covariance de l’échantillon pondéré
Dans un échantillon pondéré, chaque vecteur ligne x i {displaystyle mathbf {x} _{i}} (chaque ensemble d’observations uniques sur chacune des K Variables aléatoires) se voit attribuer un poids w i ≥ 0 {displaystyle w_{i}geq 0} .
Alors le vecteur moyen pondéré μ ∗ {displaystyle mathbf {mu ^{*}} } est donné par
μ ∗ = ∑ i = 1 N w i x i ∑ i = 1 N w i . {displaystyle mathbf {mu ^{*}} ={frac {sum _{i=1}^{N}w_{i}mathbf {x} _{i}}{sum _{i =1}^{N}w_{i}}}.}
Et la matrice de covariance pondérée est donnée par : [8]
C = ∑ i = 1 N w i ( x i − μ ∗ ) T ( x i − μ ∗ ) V 1 . {displaystyle mathbf {C} ={frac {sum _{i=1}^{N}w_{i}left(mathbf {x} _{i}-mu ^{*}right )^{T}left(mathbf {x} _{i}-mu ^{*}right)}{V_{1}}}.}
Comme pour la variance d’échantillon pondérée, il existe deux estimateurs sans biais différents selon le type de poids.
Pondérations de fréquence
Si les pondérations sont des pondérations fréquentielles , l’ estimation pondérée sans biais de la matrice de covariance C {displaystyle textstyle mathbf {C} } , avec la correction de Bessel, est donnée par : [8]
C = ∑ i = 1 N w i ( x i − μ ∗ ) T ( x i − μ ∗ ) V 1 − 1 . {displaystyle mathbf {C} ={frac {sum _{i=1}^{N}w_{i}left(mathbf {x} _{i}-mu ^{*}right )^{T}left(mathbf {x} _{i}-mu ^{*}right)}{V_{1}-1}}.}
Notez que cet estimateur ne peut être sans biais que si les poids ne sont ni standardisés ni normalisés , ces processus modifiant la moyenne et la variance des données et entraînant ainsi une perte du taux de base (le dénombrement de la population, qui est une exigence pour la correction de Bessel).
Pondérations de fiabilité
Dans le cas des poids de fiabilité , les poids sont normalisés :
V 1 = ∑ i = 1 N w i = 1. {displaystyle V_{1}=sum _{i=1}^{N}w_{i}=1.}
(Si ce n’est pas le cas, divisez les poids par leur somme pour normaliser avant de calculer V 1 {displaystyle V_{1}} :
w i ′ = w i ∑ i = 1 N w i {displaystyle w_{i}’={frac {w_{i}}{sum _{i=1}^{N}w_{i}}}}
Alors le vecteur moyen pondéré μ ∗ {displaystyle mathbf {mu ^{*}} } peut être simplifié en
μ ∗ = ∑ i = 1 N w i x i . {displaystyle mathbf {mu ^{*}} =sum _{i=1}^{N}w_{i}mathbf {x} _{i}.}
et l’ estimation pondérée sans biais de la matrice de covariance C {displaystyle mathbf {C} } est : [9]
C = ∑ i = 1 N w i ( ∑ i = 1 N w i ) 2 − ∑ i = 1 N w i 2 ∑ i = 1 N w i ( x i − μ ∗ ) T ( x i − μ ∗ ) = ∑ i = 1 N w i ( x i − μ ∗ ) T ( x i − μ ∗ ) V 1 − ( V 2 / V 1 ) . {displaystyle {begin{aligned}mathbf {C} &={frac {sum _{i=1}^{N}w_{i}}{left(sum _{i=1}^ {N}w_{i}right)^{2}-sum _{i=1}^{N}w_{i}^{2}}}sum _{i=1}^{N}w_ {i}left(mathbf {x} _{i}-mu ^{*}right)^{T}left(mathbf {x} _{i}-mu ^{*}right )\&={frac {sum _{i=1}^{N}w_{i}left(mathbf {x} _{i}-mu ^{*}right)^{T }left(mathbf {x} _{i}-mu ^{*}right)}{V_{1}-(V_{2}/V_{1})}}.end{aligned}} }
Le raisonnement ici est le même que dans la section précédente.
Puisque nous supposons que les poids sont normalisés, alors V 1 = 1 {displaystyle V_{1}=1} et cela se réduit à :
C = ∑ i = 1 N w i ( x i − μ ∗ ) T ( x i − μ ∗ ) 1 − V 2 . {displaystyle mathbf {C} ={frac {sum _{i=1}^{N}w_{i}left(mathbf {x} _{i}-mu ^{*}right )^{T}left(mathbf {x} _{i}-mu ^{*}right)}{1-V_{2}}}.}
Si tous les poids sont égaux, c’est-à-dire w i / V 1 = 1 / N {displaystyle w_{i}/V_{1}=1/N} , la Moyenne pondérée et la covariance se réduisent à la moyenne et à la covariance non pondérées de l’échantillon ci-dessus.
Estimations vectorielles
Ce qui précède se généralise facilement au cas où l’on prend la moyenne d’estimations vectorielles. Par exemple, les estimations de position sur un plan peuvent avoir moins de certitude dans une direction que dans une autre. Comme dans le cas scalaire, la Moyenne pondérée de plusieurs estimations peut fournir une estimation du maximum de vraisemblance . On remplace simplement la variance σ 2 {displaystyle sigma ^{2}} par la matrice de covariance C {displaystyle mathbf {C} } et l’ Inverse arithmétique par l’inverse de la matrice (tous deux notés de la même manière, via des exposants) ; la matrice des poids s’écrit alors : [10]
W i = C i − 1 . {displaystyle mathbf {W} _{i}=mathbf {C} _{i}^{-1}.}
La Moyenne pondérée dans ce cas est :
x ̄ = C x ̄ ( ∑ i = 1 n W i x i ) , {displaystyle {bar {mathbf {x} }}=mathbf {C} _{bar {mathbf {x} }}left(sum _{i=1}^{n}mathbf { W} _{i}mathbf {x} _{i}right),} (où l’ordre du Produit matrice-vecteur n’est pas Commutatif ), en termes de covariance de la Moyenne pondérée : C x ̄ = ( ∑ i = 1 n W i ) − 1 , {displaystyle mathbf {C} _{bar {mathbf {x}}}=left(sum _{i=1}^{n}mathbf {W} _{i}right)^{ -1},}
Par exemple, considérons la Moyenne pondérée du point [1 0] avec une forte variance dans la deuxième composante et [0 1] avec une forte variance dans la première composante. Puis
x 1 := [ 1 0 ] ⊤ , C 1 := [ 1 0 0 100 ] {displaystyle mathbf {x} _{1} :={begin{bmatrix}1&0end{bmatrix}}^{top },qquad mathbf {C} _{1} :={begin{ bmatrice}1&0\0&100end{bmatrice}}} x 2 := [ 0 1 ] ⊤ , C 2 := [ 100 0 0 1 ] {displaystyle mathbf {x} _{2} :={begin{bmatrix}0&1end{bmatrix}}^{top },qquad mathbf {C} _{2} :={begin{ bmatrice}100&0\0&1end{bmatrice}}}
alors la Moyenne pondérée est :
x ̄ = ( C 1 − 1 + C 2 − 1 ) − 1 ( C 1 − 1 x 1 + C 2 − 1 x 2 ) = [ 0.9901 0 0 0.9901 ] [ 1 1 ] = [ 0.9901 0.9901 ] {displaystyle {begin{aligned}{bar {mathbf {x} }}&=left(mathbf {C} _{1}^{-1}+mathbf {C} _{2}^ {-1}right)^{-1}left(mathbf {C} _{1}^{-1}mathbf {x} _{1}+mathbf {C} _{2}^{ -1}mathbf {x} _{2}right)\[5pt]&={begin{bmatrix}0.9901&0\0&0.9901end{bmatrix}}{begin{bmatrix}1\ 1end{bmatrix}}={begin{bmatrix}0.9901\0.9901end{bmatrix}}end{aligned}}}
ce qui est logique : l’estimation [1 0] est “conforme” dans la deuxième composante et l’estimation [0 1] est conforme dans la première composante, donc la Moyenne pondérée est proche de [1 1].
Prise en compte des corrélations
Dans le cas général, supposons que X = [ x 1 , … , x n ] T {displaystyle mathbf {X} =[x_{1},dots ,x_{n}]^{T}} , C {displaystyle mathbf {C} } est la matrice de covariance reliant les quantités x i {displaystyle x_{i}} , x ̄ {displaystyle {bar {x}}} est la moyenne commune à estimer, et J {displaystyle mathbf {J} } est une matrice de conception égale à un vecteur de uns [ 1 , … , 1 ] T {displaystyle [1,dots ,1]^{T}} (de longueur n {displaystyle n} ). Le théorème de Gauss-Markov stipule que l’estimation de la moyenne ayant une variance minimale est donnée par :
σ x ̄ 2 = ( J T W J ) − 1 , {displaystyle sigma _{bar {x}}^{2}=(mathbf {J} ^{T}mathbf {W} mathbf {J} )^{-1},}
et
x ̄ = σ x ̄ 2 ( J T W X ) , {displaystyle {bar {x}}=sigma _{bar {x}}^{2}(mathbf {J} ^{T}mathbf {W} mathbf {X}),}
où:
W = C − 1 . {displaystyle mathbf {W} =mathbf {C} ^{-1}.}
Diminution de la force des interactions
Considérons la série temporelle d’une variable indépendante x {style d’affichage x} et une variable dépendante y {displaystyle y} , avec n {displaystyle n} observations échantillonnées à des moments discrets t i {displaystyle t_{i}} . Dans de nombreuses situations courantes, la valeur de y {displaystyle y} au moment t i {displaystyle t_{i}} dépend non seulement de x i {displaystyle x_{i}} mais aussi sur ses valeurs passées. Généralement, la force de cette dépendance diminue à mesure que la séparation des observations dans le temps augmente. Pour modéliser cette situation, on peut remplacer la variable indépendante par sa moyenne glissante z {displaystyle z} pour une taille de fenêtre m {displaystyle m} .
z k = ∑ i = 1 m w i x k + 1 − i . {displaystyle z_{k}=sum _{i=1}^{m}w_{i}x_{k+1-i}.}
Poids décroissants de façon exponentielle
Dans le scénario décrit dans la section précédente, le plus souvent la diminution de la force d’interaction obéit à une loi exponentielle négative. Si les observations sont échantillonnées à des moments équidistants, alors une diminution exponentielle équivaut à une diminution d’une fraction constante 0 < Δ < 1 {displaystyle 0<Delta <1} à chaque pas de temps. Paramètre w = 1 − Δ {displaystyle w=1-Delta} nous pouvons définir m {displaystyle m} poids normalisés par
w i = w i − 1 V 1 , {displaystyle w_{i}={frac {w^{i-1}}{V_{1}}},}
où V 1 {displaystyle V_{1}} est la somme des poids non normalisés. Dans ce cas V 1 {displaystyle V_{1}} est simplement
V 1 = ∑ i = 1 m w i − 1 = 1 − w m 1 − w , {displaystyle V_{1}=sum _{i=1}^{m}{w^{i-1}}={frac {1-w^{m}}{1-w}},}
approchant V 1 = 1 / ( 1 − w ) {displaystyle V_{1}=1/(1-w)} pour les grandes valeurs de m {displaystyle m} .
La constante d’amortissement w {displaystyle w} doit correspondre à la diminution réelle de la force d’interaction. Si cela ne peut pas être déterminé à partir de considérations théoriques, alors les propriétés suivantes des poids décroissants de manière exponentielle sont utiles pour faire un choix approprié : à l’étape ( 1 − w ) − 1 {displaystyle (1-w)^{-1}} , le poids est approximativement égal à e − 1 ( 1 − w ) = 0.39 ( 1 − w ) {displaystyle {e^{-1}}(1-w)=0.39(1-w)} , la zone de queue la valeur e − 1 {displaystyle f^{-1}} , la zone de la tête 1 − e − 1 = 0.61 {displaystyle {1-e^{-1}}=0.61} . La zone de la queue à l’étape n {displaystyle n} est ≤ e − n ( 1 − w ) {displaystyle leq {e^{-n(1-w)}}} . Où principalement le plus proche n {displaystyle n} les observations sont importantes et l’effet des observations restantes peut être ignoré en toute sécurité, alors choisissez w {displaystyle w} telle que la zone de la queue soit suffisamment petite.
Moyennes pondérées des fonctions
Le concept de Moyenne pondérée peut être étendu aux fonctions. [11] Les moyennes pondérées des fonctions jouent un rôle important dans les systèmes de calcul différentiel et intégral pondéré. [12]
Correction de sur- ou sous-dispersion
Les moyennes pondérées sont généralement utilisées pour trouver la Moyenne pondérée des données historiques, plutôt que des données générées théoriquement. Dans ce cas, il y aura une erreur dans la variance de chaque point de données. En règle générale, les erreurs expérimentales peuvent être sous-estimées car l’expérimentateur ne prend pas en compte toutes les sources d’erreur dans le calcul de la variance de chaque point de données. Dans ce cas, la variance de la Moyenne pondérée doit être corrigée pour tenir compte du fait que χ 2 {displaystyle chi ^{2}} est trop grand. La correction à apporter est
σ ^ x ̄ 2 = σ x ̄ 2 χ ν 2 {displaystyle {hat {sigma }}_{bar {x}}^{2}=sigma _{bar {x}}^{2}chi _{nu }^{2}}
où χ ν 2 {displaystyle chi _{nu }^{2}} est le chi carré réduit :
χ ν 2 = 1 ( n − 1 ) ∑ i = 1 n ( x i − x ̄ ) 2 σ i 2 ; {displaystyle chi _{nu }^{2}={frac {1}{(n-1)}}sum _{i=1}^{n}{frac {(x_{i} -{bar {x}})^{2}}{sigma _{i}^{2}}} ;}
La racine carrée σ ^ x ̄ {displaystyle {hat {sigma}}_{bar {x}}} peut être appelé l’ erreur type de la Moyenne pondérée (pondérations de la variance, échelle corrigée) .
Lorsque toutes les variances de données sont égales, σ i = σ 0 {displaystyle sigma _{i}=sigma _{0}} , ils s’annulent dans la variance Moyenne pondérée, σ x ̄ 2 {displaystyle sigma _{bar {x}}^{2}} , qui se réduit à nouveau à l’ erreur type de la moyenne (au carré), σ x ̄ 2 = σ 2 / n {displaystyle sigma _{bar {x}}^{2}=sigma ^{2}/n} , formulé en fonction de l’ Écart-type de l’échantillon (au carré),
σ 2 = ∑ i = 1 n ( x i − x ̄ ) 2 n − 1 . {displaystyle sigma ^{2}={frac {sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}}{n-1} }.}
Voir également
- Moyen
- Tendance centrale
- Moyenne
- Écart-type
- Statistiques récapitulatives
- Fonction poids
- Coût moyen pondéré du capital
- Moyenne géométrique pondérée
- Moyenne harmonique pondérée
- Moindres carrés pondérés
- Médiane pondérée
- Pondération
- Erreur type d’une estimation de proportion lors de l’utilisation de données pondérées
- Estimateur de ratio
Références
- ^ un bcd Cochran , WG (1977). Techniques d’échantillonnage (3e éd.). Nashville, Tennessee : John Wiley & Sons. ISBN 978-0-471-16240-7
- ^ un bcdefghijklmnopq Carl – Erik Sarndal , Bengt Swensson , Jan Wretman ( 1992 ) . _ _ Échantillonnage d’enquête assisté par modèle . ISBN 9780387975283.{{cite book}}: CS1 maint: uses authors parameter (link)
- ^ Thomas Lumley ( https://stats.stackexchange.com/users/249135/thomas-lumley ), Comment estimer la variance (approximative) de la Moyenne pondérée ?, URL (version : 2021-06-08) : https : //stats.stackexchange.com/q/525770
- ^ Gatz, Donald F.; Smith, Luther (juin 1995). “L’erreur standard d’une concentration Moyenne pondérée – I. Bootstrapping vs autres méthodes”. Environnement atmosphérique . 29 (11): 1185–1193. Bibcode : 1995AtmEn..29.1185G . doi : 10.1016/1352-2310(94)00210-C . – lien pdf
- ^ Endlich, RM, et al. “Analyse statistique des mesures de la chimie des précipitations dans l’est des États-Unis. Partie I : modèles et corrélations saisonniers et régionaux.” Journal of Applied Meteorology (1988-2005) (1988): 1322-1333. (pdf)
- ^ “Bibliothèque scientifique GNU – Manuel de référence : Échantillons pondérés” . Gnu.org . Récupéré le 22 décembre 2017 .
- ^ “Erreur standard pondérée et son impact sur les tests de signification (WinCross vs Quantum & SPSS), Dr Albert Madansky” (PDF) . Analyticalgroup.com . Récupéré le 22 décembre 2017 .
- ^ un prix b , George R. (avril 1972). “Extension des mathématiques de sélection de covariance” (PDF) . Annales de génétique humaine . 35 (4): 485–490. doi : 10.1111/j.1469-1809.1957.tb01874.x . PMID 5073694 . S2CID 37828617 .
- ^ Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth et Fabrice Rossi. Bibliothèque scientifique GNU – Manuel de référence, Version 1.15 , 2011. Sec. 21.7 Échantillons pondérés
- ^ James, Frédéric (2006). Méthodes statistiques en physique expérimentale (2e éd.). Singapour : World Scientific. p. 324.ISBN _ 981-270-527-9.
- ^ GH Hardy, JE Littlewood et G. Pólya. Inégalités (2e éd.), Cambridge University Press, ISBN 978-0-521-35880-4 , 1988.
- ^ Jane Grossman, Michael Grossman, Robert Katz. Les premiers systèmes de calcul différentiel et intégral pondérés , ISBN 0-9771170-1-4 , 1980.
Lectures complémentaires
- Bevington, Philip R (1969). Réduction des données et analyse des erreurs pour les sciences physiques . New York, NY : McGraw-Hill. OCLC 300283069 .
- En ligneStrutz, T. (2010). Ajustement des données et incertitude (une introduction pratique aux moindres carrés pondérés et au-delà) . Vieweg+Teubner. ISBN 978-3-8348-1022-9.
Liens externes
- David Ter. “Moyenne pondérée” . MathWorld .
- Outil pour calculer la Moyenne pondérée