Module 105:

Pourquoi estimer des paramètres plutôt que les mesurer :

Dans la plupart des situations concrètes où l'application des biostatistiques est nécessaire, il est rare que les données de la population concernée par l'étude soient connues, ni même mesurables avec exactitude, pour toute une série de raisons déjà abordées au module 10.

Il est cependant des situations où il est nécessaire de connaître les paramètres caractérisant la population dont sont issues les données observées.
Lorsque ceux-ci sont incalculables, la seule alternative est de les obtenir par estimation à partir des données observées.

Précision de l'estimation : intervalle de confiance

Un paramètre estimé n'a cependant aucune valeur si la précision de l'estimation réalisée n'est pas connue. Ceci peut être réalisé:

soit en calculant l'erreur standard;
soit en déterminant, autour de la valeur estimée, un intervalle dont on a de bonnes raisons de croire qu'il contient la "vraie" valeur du paramètre recherché : un intervalle de confiance.

Exemple :

Imaginons que nous avons estimé la moyenne d'une population comme étant égale à 25 cm, et que son intervalle de confiance à 95% aille de 20 à 30 cm.
Cela signifie qu'il y a 95% de chance que la vraie valeur de la moyenne de la population soit comprise entre 20 et 30 cm, et que sa valeur la plus probable (sur base des données expérimentales observées) est 25 cm.

Intervalle de confiance et risque d'erreur :

Pour définir cet intervalle de confiance, nous devons d'abord déterminer quels sont les risques d'erreurs que nous pourrions accepter.
Classiquement ce risque d'erreur (alpha : α) est fixé arbitrairement et a pour valeurs possibles : 5%, 1% ou 0,1%.
Les confiances généralement utilisées seront donc de 1-α = 95%, 99%, ou 99,9%.

La confiance (1-α) étant centrée, l'erreur α se répartit de part et d'autre : α/2 à gauche, et α/2 à droite.

Si on reprend notre exemple précédent (µ=25cm, intervalle de confiance à 95% qui va de 20 à 30 cm) cela signifie que nous avons encore 5% de chance que la moyenne "vraie" soit en dehors de l'intervalle 20-30 cm. Ce risque d'erreur se répartit en 2,5% de chance que la moyenne "vraie" soit inférieure à 20cm, et 2,5% de chance qu'elle soit supérieure à 30cm.

La moyenne d'un échantillon (Mx) n'est pas forcément égale à la moyenne réelle de la population (μ) dont l'échantillon est issu.
Elle s'en rapproche d'autant plus que la taille de l'échantillon (n) est grande.
On peut donc dire que μ = Mx ± ε (ε représentant idéalement une très petite valeur).

La distribution d'échantillonnage de la moyenne Mx, de paramètres (μ;σ²/n), cf. module 70, permet de délimiter autour de Mx une zone dans laquelle μ a, par exemple, 95% de chance de se trouver.

Estimation d'ε :

Lorsque la variance de la population (σ²) est connue, ε est calculé à partir de la valeur de z correspondant à la confiance utilisée:

avec la valeur de Z dont la probabilité de lui être inférieur est de 1-α/2.

Estimation de l'intervalle de confiance à 95% :

Estimation précise :

Lorsque la confiance vaut 95% vaut Z_0,975=1,96.

L'intervalle de confiance va donc de : à

Estimation approximative :

Lorsque la confiance est de 95%, z = 1,96. On peut donc l'approximer à z=2, et considérer que l'intervalle à 95% a une longueur d'approximativement 4 fois l'écart-type.

Définir un intervalle de confiance à 95% suppose de raisonner sur une distribution normale tronquée aux deux extrémités, et les affirmations qui suivront n'auront donc que 95% de chance d'être vraies.

La moyenne de l'échantillon Mx étant connue, centrons cet intervalle de 4 fois l'erreur type sur Mx. σ et n étant également connus, les limites de cet intervalle peuvent être facilement calculées :

Supposons, dans la distribution tronquée, que Mx est la plus petite possible, puis qu'elle est la plus grande possible :

On constate que la moyenne μ se trouve toujours comprise dans l'intervalle Mx ± 2 fois l'erreur type.

La moyenne μ reste inconnue, mais elle se trouve dans des limites connues. Le risque qu'elle se trouve en dehors de ces limites est de 5% si l'intervalle de confiance a été fixé pour une confiance de 95%.

Lorsque la variance de la population (σ²) est inconnue, elle est estimée par celle de l'échantillon (S²), et l'erreur type est alors estimée par :

Ceci signifie que d'un échantillon à l'autre, la longueur de l'intervalle de confiance sera variable, car elle dépendra de n (nombre d'individus dans l'échantillon) et de S (écart-type de l'échantillon), qui varient d'un échantillon à l'autre.

Pour tenir compte de cette variabilité de la variance estimée, la longueur de l'intervalle de confiance est calculée sur la distribution de la variable t de Student.

avec la valeur de t en dessous de laquelle il y a 1-α/2 % des individus.

Si le nombre d'observations disponibles pour estimer la variance est faible, la longueur de l'intervalle de confiance à 95% est donc plus élevée que 2 erreurs types.

Par exemple, pour n = 3, la limite supérieure est un t_{2; 0,975} = 4,303.

Cette longueur accrue de l'intervalle de confiance fait qu'il y aura toujours 95% de chance d'inclure la vraie moyenne µ.

Le prix à payer pour conserver cette confiance de 95% est une plus grande imprécision de l'estimation de μ.

Pour obtenir une confiance de 99%, il faudra accepter une plus grande imprécision.

Par exemple, pour n = 3, la limite supérieure est un t_{2; 0,995} = 9,925.

Exemple

Le dosage de protéines de 4 échantillons récoltés au hasard dans le stock de lait d'une laiterie donne les statistiques suivantes :

Mx=30 g/l et S²= 16 (g/l)²

La variable mesurée est supposée normale : X v.a. N ( μ,σ² ).

Que peut-on dire de la moyenne réelle de la teneur en protéines du stock de la laiterie ?

A priori, l'expérimentateur doit savoir que le paramètre µ ne vaut pas exactement 30g/l. Il peut cependant affirmer que :

µ = 30 ± une certaine imprécision ( ε )

Dans notre exemple S = 4 g/l, n = 4 et la variable t a 3 degrés de liberté (d.l.). La borne supérieure de l'intervalle à 95% se trouve dans les tables :

t_{3; 0,975} = 3,18

L'erreur type estimée = S/√n = 4/2 g/l et ε = 3.18 x 2 = 6,36 g/l.

La moyenne réelle de la teneur en protéines du stock de la laiterie est donc comprise entre les limites

30 g/l ± 6,36 g/l soit entre 23,64 g/l et 36,36 g/l.

La confiance dans cette estimation est de 95%. Autrement dit, il y a 5% de risque que la teneur en protéines soit moins de 23,64 g/ ou plus de 36,36 g/l .

Principe général :

Le principe de l'intervalle de confiance d'un paramètre d'une population est toujours le même. La formulation générale en est :

La valeur vraie du paramètre = statistique de l'échantillon ± une imprécision (ε).

La probabilité que cette affirmation soit vraie est la confiance. L'imprécision ε est d'autant plus grande que la confiance souhaitée est élevée.

Cas particulier d'une proportion :

L'intervalle de confiance d'une proportion est : = P ± ε

Avec :

Exemple :

Dans le cas d'une contamination d'un grand cheptel bovin par la bactérie Brucella abortus, un vétérinaire observe 53 avortements pour 134 vaches gestantes.
Quel risque d'avortement peut -il prédire dans le cheptel ?

Proportion : 53/134 = 0,40

Pour une confiance de 95% la borne supérieure de Z_0,975 = 1,96

Le risque d'avortement dans le cheptel a 95 chances sur 100 d'être compris entre 0,317 et 0,483.

Principe général :

Le principe de l'intervalle de confiance d'un paramètre d'une population est toujours le même. La formulation générale en est :

La valeur vraie du paramètre = statistique de l'échantillon ± une imprécision (ε).

La probabilité que cette affirmation soit vraie est la confiance. L'imprécision ε est d'autant plus grande que la confiance souhaitée est élevée.

Cas particulier d'un dénombrement :

L'intervalle de confiance d'un dénombrement µ est : µ = x ± ε

Exemple :

Un géologue mesure une radioactivité de 150 dpm dans un prélèvement de roche. Que peut-il dire de la valeur réelle de la radioactivité ?

Exactement : la valeur de z = 1,96

Approximativement : la valeur de Z est arrondie à 2.

La radioactivité réelle a 95 chances sur 100 d'être comprise entre 125 et 175 dpm.

Dans le cadre complexe des régressions, nous n'aborderons ici que le cas particulier de la régression linéaire, dont les principes de base ont été définis dans le module 20 : Statistiques descriptives à deux dimensions. On abordera plus particulièrement le cas d'une régression à X fixé, tel que décrit dans le module 170 : Régression dans l'ANOVA 1.

Régression linéaire à X fixé :

Dans ce cas particulier les conditions d'inférence sur la droite de régression sont strictes :

Condition 1 :

Les valeurs prises par la variable X doivent être fixées sans erreur par l'expérimentateur.

Condition 2 :

X étant une variable contrôlée (valeurs fixées par l'expérimentateur), on peut considérer Y comme fonction de X, mais pas le contraire : Y=f(X)

Condition 3:

Pour chaque valeur X_i de X, il existe une population de valeurs Y_i distribuée normalement, de moyenne µ_i et de variance σ² homogène c'est-à-dire constante quelle que soit la valeur de X :

Y_i v.a.N(µ_i ;σ² )

Condition 4:

Les moyennes µ_i correspondant aux valeurs Y_i sont situées sur une droite dont les paramètres sont ß0 et ß1 telle que :

µ_i =ß0+ß1.X_i

avec ß0 l'ordonnée à l'origine et ß1 la pente.