Les contenus sont © P. Calmant et E. Depiereux - 2004; G. Vincke B. De Hertogh et E. Depiereux 2008.
Imprimé le
8/1/2025
La loi du est une loi dérivée de la loi normale. Très importante pour ses applications en statistiques, elle est utilisée pour tester des statistiques basées sur le calcul de la somme des carrés des écarts.
A partir de 3 degrés de liberté, les distributions suivent une distribution en cloche caractérisée par une dissymétrie à gauche. La forme de la courbe est déterminée par le nombre de degrés de liberté. Le nombre de degrés de liberté dépend du nombre de catégories dans lesquelles les fréquences sont dénombrées. En effet, plus le nombre de degrés de liberté augmente, plus tend vers une v.a. Normale et donc adopte une courbe en cloche.
La v.a. Normale est un modèle qui permet de décrire la distribution de probabilité de nombreuses v.a. continues, ou de leur logarithme, par exemple la taille ou le poids des organismes, l'erreur de mesure, la concentration de nombreuses substances, comme le taux de fibrinogène ou de cholestérol sanguin. Ce modèle décrit aussi la distribution de la moyenne de tous les échantillons (parfois à partir dune taille critique). La loi Normale est un des plus modèles de distribution les plus utilisés pour calculer des probabilités dans le domaine biomédical. Imaginons un modèle qui répartisse les observations en deux catégories, par exemple mâles et femelles, dans une population de sex-ratio 0.5Dans le cadre de ce cours de statistiques élémentaires, nous ne nous préoccuperons que de deux types de tests différents:
P(mâle)=1/3, P(femelle)=2/3; ratio=0.5
Comptons la fréquence des mâles et des femelles dans un échantillon (n=87) et la fréquence théorique attendue suivant la répartition 1/3, 2/3.
Calculons un écart quadratique entre les fréquences observées et théoriques, standardisé par la fréquence théorique :
et rassemblons les valeurs dans un tableau :
mâles |
femelles |
total |
|
fi observée |
23 |
64 |
87 |
fi théorique |
29 |
58 |
87 |
écart quadratique standardisé |
1.24 |
0.62 |
1.86 |
Fréquences observées et théoriques, écart quadratique, standardisé par la fréquence théorique, totaux.
Les fréquences observées fobsi correspondent approximativement à la valeur de X=Po(m), expression dans laquelle m=n. avec n la taille de léchantillon et la probabilité dappartenir à la catégorie i.
La variance de cette fréquence observée est donc Var(X)= m=n.
La quantité est donc approximativement une variable Z(0 ;1).
Lécart global entre les observations et le modèle est calculé par la statistique :
qui suit approximativement une distribution théorique
expression dans laquelle k représente le nombre de catégories et k-1 le nombre de degrés de liberté, dont dépend la forme de la courbe
Si lon répète lobservation un grand nombre de fois, on obtiendra différentes fréquences, et différentes valeurs de obs
Echantillon N° |
mâles |
femelles |
obs |
2 |
29 |
62 |
0.0879 |
3 |
25 |
60 |
0.5882 |
4 |
25 |
73 |
2.6990 |
5 |
32 |
63 |
0.0053 |
6 |
37 |
66 |
0.3107 |
7 |
32 |
74 |
0.4717 |
Tableau -6 Répétition de lexpérience, fréquences observées et valeurs de obs
Comparons les valeurs obtenues pour obs avec k=2 :
Figure -18 Comparaison des écarts quadratiques standardisés à la distribution théorique de khi-carré avec un degré de liberté.
Imaginons un modèle qui répartisse les observations en trois catégories, par exemple les produits AA, Aa et aa de plusieurs croisements hétérozygotes, de probabilité 25%, 50% et 25% respectivement. Effectuons 5 fois lexpérience qui consiste à relever la fréquence de chaque phénotype :
N° |
AA |
Aa |
aa |
obs |
1 |
27 |
49 |
20 |
1.06 |
2 |
17 |
53 |
31 |
4.13 |
3 |
27 |
46 |
22 |
0.62 |
4 |
22 |
46 |
27 |
0.62 |
5 |
28 |
53 |
17 |
3.12 |
Ligne 1: 27+49+20=96 données, ce qui donne des fréquences théoriques de 24, 48, et 24 (25%, 50%, 25% de 96).
Le Chi²observé est donc = (27-24)2/24 + (49-48)2/48 + (20-24)2/24 = 1.0625, c'est à dire 1.06 si on arrondit à deux chiffres significatifs.
Considérons la probabilité a priori de 10 acides aminés de se trouver dans une hélice alpha et dénombrons leur fréquence dans 4 protéines.
Acide aminé |
Probabilité |
Protéines |
|||
1 |
2 |
3 |
4 |
||
Ile |
0.03 |
4 |
3 |
3 |
3 |
Asn |
0.05 |
8 |
5 |
8 |
4 |
Val |
0.07 |
12 |
7 |
8 |
4 |
Thr |
0.07 |
5 |
8 |
7 |
9 |
Tyr |
0.07 |
9 |
7 |
10 |
5 |
Leu |
0.13 |
8 |
15 |
15 |
12 |
Pro |
0.13 |
14 |
13 |
12 |
13 |
Glu |
0.15 |
9 |
18 |
16 |
17 |
Gly |
0.15 |
17 |
12 |
16 |
10 |
Met |
0.15 |
12 |
16 |
18 |
20 |
total |
1 |
98 |
104 |
113 |
97 |
2 obs |
12.32 |
1.49 |
2.35 |
6.40 |
Si lon répète lexpérience sur un plus grand nombre de protéines, on observe une distribution de Chi²observé qui peut se comparer à une distribution théorique de Chi² avec 9 degrés de liberté.
La distribution de est utilisée pour tester des statistiques basées sur le calcul de la somme des carrés des écarts
Les degrés de liberté déterminent la forme de la courbe et dépendent du nombre de catégories dans lesquelles les fréquences sont dénombrées.
Plus le nombre de degrés de liberté augmente, plus tend vers une v.a. Normale.
Figure -21 Comparaison de fonctions avec différents nombres de degrés de liberté. La distribution de avec un petit nombre de degrés de liberté est fortement asymétrique.
La table de est généralement présentée de la façon suivante :
0.9 |
0.95 |
0.975 |
0.99 |
|
1 |
2.71 |
3.84 |
5.02 |
6.63 |
2 |
4.61 |
5.99 |
7.38 |
9.21 |
3 |
6.25 |
7.81 |
9.35 |
11.34 |
4 |
7.78 |
9.50 |
11.14 |
13.28 |
Tableau -9 Extrait de la table de La première ligne énumère des probabilités, la première colonne, des degrés de liberté. Chaque ligne comprend P( ² p) , p étant la probabilité reprise en tête de colonne.
Figure -22 Illustration de la probabilité reprise dans la table, 4 d.l. p= 0.95.
Dans le tableur Excel, la fonction LOI.KHIDEUX(x;dl) renvoie P(c2dl Á x). Dans notre exemple,
1-LOI.KHIDEUX(9.5 ;4) renvoie 0.95.
Prenez garde, les conventions dExcel varient dune fonction de probabilité à lautre.
Erreur !