imprimer

Module 90:

    La loi du est une loi dérivée de la loi normale. Très importante pour ses applications en statistiques, elle est utilisée pour tester des statistiques basées sur le calcul de la somme des carrés des écarts.

    Evolution de la courbe de chi carré lorsque n augmente

    A partir de 3 degrés de liberté, les distributions suivent une distribution en cloche caractérisée par une dissymétrie à gauche. La forme de la courbe est déterminée par le nombre de degrés de liberté. Le nombre de degrés de liberté dépend du nombre de catégories dans lesquelles les fréquences sont dénombrées. En effet, plus le nombre de degrés de liberté augmente, plus tend vers une v.a. Normale et donc adopte une courbe en cloche.

Types de tests

Dans le cadre de ce cours de statistiques élémentaires, nous ne nous préoccuperons que de deux types de tests différents:

  1. le test d'indépendance
  2. le test de conformité d'un échantillon à un standard

La v.a. Normale est un modèle qui permet de décrire la distribution de probabilité de nombreuses v.a. continues, ou de leur logarithme, par exemple la taille ou le poids des organismes, l'erreur de mesure, la concentration de nombreuses substances, comme le taux de fibrinogène ou de cholestérol sanguin. Ce modèle décrit aussi la distribution de la moyenne de tous les échantillons (parfois à partir d’une taille critique). La loi Normale est un des plus modèles de distribution les plus utilisés pour calculer des probabilités dans le domaine biomédical.

Imaginons un modèle qui répartisse les observations en deux catégories, par exemple mâles et femelles, dans une population de sex-ratio 0.5

P(mâle)=1/3, P(femelle)=2/3; ratio=0.5

Comptons la fréquence des mâles et des femelles dans un échantillon (n=87) et la fréquence théorique attendue suivant la répartition 1/3, 2/3.

Calculons un écart quadratique entre les fréquences observées et théoriques, standardisé par la fréquence théorique :

Calcul de la fréquence théorique

et rassemblons les valeurs dans un tableau :

mâles

femelles

total

fi observée

23

64

87

fi théorique

29

58

87

écart quadratique standardisé

1.24

0.62

1.86

Fréquences observées et théoriques, écart quadratique, standardisé par la fréquence théorique, totaux.

Les fréquences observées fobsi correspondent approximativement à la valeur de X=Po(m), expression dans laquelle m=n. avec n la taille de l’échantillon et la probabilité d’appartenir à la catégorie i.

La variance de cette fréquence observée est donc Var(X)= m=n.

La quantité Formule de la quantité est donc approximativement une variable Z(0 ;1).

L’écart global entre les observations et le modèle est calculé par la statistique :Formule de calcul de statistique

qui suit approximativement une distribution théorique

Formule de distribution théorique

expression dans laquelle k représente le nombre de catégories et k-1 le nombre de degrés de liberté, dont dépend la forme de la courbe

Si l’on répète l’observation un grand nombre de fois, on obtiendra différentes fréquences, et différentes valeurs de obs

 

Echantillon N°

mâles

femelles

obs

2

29

62

0.0879

3

25

60

0.5882

4

25

73

2.6990

5

32

63

0.0053

6

37

66

0.3107

7

32

74

0.4717

Tableau -6 Répétition de l’expérience, fréquences observées et valeurs de obs

Comparons les valeurs obtenues pour obs avec k=2 :

Graphique des valeurs obtenues pour Xobs et Xk-1

Figure -18 Comparaison des écarts quadratiques standardisés à la distribution théorique de khi-carré avec un degré de liberté.

Imaginons un modèle qui répartisse les observations en trois catégories, par exemple les produits AA, Aa et aa de plusieurs croisements hétérozygotes, de probabilité 25%, 50% et 25% respectivement. Effectuons 5 fois l’expérience qui consiste à relever la fréquence de chaque phénotype :

AA

Aa

aa

obs

1

27

49

20

1.06

2

17

53

31

4.13

3

27

46

22

0.62

4

22

46

27

0.62

5

28

53

17

3.12

Comment sont calculées ces valeurs ?

Ligne 1: 27+49+20=96 données, ce qui donne des fréquences théoriques de 24, 48, et 24 (25%, 50%, 25% de 96).

Le Chi²observé est donc = (27-24)2/24 + (49-48)2/48 + (20-24)2/24 = 1.0625, c'est à dire 1.06 si on arrondit à deux chiffres significatifs.

Répétition de l’expérience, fréquences observées et valeurs de Chi²observé

Graphique des fréquences observées et valeurs de c2obs

Comparaison des écarts quadratiques standardisés à la distribution théorique de Chi² avec deux degrés de liberté.

Considérons la probabilité a priori de 10 acides aminés de se trouver dans une hélice alpha et dénombrons leur fréquence dans 4 protéines.

Acide aminé

Probabilité

Protéines

1

2

3

4

Ile

0.03

4

3

3

3

Asn

0.05

8

5

8

4

Val

0.07

12

7

8

4

Thr

0.07

5

8

7

9

Tyr

0.07

9

7

10

5

Leu

0.13

8

15

15

12

Pro

0.13

14

13

12

13

Glu

0.15

9

18

16

17

Gly

0.15

17

12

16

10

Met

0.15

12

16

18

20

total

1

98

104

113

97

2 obs

12.32

1.49

2.35

6.40

Probabilités, fréquences observées et Chi² observé pour 10 acides aminés répertoriés dans les hélices alpha de 4 protéines.

Si l’on répète l’expérience sur un plus grand nombre de protéines, on observe une distribution de Chi²observé qui peut se comparer à une distribution théorique de Chi² avec 9 degrés de liberté.

Comparaison des écarts quadratiques standardisés à la distribution théorique de khi-carré avec 9 degrés de liberté :

Graphique de comparaison des écarts quadratiques et standardisés à la distribution théorique de khi-carré avec 9 degrés de liberté.

 La distribution de chi carré est utilisée pour tester des statistiques basées sur le calcul de la somme des carrés des écarts

Les degrés de liberté déterminent la forme de la courbe et dépendent du nombre de catégories dans lesquelles les fréquences sont dénombrées.

Plus le nombre de degrés de liberté augmente, plus chi carré tend vers une v.a. Normale.

Chi carré tend vers une v.a. Normale

Figure -21 Comparaison de fonctions chi carréavec différents nombres de degrés de liberté. La distribution de chi carréavec un petit nombre de degrés de liberté est fortement asymétrique.

 

La table de chi carré est généralement présentée de la façon suivante :

0.9

0.95

0.975

0.99

1

2.71

3.84

5.02

6.63

2

4.61

5.99

7.38

9.21

3

6.25

7.81

9.35

11.34

4

7.78

9.50

11.14

13.28

Tableau -9 Extrait de la table de chi carré La première ligne énumère des probabilités, la première colonne, des degrés de liberté. Chaque ligne comprend P(chi carré ² chi carrép) , p étant la probabilité reprise en tête de colonne.

Illustration de la probabilité reprise dans la table, 4 d.l. p= 0.95.

Figure -22 Illustration de la probabilité reprise dans la table, 4 d.l. p= 0.95.

 

 Dans le tableur Excel, la fonction LOI.KHIDEUX(x;dl) renvoie P(c2dl Á x). Dans notre exemple,

1-LOI.KHIDEUX(9.5 ;4) renvoie 0.95.

Prenez garde, les conventions d’Excel varient d’une fonction de probabilité à l’autre.

Erreur !