imprimer

Module 170:

Une expérience fait parfois intervenir une série statistique à deux dimensions, c'est-à-dire 2 séries d'observations X et Y couplées. Lorsqu'au moins une des 2 variables est aléatoire, il est possible de considérer ces 2 variables simultanément au moyen d'une régression.

2 variables aléatoires	X = abondance d'une récolte (variable aléatoire)
	Y = nombre de jours d'ensoleillement (variable aléatoire)
1 variable aléatoire et une variable contrôlée	X = température fixée (variable contrôlée)
	Y = nombre de graines germées (variable aléatoire)

Cas étudié dans le cadre de ce cours:

Dans le cadre de ce cours, seul le cas où X est une variable contrôlée (non aléatoire, c'est-à-dire de valeurs fixées par l'expérimentateur) sera considéré.

Conditions d'utilisation de la régression dans l'ANOVA :

Condition 1:

Les valeurs prises par la variable X doivent être fixées sans erreur par l'expérimentateur.

Condition 2

X étant une variable contrôlée, on peut considérer Y comme fonction de X, mais pas le contraire :

Y=f(X)

Condition 3:

Pour chaque valeur X_i de X, il existe une population de valeurs Y_i distribuée normalement, de moyenne µ_i et de variance σ² homogène c'est-à-dire constante quelle que soit la valeur de X :

Y_i v.a.N(µ_i; σ²)

Condition 4:

Les moyennes µ_i correspondant aux valeurs Y_i sont situées sur une droite dont les paramètres sont ß0 et ß1 telle que :

µ_i=ß0+ß1X_i

avec ß0 l'ordonnée à l'origine et ß1 la pente

X est fixe et Y est une v.a.N pour tout X

Condition 5:

Les variables aléatoires Y_i sont indépendantes.

Supposons que l'on réalise une expérience portant sur l'étude de la pression sanguine (Y variable aléatoire) en fonction de l'âge (X variable contrôlée):

Lorsque l'âge des patients augmente, va-t-on observer un accroissement de leur pression sanguine?

Cet accroissement répond-il à un modèle linéaire?

Age	20	30	40	50	60	70
valeurs	120	123	134	130	142	145
	125	120	128	137	136	138
	121	126	127	135	139	141
	118	125	131	133	141	148

Ce que nous savons déjà:

Une simple analyse descriptive nous a permis les conclusions suivantes:

Le coefficient de corrélation r vaut environ 0,94. L'interprétation à donner est la suivante: "Si la relation entre X et Y est de type linéaire, elle est croissante, car le r est positif. De plus, comme le r est très proche de 1, on peut supposer que le nuage de points est très concentré autour de la droite de régression. Il est cependant impossible de tirer une conclusion ferme et définitive sur la linéarité de la relation tant que le graphique n'a pas été réalisé (méthode empirique), ou qu'un test sur la linéarité de la relation n'a pas été effectué (méthode statistique)."
Le coefficient de détermination R² vaut environ 0,88. L'interprétation à donner est la suivante: "Si la relation entre X et Y est de type linéaire, le modèle mathématique Y=aX+b peut expliquer à lui seul 88% de la variabilité observée. Les 12% restants représentent les erreurs de mesures et toutes les imprécisions engendrées lors de l'expérience. Comme au point précédent, sans la visualisation graphique de l'expérience, ou un test statistique sur la linéarité, il est impossible d'affirmer avec certitude que la relation est bien linéaire."
Grâce à la représentation graphique (diagramme de dispersion), nous pouvons confirmer que le modèle linéaire semble bien adapté à la répartition des points car il est possible de faire passer une droite par le nuage des points, mais rien ne nous prouve que c'est ce modèle qui explique au mieux la distribution des points.

Pression systolique (Y aléatoire) en fonction de l'âge du patient (X fixe)

Une analyse de ce type reste assez simpliste et il n'est pas possible de savoir à coup sûr si la relation est bien linéaire! Pour cela il faut réaliser un test statistique sur la linéarité de la distribution, test que nous allons détailler à la page suivante.

L'analyse de la régression dans l'ANOVA est une méthode de calcul qui permet de découper la variabilité expliquée (factorielle) en deux parties:

La première partie contient la variabilité expliquée réellement par le modèle linéaire (SCEreg).
La seconde partie contient la variabilité expliquée par la non linéarité de la relation (SCEnl)

SCEF=SCEreg + SCEnl

Le principe de la régression dans l'ANOVA est de tester ces deux parties de la variabilité factorielle (variabilité due à la régression et variabilité non linéaire) par rapport à la variabilité résiduelle.

	SCE	dl	CM	F observé	F tables
TOTALE	SCET	N-1
Régression	SCEreg	1	CMreg	CMreg/CMR	Fdl reg; dlR; 0,95 ou 0,99
non linéaire	SCEnl	na-2	CMnl	CMnl/CMR	Fdl nl; dlR; 0,95 ou 0,99
RESIDUELLE	SCER	N-na	CMR

Test sur la régression :

Si le F observé pour la régression est supérieur au F des tables pour 1 dl (correspondant aux degrés de liberté de la variabilité due à la régression) et (N-na) dl (correspondant aux degrés de liberté de la variabilité résiduelle), cela signifie que lorsqu'on applique a priori le modèle linéaire µ_i=ß0+ß1X_i la pente ß1 est non nulle. Il y a donc une relation significative entre les deux paramètres étudiés (X et Y c'est-à-dire l'âge et la pression sanguine).

Dans les graphiques ci-dessous le résultat de ce test est symbolisé par la droite noire en pointillés. Lorsque le test est non-significatif la droite a une pente nulle, lorsqu'il est significatif, elle a une pente significative, illustré ici par une pente de 40 degrés en positif. Mais la pente pourrait très bien être négative. Pour le savoir, il faut se baser sur le signe de la SPE.

Test sur la non-linéarité :

Si le F observé pour l'aspect non linéaire est supérieur au F des tables pour (na-2)dl (correspondant aux degrés de liberté de la variabilité due à l'aspect non linéaire de la variabilité) et (N-na) dl (correspondant aux degrés de liberté de la variabilité résiduelle), cela signifie que la distribution des Y s'écarte significativement du modèle linéaire utilisé a priori, et que la relation entre X et Y doit donc être considérée comme non-linéaire.

Dans les graphiques ci-dessous, le résultat de ce test est symbolisé par le trait bleu. Lorsque le test est non significatif, cela signifie que l'équation de régression idéale est de type linéaire. Lorsque le test est significatif, cela signifie que l'équation mathématique caractérisant au mieux la distribution des points est de type non-linéaire.

Explication graphique :

		Régression: CMreg/CMR
		Non Significatif : La droite utilisée a priori a une pente nulle	Significatif : La droite utilisée a priori a une pente non nulle
Non linéarité: CMnl/CMR	Non Significatif : Il n'y a pas d'écarts significatifs par rapport à la droite utilisée a priori: *le modèle idéal peut être considéré, a posteriori, comme linéaire*.
Non linéarité: CMnl/CMR	Significatif : Il y a des écarts significatifs par rapport à la droite utilisée a priori: *le modèle idéal peut être considéré, a posteriori, comme non linéaire*.

Attention: Dans le cas de résultat significatif pour la non-linéarité, la courbe dessinée ici n'est qu'un des multiples exemples possibles. Dans ce cas l'étape suivante est de déterminer parmi tous les modèles non-linéaires (exponentiel, logarithmique, puissance, inverse, etc...) celui qui est le mieux adapté à la distribution des points.

	SCE	dl	CM	F observé	F tables
TOTALE	SCET	N-1
FACTORIELLE	SCEF	na-1	CMF	CMF/CMR	Fdl F; dlR; int. conf.
Régression	SCEreg	1	CMreg	CMreg/CMR	Fdl reg; dlR; int. conf.
non linéaire	SCEnl	na-2	CMnl	CMnl/CMR	Fdl nl; dlR; int. conf.
RESIDUELLE	SCER	N-na	CMR

En plus de ce tableau, il est nécessaire de calculer:

SPE
SCEx

SCE reg

La somme des carrés d'écarts de la variabilité due à la régression se calcule de la manière suivante:

=SPE² / SCEX

NB: Cette formule ne nécessite pas de demander le calcul en mode itératif ( "pomme+enter" sous mac, "ctrl+shift+enter" sous Windows) .

SCE nl

La somme des carrés d'écarts de la variabilité non linéaire se calcule de la manière suivante:

= SCEF - SCE reg

SPE

La somme des produits d'écarts se calcule de la manière suivante:

= SOMME((zone des X-moyenne des X)*(zone des Y-moyenne des Y))

NB: Cette formule nécessite de demander le calcul en mode itératif ( "pomme+enter" sous mac, "ctrl+shift+enter" sous Windows) !

SCEx

La somme des carrés des écarts de X se calcule dans Excel de deux manières différentes:

1: Si pour chaque X_i correspond un série de Y_ij:

Votre tableau de données est alors organisé comme ceci:

X₁	X₂	X₃	X₄
Y₁₁	Y₂₁	Y₃₁	Y₃₁
Y₁₂	Y₂₂	Y₃₂	Y₃₂
...	...	...	...

Dans ce cas la formule à utiliser est : =n_i*SOMME.CARRES.ECARTS(zone des X)

2: Si chaque X_i est répété à chaque ligne, et lui correspond un et un seul Y _ij:

Votre tableau de données est alors organisé comme ceci:

X_i	Y_ij
X₁	Y₁₁
X₁	Y₁₂
X₁	Y₁₃
X₁	Y₁₄
X₂	Y₂₁
X₂	Y₂₂
...	...

Dans ce cas la formule à utiliser est : =SOMME.CARRES.ECARTS(zone des X)

Module 170: document.write(TitreModule);

document.write(TitrePage);

Conditions d'utilisation de la régression dans l'ANOVA :

Condition 1:

Condition 2

Condition 3:

Condition 4:

Condition 5:

document.write(TitrePage);

document.write(TitrePage);

Test sur la régression :

Test sur la non-linéarité :

Explication graphique :

document.write(TitrePage);

Module 170: