imprimer

Module 10:

La variabilité d'un échantillon peut se décomposer en plusieurs types. Elle est expliquée en partie par un facteur bien défini (exemple: dans l'exemple ci-dessous, le poids des poissons peut s'expliquer par le dimorphisme sexuel c'est-à-dire que les mâles sont plus petits que les femelles): cette variabilité est dite "factorielle". La variabilité restante est due à des erreurs de mesures (imprécision) ou à une diversité génétique (variabilité individuelle) et forme la variabilité résiduelle.

Tableau de variabilités

Imprécision

Un individu mesuré plusieurs fois ne génère pas nécessairement le même résultat. Ceci peut s'expliquer par exemple par les limites de l'appareil de mesure, la façon dont il a été étalonné, … : on parle d'imprécision.

Un individu mesuré plusieurs fois donnera des mesures différentes à chaque fois

Inexactitude

La mesure expérimentale d'un individu n'est pas identique à la mesure réelle de ce même individu. On parle d'inexactitude.

L

On peut prélever seulement un échantillon de la population de morues de l'Océan Atlantique

Dans une population de morues atlantiques, il est possible de prélever un échantillon d'individus. C'est cet échantillon qui sera décrit et qui servira de point de départ à une estimation (inférence) ultérieure sur la population.

Parmi les raisons justifiant un échantillonnage plutôt que de travailler sur la globalité de la population:

1: Les ressources sont illimitées...

Il est impossible de pêcher TOUTES les morues de l'Atlantique pour en estimer le poids moyen...

2: Les données disponibles sont limitées...

La reproduction des grands pandas captifs ne peut être étudiée que sur l'effectif captif c'est-à-dire composé d'un nombre restreint d'individus.

3: L'expérimentation est destructive...

Impossible de sacrifier la population belge de chauves-souris Grand Rhinolophe [200 individus] pour estimer la longueur moyenne de leur intestin grêle.

Echantillon de morues

Supposons que l'on prélève dans les filets de ce chalutier 15 morues atlantiques. Celles-ci constituent l'échantillon.

Chaque individu est pesé (= mesure xi du paramètre X) et les résultats sont répertoriés ci-dessous. Il s'agit de la première étape du processus de description de l'échantillon.

 

 
Description de l'échantillon = statistique DESCRIPTIVE
1 paramètre étudié: poids moyen en kg 
= 1 DIMENSION (X)
1 individu = 1 mesure de poids (xi)
 
individu 11 poids 11
individu 12 poids 12
individu 13 poids 13
individu 14 poids 14
individu 15 poids 15
 
individu 1 poids 1
individu 2 poids 2
individu 3 poids 3
individu 4 poids 4
individu 5 poids 5
 
individu 6 poids 6
individu 7 poids 7
individu 8 poids 8
individu 9 poids 9
individu 10 poids 10
 

Description avancée de l'échantillon:
La description de l'échantillon se poursuit par le classement des données, les mesures de la tendance centrale et de la dispersion.

 

Echantillon
TRI DES POISSONS EN FONCTION DE LEUR POIDS DANS PLUSIEURS CLASSES
Tri des poissons en fonction de leur poids
La classification des données xi (poids des morues pêchées) est obtenue en créant artificiellement des classes (ou catégories) d'individus.

Le nombre de classes dépend du nombre d'individus pêchés:

    • il ne peut être trop petit sous peine de perdre de l'information: 1 classe contenant tous les individus de l'échantillon revient à ne pas faire de classes.
    • il ne peut être trop grand sous peine de perdre de l'information: pour un échantillon de 15 individus, réaliser 15 classes revient à avoir des classes ne contenant même pas un poisson.

     

Les classes possèdent toutes le même intervalle séparant leur limite inférieure et supérieure (dans l'exemple: l'intervalle de classe Li vaut 2 Kg):
    • classe 1: de 0 Kg inclus à 2 Kg exclus
    • classe 2: de 2 Kg inclus à 4 Kg exclus
    • classe 3: de 4 Kg inclus à 6 Kg exclus
    • classe 4: de 6 Kg inclus à 8 Kg exclus

Le dénombrement des poissons par classe peut suivre différentes définitions:
    1. fréquence: nombre d'individus appartenant à une classe. Il est généralement noté ni . La somme des fréquences de toutes les classes est la taille de l'échantillon N.
    2. fréquence cumulée: somme des fréquences de la classe étudiée et des fréquences des classes qui lui sont inférieures. La fréquence cumulée de la dernière classe vaut N (c'est-à-dire la somme des ni).
    3. la fréquence relative: rapport entre la taille de la classe étudiée et la taille de l'échantillon. Nous étudions dans ce cas l'importance de la classe par rapport à la globalité de l'échantillon (exemple: 20% des individus de l'échantillon présenté dans la figure ci-dessus ont une envergure comprise entre 380 et 400 mm). La somme de toutes les fréquences relatives est égale à 1. Elle est notée ni/N.
    4. la fréquence relative cumulée: somme des fréquences relatives de la classe étudiée et des fréquences relatives des classes qui lui sont inférieures. La fréquence relative cumulée de la dernière classe vaut 1.
    5. la densité de fréquences relatives : souvent employée pour que la surface de chaque rectangle de l'histogramme corresponde à la fréquence relative de la classe:

Surface d'un rectangle = Hauteur. Base c'est-à-dire

ou encore (après simplification des Li) la fréquence relative ni/N.

     
Un cas extrême est celui où la taille de l'échantillon tend vers l'infini. A ce moment, le nombre de classes possibles tend aussi vers l'infini. Chaque classe possède un intervalle (une base) infinitésimal. La surface d'un rectangle tend vers 0. On ne parlera plus de distribution de densités de fréquences relatives mais de distribution de densités de probabilités.
 

L'intervalle de classe (Li) est la distance séparant la limite supérieure de la limite inférieure de chaque classe.

 

classe 1
classe 2
classe 3
classe 4
total
fréquences
3
5
5
2
15
fréquences relatives
0,2
0,33
0,33
0,13
1

fréquences

cumulées

3
8
13
15
X
fréquences relatives cumulées
0,2
0,53
0,86
1
X

La moyenne arithmétique est la mesure de la tendance centrale la plus facile à calculer. Elle est obtenue par la division de la somme de toutes les valeurs de l'échantillon par la taille de l'échantillon (n). Cette mesure est sensible aux valeurs extrêmes.

Le mode détermine la valeur la plus fréquente dans un échantillon. Si l'échantillon est divisé en classes, la classe modale constitue la classe la plus fréquente. Dans l'exemple ci-dessus, les classes modales sont les classes 2 et 3 et contiennent 5 individus chacune.

La médiane est la valeur telle que 50% des observations de l'échantillon lui sont inférieures.

animation en pleine page

Pour illustrer les mesures de dispersion, prenons pour exemple un échantillon de 9 morues de l'Atlantique (Gadus morhua).

Pour cet échantillon de 9 morues, nous allons étudier la dispersion de la taille de ces poissons en calculant les paramètres suivants :

Nous verrons ensuite un paramètre de dispersion additionnel, le coefficient de variation, utilisé dans le cas particulier des échantillons de mesures répétées.

Pour commencer, mesurons la taille de ces 9 poissons, ainsi que la moyenne de ces tailles, qui vaut ici 65 cm :

L'amplitude :

Définition : L'amplitude d'un échantillon est l'écart qui sépare la valeur la plus petite de la valeur la plus grande.
Formule : amplitude = valeur maximale - valeur minimale
Domaine : L'amplitude peut prendre des valeurs qui vont de 0 à l'infini.

La variance :

Définition : La variance est le reflet numérique de la dispersion des valeurs autour de la moyenne.
Elle est obtenue à partir des écarts des valeurs par rapport à la moyenne.

Ecarts à la moyenne :

Pour chaque valeur on calcule l'écart qui le sépare de sa moyenne arithmétique : ei = xi - Mx

La somme de ces écarts est nulle. Elle ne peut donc être utilisée comme un estimateur mathématique de la dispersion des valeurs.

Carrés des Ecarts à la moyenne :

Pour chacun des écarts on calcule son carré. Ainsi pour chaque valeur on obtient une valeur positive, et leur somme n'est jamais nulle, sauf si les écarts sont nuls (valeurs identiques).


Si on additionne tous ces carrés d'écarts :

Cela donne :

La somme des carrés des écarts (SCE) sera d'autant plus grande que les valeurs seront éloignées de la moyenne. C'est donc un bon estimateur de la dispersion des valeurs autour de la moyenne.

Cependant, à dispersion équivalente, la SCE sera toujours d'autant plus grande qu'il y aura un nombre important de valeurs. Pour que le paramètre de dispersion soit indépendant du nombre de valeurs, on calcule le carré moyen.

Carré moyen :

Le carré moyen représente la surface moyenne des carrés d'écarts. C'est la SCE/n.
La variance d'un échantillon (ou S 2) est la surface de ce carré moyen (CM).
Elle caractérise la distribution des valeurs autour de la moyenne.
Elle est exprimée dans le carré des unités des valeurs, ici en cm2.
Formule : Elle se calcule en sommant les carrés des écarts (SCE = Somme de Carrés des Écarts), et en divisant cette somme par le nombre de valeurs.

Domaine :
La variance est comprise entre 0 et l'infini.

A partir des données numériques d'un échantillon, il est aussi possible d'estimer la variance de la population d'où provient cet échantillon.
On utilise alors une autre formule :

L'écart-type :

La variance étant exprimée dans le carré des unités, on lui préfère souvent l'écart-type, qui s'exprime lui dans l'unité des valeurs
Définition : L'écart-type représente l'écart moyen des valeurs par rapport à la moyenne. Il est exprimé dans les unités de la moyenne.
Formule : L'écart-type (ET ou S) est la longueur du côté du carré moyen, et donc la racine carrée de la variance.
Pour décrire un échantillon :

Pour estimer l'écart-type de la population d'origine :

Domaine : L'écart-type est compris entre 0 et l'infini.

Le coefficient de variation :

Définition : Le coefficient de variation représente le rapport de l'écart-type par la moyenne.
Formule :

Domaine : Le coefficient de variation est compris entre 0 et l'infini.
Utilisation : Le CV est utilisé pour quantifier la précision d'appareils de mesure. Lorsqu'on mesure plusieurs fois un même objet de taille connue, si le CV tend vers 0 c'est que l'appareil est précis. S'il tend vers 1 ou vers l'infini c'est que l'appareil est imprécis.

But du T.P.

Ce T.P. sert à jeter les bases des statistiques descriptives. Il met en place les notions nécessaires à la compréhension des tests d'hypothèses de la fin du cours. Le but est donc de faire prendre conscience aux étudiants de l'importance capitale de cette matière. Contexte expérimental

À la demande de la Région Wallonne, une étude est menée afin de vérifier que les chauves-souris de l'espèce Grand Rhinolophe ne sont pas affectées par l'implantation d'une industrie polluante (pollution au plomb) à proximité de leur habitat.

Une recherche bibliographique a été réalisée et voici les résultats obtenus :

Systématique

Caractéristiques morphologiques

Pelage roussâtre sur le dos de l'adulte et plus gris chez le jeune. Face ventrale gris-blanc à blanc-jaunâtre.

Il s'agit du plus grand rhinolophe européen.

Écologie

Il chasse dans les endroits boisés, le long des falaises, ou dans les jardins. Le vol est lent, papillonnant, avec de brèves glissades, à faible hauteur (de 30 cm à 3 m au-dessus du sol). Il se nourrit de grosses proies comme les papillons nocturnes et les coléoptères.

Cette espèce sédentaire atteint sa limite géographique nord approximativement au sillon Sambre et Meuse. Les déplacements entre les gîtes d'hiver et d'été dépassent rarement les 30 km.

Pour la reproduction, le grand rhinolophe a besoin de gîtes volumineux (plus de 100 m3) qu'il peut atteindre en vol direct et dans lesquels il peut évoluer facilement. Les colonies de reproduction peuvent atteindre plusieurs centaines d'individus qui se tiennent généralement à distance les uns des autres. Cette espèce est très souvent associée au vespertilion à oreilles échancrées.

Pour l'hivernage, il choisit des abris souterrains dont la température ambiante se situe entre 7 et 11°C. Il est extrêmement sensible aux dérangements.

 

Thème 1 : Les variabilités, précision et inexactitude

Question 1 : Dans un échantillon, pourquoi les individus sont-ils tous différents les uns des autres ?

Question 2 : Donnez un nom aux phénomènes suivants :

Situation 1 : J’ai prélevé une chauve-souris au hasard dans une population donnée et je l’ai déposée à 3 reprises sur la même balance. Je m’attendais à obtenir 3 fois le même poids, mais les valeurs obtenues sont très légèrement différentes.

Situation 2 : J’ai prélevé une chauve-souris au hasard dans une population donnée et je l’ai déposée sur une balance. Je sais que le poids obtenu ne sera jamais le poids réel de l’individu mais une approximation de ce poids.

Thème 2 : Distinguer la population et l’échantillon

Question 3 : Soit un échantillon de n chauves-souris capturées aléatoirement dans une population donnée. Dans la littérature scientifique, voici ce que l’on peut trouver :

Caractéristiques morphologiques

Question 3.1. : Quelles sont les mesures permettant de caractériser au mieux l’échantillon et leur équivalent au niveau de la population ? Nommez-les en expliquant les nuances ?

Question 3.2. : Dans le contexte expérimental décrit avant, que représentent les valeurs obtenues pour les caractéristiques morphologiques ?

Question 4 : Quelles sont les raisons pour lesquelles un échantillonnage est indispensable ?

Thème 3 : tables de fréquences et histogrammes

Soit un échantillon de 15 chauves-souris de l’espèce " Grand Rhinolophe " capturées aléatoirement dans la population.

Question 5 : Comment représenter schématiquement un échantillon de chauves-souris pour lequel on a mesuré le poids de chaque individu ?

Question 6 : Pour le même échantillon, peut-on générer différents graphiques ? Pourquoi et quelles informations peut-on en tirer ? Ce nombre de graphiques possibles est-il illimité ? Dans l’exemple combien de classes peut-on former ?

Question 7 : On sait que l’envergure des chauves-souris est comprise entre 350 et 400 mm. Analysez les différentes situations qui vous sont proposées ci-dessous et découvrez le type de dénombrement employé :

Situation 1 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées et j’ai observé que 87 % des individus constituant cet échantillon avaient une envergure inférieure à 390 mm.

Situation 2 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées et j’ai observé que 8 individus de cet échantillon avaient une envergure comprise entre 350 et 370 mm.

Situation 3 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées et j’ai observé que 20 % des individus constituant cet échantillon avaient une envergure comprise entre 360 et 370 mm.

Situation 4 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées et j’ai observé que 5 individus de cet échantillon avaient une envergure comprise entre 370 et 380 mm.

Situation 5 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées, quelle est la proportion de chauves-souris dont l’envergure est inférieure à 400 mm ?

Situation 6 : Dans quelles circonstances utilise-t-on des densités de fréquences relatives et pour quelles raisons les utilise-t-on ?

Thème 4 : Tendance centrale et dispersion

Question 8 : Soit un échantillon de 15 chauves-souris prélevées aléatoirement dans une population donnée. Quelles sont les valeurs permettant de décrire au mieux un échantillon ? Définissez-les.

Question 9 : Hors de ces valeurs permettant de décrire un échantillon et que vous venez de définir :

  1. Déterminez celle(s) qui  (est) sont susceptible(s) de changer pour un échantillon composé des mêmes individus.
  2. Déterminez celle(s) qui permet(tent) de juger de la précision d’un instrument de mesure.
  3. Qu’évoquent une variance d’échantillon et un estimateur de la variance de la population ? Dans quel cas peut-on égaler ces deux valeurs ?

Question 10 : Soit un échantillon composé de 15 chauves-souris mâles et adultes de l’espèce X.

  1. Quel type de solution graphique est vraisemblable : distribution de fréquences uniformes quelle que soit la classe, distribution symétrique de type pyramidale, distribution asymétrique avec traînée à gauche ou à droite ?
  2. Comment les mesures caractérisant la tendance centrale de l’échantillon vont-elles être influencées ?

Question 11 : Où se positionne la médiane d’un échantillon de :