Les contenus sont © P. Calmant et E. Depiereux - 2004; G. Vincke B. De Hertogh et E. Depiereux 2008.
Imprimé le
8/1/2025
La variabilité d'un échantillon
peut se décomposer en plusieurs types. Elle est expliquée
en partie par un facteur bien défini (exemple: dans l'exemple
ci-dessous, le poids des poissons peut s'expliquer par le dimorphisme
sexuel c'est-à-dire que les mâles sont plus petits que
les femelles): cette variabilité est dite "factorielle".
La variabilité restante est due à des erreurs de
mesures (imprécision) ou à une diversité
génétique (variabilité individuelle) et
forme la variabilité résiduelle.
Imprécision
Un individu mesuré plusieurs fois ne génère pas nécessairement le même résultat. Ceci peut s'expliquer par exemple par les limites de l'appareil de mesure, la façon dont il a été étalonné, : on parle d'imprécision.
InexactitudeLa mesure expérimentale d'un individu n'est pas identique à la mesure réelle de ce même individu. On parle d'inexactitude.
Dans une population de morues atlantiques, il est possible de prélever un échantillon d'individus. C'est cet échantillon qui sera décrit et qui servira de point de départ à une estimation (inférence) ultérieure sur la population.
Parmi les raisons justifiant un échantillonnage plutôt que de travailler sur la globalité de la population:
Il est impossible de pêcher TOUTES les morues de l'Atlantique pour en estimer le poids moyen...
La reproduction des grands pandas captifs ne peut être étudiée que sur l'effectif captif c'est-à-dire composé d'un nombre restreint d'individus.
Impossible de sacrifier la population belge de chauves-souris Grand Rhinolophe [200 individus] pour estimer la longueur moyenne de leur intestin grêle.
Supposons que l'on prélève dans les filets de ce chalutier 15 morues atlantiques. Celles-ci constituent l'échantillon. Chaque individu est pesé (= mesure xi du paramètre X) et les résultats sont répertoriés ci-dessous. Il s'agit de la première étape du processus de description de l'échantillon.
|
|||||||||||||||||||||||||
Description de l'échantillon = statistique DESCRIPTIVE | |||||||||||||||||||||||||
1 paramètre étudié: poids moyen en kg |
= 1 DIMENSION (X)
|
||||||||||||||||||||||||
1 individu = 1 mesure de poids (xi) | |||||||||||||||||||||||||
|
|||||||||||||||||||||||||
|
|
||||||||||||||||||||||||
Description avancée de l'échantillon: | |||||||||||||||||||||||||
La description de l'échantillon se poursuit par le classement des données, les mesures de la tendance centrale et de la dispersion. |
TRI DES POISSONS EN
FONCTION DE LEUR POIDS DANS PLUSIEURS CLASSES
|
|
La classification
des données xi (poids des morues pêchées) est
obtenue en créant artificiellement des classes (ou catégories)
d'individus.
Le nombre de classes dépend du nombre d'individus pêchés:
Les classes possèdent toutes le même
intervalle séparant leur limite inférieure et supérieure
(dans l'exemple: l'intervalle de classe Li vaut 2 Kg):
Le dénombrement des poissons par classe
peut suivre différentes définitions:
Un cas extrême est celui où la taille
de l'échantillon tend vers l'infini. A ce moment, le nombre
de classes possibles tend aussi vers l'infini. Chaque classe possède
un intervalle (une base) infinitésimal. La surface d'un
rectangle tend vers 0. On ne parlera plus de distribution de densités
de fréquences relatives mais de distribution de densités
de probabilités.
L'intervalle de classe (Li) est la distance séparant la limite supérieure de la limite inférieure de chaque classe.
|
classe 1 |
classe
2 |
classe
3 |
classe
4 |
total |
|
fréquences |
3 |
5 |
5 |
2 |
15 |
fréquences
relatives |
0,2 |
0,33 |
0,33 |
0,13 |
1 |
fréquences cumulées |
3 |
8 |
13 |
15 |
X |
fréquences
relatives cumulées |
0,2 |
0,53 |
0,86 |
1 |
X |
La moyenne arithmétique est la mesure de la tendance centrale la plus facile à calculer. Elle est obtenue par la division de la somme de toutes les valeurs de l'échantillon par la taille de l'échantillon (n). Cette mesure est sensible aux valeurs extrêmes.
Le mode détermine la valeur la plus fréquente dans un échantillon. Si l'échantillon est divisé en classes, la classe modale constitue la classe la plus fréquente. Dans l'exemple ci-dessus, les classes modales sont les classes 2 et 3 et contiennent 5 individus chacune.
La médiane est la valeur telle que 50% des observations de l'échantillon lui sont inférieures.
Pour illustrer les mesures de dispersion, prenons pour exemple un échantillon de 9 morues de l'Atlantique (Gadus morhua).
Pour cet échantillon de 9 morues, nous allons étudier la dispersion de la taille de ces poissons en calculant les paramètres suivants :
Nous verrons ensuite un paramètre de dispersion additionnel, le coefficient de variation, utilisé dans le cas particulier des échantillons de mesures répétées.
Pour commencer, mesurons la taille de ces 9 poissons, ainsi que la moyenne de ces tailles, qui vaut ici 65 cm :
Définition : L'amplitude d'un échantillon est l'écart qui sépare la valeur la plus petite de la valeur la plus grande.
Formule : amplitude = valeur maximale - valeur minimale
Domaine : L'amplitude peut prendre des valeurs qui vont de 0 à l'infini.
Définition : La variance est le reflet numérique de la dispersion des valeurs autour de la moyenne.
Elle est obtenue à partir des écarts des valeurs par rapport à la moyenne.
Pour chaque valeur on calcule l'écart qui le sépare de sa moyenne arithmétique : ei = xi - Mx
La somme de ces écarts est nulle. Elle ne peut donc être utilisée comme un estimateur mathématique de la dispersion des valeurs.
Pour chacun des écarts on calcule son carré. Ainsi pour chaque valeur on obtient une valeur positive, et leur somme n'est jamais nulle, sauf si les écarts sont nuls (valeurs identiques).
Si on additionne tous ces carrés d'écarts :
Cela donne :
La somme des carrés des écarts (SCE) sera d'autant plus grande que les valeurs seront éloignées de la moyenne. C'est donc un bon estimateur de la dispersion des valeurs autour de la moyenne.
Cependant, à dispersion équivalente, la SCE sera toujours d'autant plus grande qu'il y aura un nombre important de valeurs. Pour que le paramètre de dispersion soit indépendant du nombre de valeurs, on calcule le carré moyen.
Le carré moyen représente la surface moyenne des carrés d'écarts. C'est la SCE/n.
La variance d'un échantillon (ou S 2) est la surface de ce carré moyen (CM).
Elle caractérise la distribution des valeurs autour de la moyenne.
Elle est exprimée dans le carré des unités des valeurs, ici en cm2.
Formule : Elle se calcule en sommant les carrés des écarts (SCE = Somme de Carrés des Écarts), et en divisant cette somme par le nombre de valeurs.
Domaine : La variance est comprise entre 0 et l'infini.
A partir des données numériques d'un échantillon, il est aussi possible d'estimer la variance de la population d'où provient cet échantillon.
On utilise alors une autre formule :
La variance étant exprimée dans le carré des unités, on lui préfère souvent l'écart-type, qui s'exprime lui dans l'unité des valeurs
Définition : L'écart-type représente l'écart moyen des valeurs par rapport à la moyenne. Il est exprimé dans les unités de la moyenne.
Formule : L'écart-type (ET ou S) est la longueur du côté du carré moyen, et donc la racine carrée de la variance.
Pour décrire un échantillon :
Pour estimer l'écart-type de la population d'origine :
Domaine : L'écart-type est compris entre 0 et l'infini.
Définition : Le coefficient de variation représente le rapport de l'écart-type par la moyenne.
Formule :
Domaine : Le coefficient de variation est compris entre 0 et l'infini.
Utilisation : Le CV est utilisé pour quantifier la précision d'appareils de mesure. Lorsqu'on mesure plusieurs fois un même objet de taille connue, si le CV tend vers 0 c'est que l'appareil est précis. S'il tend vers 1 ou vers l'infini c'est que l'appareil est imprécis.
But du T.P.
Ce T.P. sert à jeter les bases des statistiques descriptives. Il met en place les notions nécessaires à la compréhension des tests d'hypothèses de la fin du cours. Le but est donc de faire prendre conscience aux étudiants de l'importance capitale de cette matière. Contexte expérimental
À la demande de la Région Wallonne, une étude est menée afin de vérifier que les chauves-souris de l'espèce Grand Rhinolophe ne sont pas affectées par l'implantation d'une industrie polluante (pollution au plomb) à proximité de leur habitat.
Une recherche bibliographique a été réalisée et voici les résultats obtenus :
Systématique |
Caractéristiques morphologiques |
Pelage roussâtre sur le dos de l'adulte et plus gris chez le jeune. Face ventrale gris-blanc à blanc-jaunâtre.
Il s'agit du plus grand rhinolophe européen.
Il chasse dans les endroits boisés, le long des falaises, ou dans les jardins. Le vol est lent, papillonnant, avec de brèves glissades, à faible hauteur (de 30 cm à 3 m au-dessus du sol). Il se nourrit de grosses proies comme les papillons nocturnes et les coléoptères.
Cette espèce sédentaire atteint sa limite géographique nord approximativement au sillon Sambre et Meuse. Les déplacements entre les gîtes d'hiver et d'été dépassent rarement les 30 km.
Pour la reproduction, le grand rhinolophe a besoin de gîtes volumineux (plus de 100 m3) qu'il peut atteindre en vol direct et dans lesquels il peut évoluer facilement. Les colonies de reproduction peuvent atteindre plusieurs centaines d'individus qui se tiennent généralement à distance les uns des autres. Cette espèce est très souvent associée au vespertilion à oreilles échancrées.
Pour l'hivernage, il choisit des abris souterrains dont la température ambiante se situe entre 7 et 11°C. Il est extrêmement sensible aux dérangements.
Thème 1 : Les variabilités, précision et inexactitude
Question 1 : Dans un échantillon, pourquoi les individus sont-ils tous différents les uns des autres ?
Question 2 : Donnez un nom aux phénomènes suivants :
Thème 2 : Distinguer la population et léchantillonSituation 1 : Jai prélevé une chauve-souris au hasard dans une population donnée et je lai déposée à 3 reprises sur la même balance. Je mattendais à obtenir 3 fois le même poids, mais les valeurs obtenues sont très légèrement différentes.
Situation 2 : Jai prélevé une chauve-souris au hasard dans une population donnée et je lai déposée sur une balance. Je sais que le poids obtenu ne sera jamais le poids réel de lindividu mais une approximation de ce poids.
Question 3 : Soit un échantillon de n chauves-souris capturées aléatoirement dans une population donnée. Dans la littérature scientifique, voici ce que lon peut trouver :
Caractéristiques morphologiques
Question 3.1. : Quelles sont les mesures permettant de caractériser au mieux léchantillon et leur équivalent au niveau de la population ? Nommez-les en expliquant les nuances ?
Question 3.2. : Dans le contexte expérimental décrit avant, que représentent les valeurs obtenues pour les caractéristiques morphologiques ?
Question 4 : Quelles sont les raisons pour lesquelles un échantillonnage est indispensable ?
Thème 3 : tables de fréquences et histogrammesSoit un échantillon de 15 chauves-souris de lespèce " Grand Rhinolophe " capturées aléatoirement dans la population.
Question 5 : Comment représenter schématiquement un échantillon de chauves-souris pour lequel on a mesuré le poids de chaque individu ?
Question 6 : Pour le même échantillon, peut-on générer différents graphiques ? Pourquoi et quelles informations peut-on en tirer ? Ce nombre de graphiques possibles est-il illimité ? Dans lexemple combien de classes peut-on former ?
Question 7 : On sait que lenvergure des chauves-souris est comprise entre 350 et 400 mm. Analysez les différentes situations qui vous sont proposées ci-dessous et découvrez le type de dénombrement employé :
Thème 4 : Tendance centrale et dispersionSituation 1 : Jai réalisé 5 classes dintervalles constants pour répartir les 15 chauves-souris capturées et jai observé que 87 % des individus constituant cet échantillon avaient une envergure inférieure à 390 mm.
Situation 2 : Jai réalisé 5 classes dintervalles constants pour répartir les 15 chauves-souris capturées et jai observé que 8 individus de cet échantillon avaient une envergure comprise entre 350 et 370 mm.
Situation 3 : Jai réalisé 5 classes dintervalles constants pour répartir les 15 chauves-souris capturées et jai observé que 20 % des individus constituant cet échantillon avaient une envergure comprise entre 360 et 370 mm.
Situation 4 : Jai réalisé 5 classes dintervalles constants pour répartir les 15 chauves-souris capturées et jai observé que 5 individus de cet échantillon avaient une envergure comprise entre 370 et 380 mm.
Situation 5 : Jai réalisé 5 classes dintervalles constants pour répartir les 15 chauves-souris capturées, quelle est la proportion de chauves-souris dont lenvergure est inférieure à 400 mm ?
Situation 6 : Dans quelles circonstances utilise-t-on des densités de fréquences relatives et pour quelles raisons les utilise-t-on ?
Question 8 : Soit un échantillon de 15 chauves-souris prélevées aléatoirement dans une population donnée. Quelles sont les valeurs permettant de décrire au mieux un échantillon ? Définissez-les.
Question 9 : Hors de ces valeurs permettant de décrire un échantillon et que vous venez de définir :
Question 10 : Soit un échantillon composé de 15 chauves-souris mâles et adultes de lespèce X.
Question 11 : Où se positionne la médiane dun échantillon de :