Éléments de statistiques


Faire des statistiques

Qu'est-ce que cela veut dire ?

Faire des statistiques c'est :

Souvent les activités de recensement et de sondage coexistent. Elles ne sont pas différenciées dans l'énoncé des résultats. L'analyse des résultats, dernière étape de l'étude statistique est très souvent oubliée par les non spécialistes. Attention donc à ne pas réduire les statistiques aux sondages d'opinion !

L'opinion sur les statistiques est en général, pour les plus sceptiques, "on leur fait dire n'importe quoi  !" et, pour les plus crédules qui ont foi dans la "vérité" des chiffres "les chiffres ont parlé  !". Une attitude sage face à un résultat statistique est bien sûr "un esprit critique", ce qui exige un minimum de connaissances de base des statistiques.

Depuis les années 1980, l'Éducation Nationale a introduit dans le programme des collèges et lycées l'étude des statistiques et des probabilités. Un minimum de connaissance du vocabulaire, des méthodes et des techniques de la statistique est donc donné aux élèves.


Historique-1

Le mot "statistique" vient du latin "status" (état). Les statistiques sont utilisées depuis très longtemps. En Chine, des données de recensements ont été retrouvées datant du XXIIIe siècle av. JC, en Mésopotamie et en Égypte il y a 4500 ans. Les empereurs romains organisaient des enquêtes sur les richesses de leur empire, le nombre de soldats, leur armement … et tenaient des comptes.

Ce système de recueil de données se poursuit jusqu'au XVIIe siècle. En Europe, le rôle de collecteur de données a souvent été tenu par les guildes marchandes, puis par les intendants de l'État.

Les pays où existe un pouvoir fort, s'appuient sur des données de recensements pour confirmer leur pouvoir et favoriser leur rayonnement, mais rapidement l'augmentation de la taille des États, des populations a rendu le recensement long et coûteux. Ce même besoin existe de nos jours, les États, les banques, le monde des assurances s'appuient sur les statistiques pour la gestion, la compétition économique … à des fins décisionnelles.

Au XVIIe siècle, Pierre de Fermat et Blaise Pascal furent des précurseurs en calcul des probabilités. En cherchant à résoudre des problèmes posés par les jeux de hasard (jeux de dés, lancers de pièces), ils ont mis leurs compétences de mathématiciens au service du développement d'une théorie et de techniques leur permettant d'évaluer le caractère probable d'un événement.

Ce n'est qu'au XVIIIe siècle que les statistiques sont utilisées dans un objectif prévisionnel. Buffon, Legendre s'intéressent aux probabilités. Huygens, Bernouilly et Moivre rendent cette branche des mathématiques plus importante en développant son champ d'applications en physique, en biologie …

Au XXe siècle, en 1933, Kolmogorov va formaliser la théorie des probabilités.


Historique-2 : Arrivée de l'ordinateur

L'ordinateur, outil de calcul informatique (apparu dans les années 1940 aux États-Unis et 1960 en Europe) permet de traiter un nombre de données de plus en plus grand, de plus en plus rapidement, de classifier et de faire des calculs complexes, d'analyser les rapports entre des séries de données de types différents. De plus le développement de logiciels de tracés permet aux médias, grâce aux graphiques, de diffuser les résultats statistiques vers le grand public.

Le premier ordinateur
DP-Eniac.jpg
L'ENIAC (acronyme de l'expression anglaise Electronic Numerical Integrator Analyser and Computer), est le premier ordinateur entièrement électronique
Crédit : DP -Wikipedia
Boutons de commande de l'ENIAC
Eniac-panel.jpg
Crédit : DP -Wikipedia
Changement d'un des tubes à vide !
725px-ENIAC-changing_a_tube.jpg
Crédit : DP -Wikipedia

Les probabilités et l'apparition des sondages doivent nous mener à nous poser la question de la fiabilité du sondage comme représentatif d'une réalité :

Les statistiques, sont de plus en plus utilisées dans des domaines aussi variés que la finance, le marketing, les enquêtes d’opinion (sondages), la maintenance, la logistique, les ressources humaines ou la psychologie, la biologie…


Historique-3 : De nos jours

Démocratisation des statistiques

La puissance et la facilité d'utilisation des ordinateurs et des logiciels spécialisés dans le calcul statistique a démocratisé l'utilisation des statistiques. Il est aisé de manipuler un grand nombre de données, effectuer une étude personnelle, quelqu'en soit l'intérêt.

Mais la diffusion généralisée de l'outil informatique n'est pas suivie d'une évolution comparable de la connaissance de l'outil statistique théorique; On fait trop souvent dire n'importe quoi et son contraire aux statistiques.

Efficacité des statistiques

Il est facile de faire calculer à un ordinateur des moyennes, pourcentages, médianes et autres calculs … en revanche il est bien plus compliqué de bien analyser les données de façon efficace et de donner une bonne interprétation des résultats.


Un exemple-1 : le nombre d'enfants par famille

Une statistique est une quantité calculée à partir d'un certain nombre d'observations. L'expression "une statistique" indique donc un domaine des mathématiques et indique également le principal objet de "l'étude statistique".

methodeUne Statistique

On veut étudier, dans une classe de 33 élèves du lycée , le nombre d'enfants par famille.

Il y a donc 33 familles, on obtient les réponses suivantes : 2 ; 1 ; 1 ; 3 ; 2 ; 2 ; 7 ; 4 ; 1 ; 2 ; 3 ; 1 ; 2 ; 4 ; 3 ; 1 ; 1 ; 1 ; 2 ; 2 ; 1 ; 6 ; 2 ; 2 ; 3 ; 1 ; 1 ; 2 ; 1 ; 3 ; 2 ; 1 ; 3

La variable étudiée est le nombre d'enfants par famille. Les valeurs (différentes) prises par cette variable sont : 1 ; 2 ; 3 ; 4 ; 6 ; 7

Pour mieux visualiser et comprendre les résultats de l'enquête (l'observation), nous allons créer un tableau

Nombre d'enfant - Effectif
Nombre d'enfants 1 2 3 4 6 7
Effectif 12 11 6 2 1 1

Fréquence d'une valeur

La valeur 3 apparaît 6 fois dans les résultats, sur un total de 33 résultats. La fréquence de la valeur 3 est calculée en faisant le calcul : effectif de cette valeur divisé par l'effectif total. Soit dans notre cas 6/33, c'est à dire environ 0,181, ou encore 18,1 %

Remarquez que la somme de toutes les fréquences est égale à 1.

Effectifs et fréquences cumulées

Notons que le nombre de familles ayant plus de 3 enfants (3 y compris) est : 10. Ce nombre est l'effectif cumulé à partir de la valeur 3 (3 y compris).


Un exemple-2 : Etude d'une variable

La moyenne

La moyenne de la variable observée est calculée en ajoutant toutes les valeurs de la variable et en divisant par l'effectif total. Pour simplifier on peut effectuer le calcul sur les données classées (groupes de mêmes valeurs) :

moyenne = [(12x1) + (11x2) + (6x3) + (2x4) + (1x6) + (1x7)] /33 = 73 / 33 = 2,12

Le nombre moyen d'enfants par famille pour les 33 familles de cette classe de lycée est 2,12.

La médiane

La médiane de la variable observée est la valeur telle que 50 % des résultats sont supérieurs et 50 % sont inférieurs à cette valeur.

Dans notre cas, l'effectif total est 33, il faut donc trouver la valeur de la variable "nombre d'enfants" telle qu'il y ait autant de familles avant et après cette valeur (soit dans notre cas 16 familles avant et après). Observons le tableau et rangeons les 33 résultats obtenus (données) dans l'ordre croissant (donc 12 fois 1, suivi de 11 x 2 …)

11111111111122222 - (soit 16 valeurs) - 2 - 222223333334467 (soit 16 valeurs)

La valeur médiane de notre étude est 2, il y a 16 familles avant et 16 familles après.

Mode

Le mode d’une série de résultats d'observations est la valeur la plus souvent obtenue : celle qui a la plus grande fréquence, dans notre cas le mode a pour valeur 1.


Un exemple-3 : Représentations graphiques

Pour mieux visualiser et comprendre une étude statistique, utilisons des diagrammes (graphiques). Nous avons utilisé le module Calc (Tableur) de la suite logicielle libre OpenOffice, pour réaliser un diagramme "en bâtons" et diagramme "en camembert" sur la variable étudiée.

dia-batons.png
Crédit : UFE@Observatoire de Paris
dia-camembert.png
Crédit : UFE@Observatoire de Paris

Interprétation des résultats statistiques

Signification du résultat d'une statistique

L'objectif des statistiques est d'étudier à partir d'observations constatées un ensemble d'événements, de phénomènes, les analyser et les mettre en perspective.

Les chiffres sont des outils précis, les mathématiques sont une science exacte. Mais cela ne doit pas faire oublier que le principe de causalité d'un événement, le contexte, le domaine de précision choisi pour les résultats chiffrés, ont un impact sur le résultat de l'analyse.

Pour éviter de dire n’importe quoi, et surtout pour ne pas croire n’importe quoi, il faut avoir un minimum de connaissances de base en statistiques qui nous permettront de répondre, par exemple, aux questions suivantes :

Moyenne et normalité

Considérons un outil très utilisé dans les études statistique : la moyenne. Souvent, dans la vie courante, on utilise les mots "moyen" et "normal" en leur donnant la même signification. En statistique, la moyenne d'un jeu de donnée ne signifie pas qu'il représente un phénomène normal (dans la norme).

La moyenne est un "indicateur de position" : nombre unique qui caractérise, à lui seul, un grand nombre d'individus ou d'objets … à ne pas confondre avec la normalité, qui revient à interpréter que seuls les individus caractérisés par ce nombre sont dans la normale et les autres sont "anormaux" ! Par exemple :

Hors contexte, le fait de confondre moyenne et normale mène à de fausses conclusions et à des conséquences dans l'usage que l'on fait des statistiques, qui peuvent être utilisée à mauvais escient.

Exact et précis

Il arrive qu'on présente, par exemple, un résultat de sondage en insistant sur la précision des résultats. En effet, il est plus facile d'estimer la dispersion des résultats que leur exactitude, puisqu'on ne sait pas à priori où se trouve le résultat (!).

Question : Vaut-il mieux un résultat précis et faux ou exact et imprécis??

Précis/Exact
precisexact.png
Crédit : Henri Broch, Cours de Zététique

Cause et corrélation

Attention : Qu'il y ait corrélation entre deux phénomènes ne veut pas dire que l'un est la cause de l'autre.

Le nombre de fleurs dans les champs est corrélé au nombre d'hirondelles mais la pousse des fleurs n'est pas due à la présence des hirondelles ! Les deux phénomènes sont dus à l'arrivée du printemps.

Un coefficient de corrélation élevé n'induit pas obligatoirement une relation de causalité entre les deux phénomènes mesurés. Les deux phénomènes peuvent être corrélés à un même phénomène-source : une troisième variable non mesurée, et dont dépendent les deux autres, comme le montre l'exemple précédent.

Statistique et société

L'état dispose de services destinés à réaliser des études statistiques. Les résultats peuvent être détournés au service de messages politiques.

Tous les trois ans, l’Organisation de coopération et de développement économiques (OCDE) organise une grande enquête pour mesurer les acquis des élèves de 15 ans dans 57 pays: Ce "Programme international pour le Suivi des Acquis" des élèves (PISA) doit être lu avec précaution.


Définitions : Fréquence et Probabilité

Les définitions et les techniques statistiques sont nombreuses et varient selon les domaines dans lesquels elles sont utilisées. Les notions concernant les variables aléatoires en probabilité sont les mêmes que les notions de variables statistiques en statistique.

Sur un ensemble de N valeurs ou tirages, on peut définir les concepts suivants :


Définitions : Moyenne, Médiane, Mode

Moyenne, médiane, mode
moyenne.png
23 échantillons répartis entre 18 et 28, et valeurs de la moyenne, de l'écart-type, de la médiane et du mode.
Crédit : Observatoire de Paris

Définitions : Variance et Ecart-type


Définitions : Loi Binomiale

courbe de Gauss
gauss.png
Loi binomiale: l'histogramme représente la de la répartition de 100 probabilités autour de la valeur moyenne M- La courbe superposée est une courbe de Gauss.
Crédit : wikipédia-Bouterolle

Définitions : Variable Aléatoire continue


Définitions : Loi Normale


Quelques propriétés


Le test d'hypothèse

Afin de rechercher s'il y a autre chose que du hasard dans une prédiction (astrologique ou autre), il est possible d'utiliser une technique statistique appelée le test d'hypothèse.

Si un dé est pipé, certaines faces auront plus de chances de sortir que d'autres. Pour savoir si le dé est parfaitement équilibré, il faudrait faire un nombre infini de tirages. Dans la "réalité", on fait un nombre fini de tirages. La technique du test d'hypothèse permet d'interpréter le résultat de ces tirages et de quantifier la qualité du dé.

L'approche par test d'hypothèse consiste à

Dans un test statistique il y a deux façons de se tromper :

Utilisation du test d'hypothèse

Les tests d'hypothèse peuvent porter sur la comparaison entre 2 populations, ou comparer la population à un modèle dépendant d'un paramètre. Certaines techniques statistiques permettent de faire une hypothèse sur le paramètre, d'évaluer la probabilité d'observer cette valeur (croyance à priori), puis d'améliorer la valeur de ce paramètre (révision des croyances).

Pour ces études, la population est représentée par un histogramme de fréquences. Le modèle est représenté par une loi de probabilité.

Les tests d'ajustement comparent une population et un modèle. Voici des exemples de tests d'ajustement.

Les tests d'indépendance servent à savoir si deux variables sont indépendantes. Exemples de test d'indépendance.

On peut aussi chercher à savoir si deux échantillons proviennent de la même population (tests d'homogénéité). Exemples de tests d'homogénéité.


Tests statistiques

Il existe de très nombreux tests statistiques adaptés au domaine dans lequel ils sont utilisés. Ils servent à rejeter ou ne pas rejeter une hypothèse sur une population en testant un jeu de données observées. Il est très important de remarquer que ces tests sont toujours associés à des seuils de confiance qui estiment le risque de se tromper. Les catégories de tests et la liste des tests usuels sont décrits là.

test du chi-2

Le test du χ 2 (prononcer « khi-deux » ou « khi carré », qu'on écrit également à l'anglaise « chi-deux » ou « chi carré ») est particulièrement utilisé comme test d'ajustement d'une loi de probabilité à un échantillon d'observations supposées indépendantes et de même loi de probabilité.

Son usage est très répandu notamment en génétique où il permet de déterminer, à un seuil donné, la validité d'une hypothèse. Le test du chi2 fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète.

test du chi2


Une application du test d'hypothèse

activitePile ou face

Prenons par exemple l'expérience définie par 1000 tirages à pile-ou-face. Pour chaque expérience (de 1000 tirages), on note le nombre de tirages « pile ». Ce chiffre est appelé la réalisation de l'expérience.

  1. Hypothèse nulle : la pièce est bien équilibrée : Dans ce cas, les 2 faces ont la même probabilité, 0.5, de sortir. Les réalisations se répartissent selon la loi binomiale p(X=k)=matrice(ligne(1000);ligne(k))*0,5^1000, pour k compris entre 0 et 1000. Cette distribution gaussienne est centrée sur 500. L'équation de cette courbe "Gaussienne" permet de calculer la probabilité des valeurs pour la réalisation.
  2. on choisit un seuil de, par exemple, 5%
  3. On effectue une expérience :

    Une réalisation à 530 « pile » (et donc 470 "face") a 16% de chances d’arriver par pur hasard. Ce résultat est donc très probable.

    Pour une réalisation à 620 "pile" (et 380 "face"), la probabilité de réalisation dans le cas de l'hypothèse nulle est de 0,003% <5%. L'hypothèse nulle est rejetée: Cela suggère une loi : La pièce est fausse....

Pile ou face
pileouface.png
Crédit : DP

Les outils de calcul

La statistique est une méthode et une technique, utiliser cet outil mathématique pour étudier une variable sur un jeu de données, consiste à suivre un protocole :

Les méthodes statistiques sont maintenant facilement exploitables via l’utilisation de logiciels "libres", à la portée de tous. Voici quelques exemples de logiciels libres et multiplateforme (Mac, Windows, Linux) qui vous permettront de "faire des statistiques à la maison" :


Webographie

bibliographieBibliographie