Aller au contenu

Test du χ²

Un article de Wikipédia, l'encyclopédie libre.
Densité de la loi du χ2 en fonction du nombre k de degrés de liberté.

En statistique, le test du khi carré, aussi dit du khi-deux[1], d’après sa désignation symbolique χ2, est un test statistique où la statistique de test suit une loi du χ2 sous l'hypothèse nulle.

Par exemple, il permet de tester l'adéquation d'une série de données à une famille de lois de probabilité ou de tester l'indépendance entre deux variables aléatoires.

Ce test a été proposé par le statisticien Karl Pearson en 1900[2].

Tout test de statistique classique vise à vérifier une hypothèse, en particulier par rapport à l'hypothèse nulle, notée H0, qui postule qu'une différence entre des jeux de données est due au hasard[N 1]. L'hypothèse alternative que l'on vérifie suppose que les données considérées proviennent de variables aléatoires qui suivent une loi de probabilité donnée, et l'on souhaite tester la validité de cette hypothèse.

Ces données ayant été réparties en classes, il faut :

  • calculer algébriquement la distance entre les données observées et les données théoriques attendues ;
  • se donner a priori un risque d'erreur, celle consistant à rejeter l'hypothèse, alors qu'elle est vraie (la valeur 5 % est souvent choisie par défaut[réf. nécessaire]) ;
  • déterminer le nombre de degrés de liberté du problème à partir du nombre de classes, et à l'aide d'une table de χ2[3], déduire, en tenant compte du nombre de degrés de liberté, la distance critique qui a une probabilité de dépassement égale à ce risque.

Si la distance calculée entre les données observées et théoriques est supérieure à la distance critique, on conclut que le résultat n'est pas dû seulement aux fluctuations d'échantillonnage, et que l'hypothèse nulle H0 doit être rejetée. Le risque choisi au départ est celui de donner une réponse fausse lorsque les fluctuations d'échantillonnage sont seules en cause. Le rejet est évidemment une réponse négative dans les tests d'adéquation et d'homogénéité mais il apporte une information positive dans les tests d'indépendance. Pour ceux-ci, il montre le caractère significatif de la différence, ce qui est intéressant en particulier dans les tests de traitement d'une maladie.

Test du χ2 d'adéquation

[modifier | modifier le code]

Le test du χ2 d'adéquation (dénommé aussi test du χ2 de conformité ou test du χ2 d'ajustement) permet de vérifier si un échantillon d'une variable aléatoire Y donne des observations comparables à celles d'une loi de probabilité P définie a priori dont on pense, pour des raisons théoriques ou pratiques, qu'elle devrait être la loi de Y. L’hypothèse nulle (H0) est donc la suivante : la variable aléatoire Y suit la loi de probabilité P.

En termes de valeur-p, l'hypothèse nulle (l'observation est suffisamment proche de la théorie) est généralement rejetée lorsque p ≤ 0,05.

Test d'adéquation à une loi multinomiale

[modifier | modifier le code]

On observe un échantillon de données y1, ..., yN d'une variable aléatoire Y qui prend un nombre fini J de valeurs distinctes v1, ..., vJ. On veut tester l'hypothèse nulle suivante : « la probabilité que Y prenne la valeur vj vaut pj, pour j allant de 1 à J, avec . »

On appelle la probabilité empirique que Y prenne la valeur vj, c'est-à-dire le nombre nj d'observations yi qui prennent la valeur vj dans l'échantillon divisé par le nombre total N d'observations :

On peut alors définir la statistique du χ2 :

Sous l'hypothèse nulle, cette statistique suit asymptotiquement une loi du χ2 à (J – 1) degrés de liberté[4]. On peut donc construire un test de niveau α en rejetant l'hypothèse nulle lorsque la statistique de test T est plus grande que le quantile d'ordre 1 – α de la loi du χ2 à (J – 1) degrés de liberté :

TF–1
χ2(J – 1)
(1 – α)
avec F–1
χ2(J – 1)
(1 – α)
le quantile d'ordre 1 – α de la loi du χ2 à (J – 1) degrés de liberté.

Cas général

[modifier | modifier le code]

Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori. Dans le cas général, cette loi peut être celle d'une variable aléatoire Y prenant un nombre dénombrable de valeurs (comme une loi de Poisson ou une loi géométrique par exemple), ou bien une variable aléatoire continue (comme une loi exponentielle ou une loi normale).

Pour appliquer la méthode précédente pour laquelle Y prend un nombre fini J de valeurs, on découpe l'ensemble des valeurs que peut prendre y en J classes. Par exemple, pour tester l'adéquation avec une loi de Poisson, on pourra prendre les classes {0}, {1}, ..., {J-2}, {n>J-2}. On note alors la probabilité empirique que Y appartienne à la classe j, et la probabilité théorique d'y appartenir. On peut alors appliquer le test précédent. Les classes doivent être assez nombreuses pour ne pas perdre trop d'information mais, à l'inverse, pour satisfaire les conditions requises par la méthode, elles ne doivent pas être trop petites. En théorie, il faudrait que les effectifs soient infinis pour que la loi normale s'applique mais il est généralement admis qu'il faut 5 éléments dans chaque classe. Cette règle a été très discutée et celle qui semble recueillir le plus de suffrages est due à Cochran : 80 % des classes doivent satisfaire la règle des cinq éléments tandis que les autres doivent être non vides.

Le critère porte sur les Npi déduits de la loi de référence et non sur les ni des données analysées. Il est souvent satisfait sans difficulté car, à la différence de la construction d'un histogramme, il est possible de jouer sur la largeur des classes.

Si la loi de probabilité théorique dépend de paramètres (moyenne, variance...) inconnus au moment du test, les données peuvent être utilisées pour estimer ceux-ci, ce qui facilite l'adéquation. Il faut alors diminuer le nombre de degrés de liberté du nombre de paramètres estimés. S'il y a s paramètres inconnus, le nombre de degrés de liberté sera Js – 1. Ainsi, dans l'exemple de l'adéquation à une loi de Poisson de paramètre inconnu, on pourra estimer la valeur de ce paramètre par la moyenne empirique de Y, mais la loi du χ2 à appliquer aura un nombre de degrés de liberté égal à J – 2 au lieu de J – 1[6].

Exemple 1 : détermination de l'équilibrage d'un dé

[modifier | modifier le code]
Est-ce que le dé est bien équilibré ?

On souhaite tester l'hypothèse selon laquelle un dé à six faces n'est pas truqué, avec un risque α = 0,05. L'hypothèse que l'on souhaite rejeter (qu'on appelle hypothèse nulle et qu'on note ) est donc ici : « Le dé est équilibré ». Pour cela, le dé est lancé 600 fois de suite. S'il est équilibré, on s'attend que sur ces 600 jets, chaque chiffre tombe 100 fois. Supposons que notre expérience donne les résultats suivants :

numéro tiré 1 2 3 4 5 6
effectifs 88 109 107 94 105 97

c'est-à-dire nous avons obtenu 88 fois le chiffre 1, 109 fois le chiffre 2, etc. En considérant l'hypothèse nulle vraie, la variable T définie précédemment vaut :.

Le nombre de degrés de liberté est de 6 – 1 = 5. En effet, 88 + 109 + 107 + 94 + 105 + 97 = 600 et si l'on connaît par exemple les nombres de fois où l'on obtient les chiffres 1 à 5, on connaît le nombre de fois où l'on obtient le chiffre 6 : 600 – (88 + 109 + 107 + 94 + 105) = 97.

Ainsi, la statistique T suit la loi du χ2 à cinq degrés de liberté. Cette loi du χ2 donne la valeur en deçà de laquelle on considère le tirage comme conforme avec un risque α = 0,05 : P(T < 11,07) = 0,95. Puisque 3,44 < 11,07, on ne peut pas rejeter l'hypothèse nulle : ces données statistiques ne permettent pas de considérer que le dé est truqué.

Par contre, supposons que notre expérience donne le tirage suivant :

numéro tiré 1 2 3 4 5 6
effectifs 89 131 93 92 104 91

Dans ce cas, la variable T définie précédemment vaut :

.

Puisque 12,92 > 11,07, on peut cette fois rejeter l'hypothèse nulle : ces données statistiques permettent de considérer que le dé est truqué.

Exemple 2 : adéquation avec la loi de Poisson

[modifier | modifier le code]

On considère une variable aléatoire Y prenant des valeurs entières positives ou nulles. Un échantillonnage de 100 valeurs de cette variable se répartit comme suit :

valeurs 0 1 2 3 4
effectifs constatés 31 45 16 7 1

On souhaite tester l'hypothèse selon laquelle Y suit une loi de Poisson, avec un risque α = 0,05. La valeur du paramètre de cette loi de Poisson est obtenue en calculant l'espérance empirique de Y, ce qui donne ici λ = 1,02. Ce paramètre étant ici l'objet d'une estimation, on diminuera le nombre de degré de liberté d'une unité. Les effectifs attendus pour une loi de Poisson de paramètre λ sont :

valeurs 0 1 2 3 ou plus
effectifs attendus 36,06 36,78 18,76 8,40

On regroupe les effectifs supérieurs ou égaux à 3 dans une même classe, ceux supérieurs à 4 étant trop petits. La statistique du χ2, définie plus haut, et notée T, prend alors la valeur 2,97. Or, la loi du χ2 à deux degrés de liberté donne P(T < 5,99) = 0,95. Donc, on ne rejette pas l'hypothèse que la variable aléatoire Y suive une loi de Poisson, au risque d'erreur de 5 %.

Test du χ2 d'homogénéité

[modifier | modifier le code]

Il s'agit ici de se demander si deux listes de nombres de même effectif total N peuvent dériver de la même loi de probabilité. L'hypothèse nulle (H0) est la suivante : les deux échantillons proviennent de deux variables aléatoires suivant la même loi.

En termes de valeur p, l'hypothèse nulle est généralement rejetée lorsque p ≤ 0,05.

La méthode précédente s'applique en remplaçant le terme Npi relatif à la loi de probabilité par n'i relatif à la seconde liste et le χ2 est donné par .

Cette notation s'inspire de celle utilisée pour le test d'adéquation, elle-même déduite de la notation classique de la loi multinomiale. Ici, comme dans le test d'indépendance, la notion de probabilité n'apparaît plus de manière explicite. De nombreux utilisateurs préfèrent donc adopter la notation qui utilise les symboles Oi pour les valeurs observées et Ei pour les valeurs espérées, ce qui conduit à l'expression .

Dans le cas où l'on dispose de plusieurs listes de nombres, chacune d'effectif différent, et qu'on veuille tester si ces listes suivent une même loi de probabilité, on appliquera le test d'indépendance, décrit ci-après. Il s'agit en effet de tester si les diverses modalités Y de la loi de probabilité sont indépendantes des listes X en présence.

Test du χ2 d'indépendance

[modifier | modifier le code]

Ce test permet de vérifier l'absence de lien statistique entre deux variables X et Y. Les deux sont dites indépendantes lorsqu'il n'existe aucun lien statistique entre elles, dit autrement, la connaissance de X ne permet en aucune manière de se prononcer sur Y. L'hypothèse nulle (H0) de ce test est la suivante : les deux variables X et Y sont indépendantes.

En termes de valeur p, l'hypothèse nulle est généralement rejetée lorsque p ≤ 0,05.

On considère ici deux variables aléatoires X et Y et on souhaite tester le fait que ces deux variables sont indépendantes. Par exemple, X désigne une catégorie de population (salarié, employé, agriculteur, cadre supérieur, chômeur...) et Y un critère particulier (par exemple, le revenu réparti dans diverses tranches). L'hypothèse à tester est l'indépendance entre la population d'appartenance X de l'individu et la valeur Y du critère. L'hypothèse affirme donc que le fait de connaître la catégorie de population d'un individu n'influence pas la valeur des critères.

X et Y sont censées prendre un nombre fini de valeurs, I pour X, J pour Y. On dispose d'un échantillonnage de N données. Notons Oij l'effectif observé de données pour lesquelles X prend la valeur i et Y la valeur j. Sous l'hypothèse d'indépendance, on s'attend à une valeur espérée Eij définie comme suit :

(nombre de données pour lesquelles X = i)

et

(nombre de données pour lesquelles Y = j)

On calcule la distance entre les valeurs observées Oij (ou valeurs empiriques) et les valeurs attendues s'il y avait indépendance Eij (ou valeurs théoriques) au moyen de la formule :

On montre que la loi de T suit asymptotiquement une loi du χ2 à (I – 1)(J – 1) degrés de liberté.

Démonstration

[modifier | modifier le code]

Le test d’indépendance du tableau de I × J cases équivaut au test d’adéquation à une loi multinomiale de probabilités Epij estimées par pij = Eij/N = pi+ p+j selon H0, ce qui demande donc d’estimer I – 1 valeurs parmi p1+, ..., pI+ (la Ie est forcée par ) et J – 1 valeurs parmi p+1, ..., p+J (la Je est forcée par ). On a donc au départ I × J – 1 degrés de liberté pour remplir les I × J cases du tableau, valeur de laquelle il faut retrancher les (I – 1) + (J – 1) estimations de paramètres (voir dernier paragraphe de la section #Cas général ci-dessus), ce qui donne un nombre total de degrés de liberté de (I × J – 1) – (I – 1) – (J – 1) = I × JIJ + 1 = (I – 1)(J – 1)[7].

Considérons par exemple deux variables X et Y, X prenant les valeurs A ou B et Y prenant les valeurs entières de 1 à 4. Les lois de A et de B sont-elles différentes ? Une représentation sur une table de contingence des occurrences des variables permet d'illustrer la question.

1 2 3 4 Total
A 50 70 110 60 290
B 60 75 100 50 285
Total 110 145 210 110 575

Dans cet exemple, on remarque que les effectifs de B sont supérieurs à ceux de A dans les classes de faible valeur Y, et inférieur dans celles à haute valeur Y. Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle statistiquement significative ? Le test du χ2 aide à répondre à cette question.

On a ici I = 2 et J = 4, donc la loi du χ2 utilisée aura trois degrés de liberté. Si on se donne un risque de se tromper (rejeter à tort l'hypothèse nulle) égal à 5 %, la valeur critique trouvée dans les tables est 7,81. Le calcul de la variable T donne comme résultat 2,42. Étant inférieure à la distance critique (7,81), les données recueillies ne permettent pas de remettre en cause l'indépendance de X et de Y, c'est-à-dire le fait que la répartition des valeurs de Y ne dépend pas de la valeur de X, avec un risque de se tromper égal à 5 %.

Conditions du test

[modifier | modifier le code]

Plusieurs auteurs proposent des critères pour savoir si un test est valide, voir par exemple [PDF] The Power of Categorical Goodness-Of-Fit Test Statistics p. 19 (p. 11 du ch. 2), Michael C. Steele. On utilise en général le critère de Cochran de 1954 selon lequel toutes les classes i, j doivent avoir une valeur théorique non nulle (E i, j ≥ 1), et que 80 % des classes doivent avoir une valeur théorique supérieure ou égale à 5 :

Lorsque le nombre de classes est petit, cela revient à dire que toutes les classes doivent contenir un effectif théorique supérieur ou égal à 5.

D'autres valeurs ont été proposées pour l'effectif théorique minimal : 5 ou 10 pour tous (Cochran, 1952), 10 (Cramér, 1946) ou 20 (Kendall, 1952). Dans tous les cas, ces valeurs sont arbitraires.

Certains auteurs ont proposé des critères basés sur des simulations, par exemple :

  • effectif théorique supérieur à 5r/k pour chaque classe, où r est le nombre de classes ayant un effectif supérieur ou égal à 5 et k est le nombre de catégories (Yarnold, 1970) ;
  • N2/k ≥ 10, où N est l'effectif total et k est toujours le nombre de catégories (Koehler et Larntz, 1980) ;
  • des recommandations plus récentes se trouvent, par exemple, dans P. Greenwood et M. Nikulin, A Guide to Chi-Squared Testing, (1996), John Wiley and Sons.

Tests apparentés

[modifier | modifier le code]

Test du χ2 de Pearson

[modifier | modifier le code]

Il s'agit du test du χ2 le plus communément utilisé.

Une fois l'association entre deux variables établie, on peut utiliser le coefficient V de Cramer afin de mesurer l'intensité de l'association[8] :

Il est compris entre 0 et 1 : V = 0 si et seulement si on est en cas d'indépendance parfaite ; plus V est proche de 1, plus l'association est forte.

Test du rapport de vraisemblance

[modifier | modifier le code]

Le développement des méthodes bayésiennes – seules utilisables lorsqu'on n'a que peu de données sous la main – a dégagé un test de vraisemblance nommé le psi-test, dont Myron Tribus fait remarquer qu'il devient asymptotiquement identique au χ2 à mesure que le nombre de données augmente[9]. Le test du rapport de vraisemblance est donc un test asymptotique qui devient identique au χ2. Il teste s'il existe des preuves de la nécessité de passer d'un modèle simple à un modèle plus complexe (autrement dit si le modèle simple est imbriquée dans un modèle plus complexe).

Test exact de Fisher

[modifier | modifier le code]

Il s'agit d'un test exact qui peut s'apparenter à un test du χ2.

Test du χ2 de Yates

[modifier | modifier le code]

L'utilisation de la loi du χ2 pour interpréter un test du χ2 de Pearson nécessite de supposer que la loi discrète des fréquences binomiales peut être estimée par la loi continue du χ2. Cette hypothèse n'est pas tout à fait correcte et introduit une erreur.

Pour réduire l'erreur d'approximation, Frank Yates a suggéré une correction pour la continuité qui modifie légèrement la formule du test du χ2 de Pearson en soustrayant 0,5 de la différence entre chaque valeur observée et sa valeur attendue dans un tableau de contingence 2x2. Ceci réduit la valeur du χ2 obtenue et augmente ainsi sa valeur p.

Autres tests du χ2

[modifier | modifier le code]

Notes et références

[modifier | modifier le code]
  1. Les méthodes bayésiennes, pour leur part, ne font que remplacer cette valeur arbitraire unique par une distribution de probabilité qui sera ensuite affinée par les observations successives[réf. nécessaire].

Références

[modifier | modifier le code]
  1. « Le test du khi-deux », sur jmp.com (consulté le ).
  2. (en) Stephen Stigler, « Karl Pearson’s theoretical errors and the advances they inspired », Statistical Science, no 23,‎ , p. 261–271 (lire en ligne, consulté le ).
  3. « Valeurs tabulées du χ2 », sur Conservation et développement durable.
  4. Cameron et Trivedi 2005, p. 266.
  5. Didier Dacunha-Castelle, Marie Duflo, Probabilités et statistiques, t. 1, Problèmes à temps fixe, Paris/New York/Barcelone, Masson, , 286 p. (ISBN 2-225-74547-1), p. 134-135
  6. Didier Dacunha-Castelle, Marie Duflo, Probabilités et statistiques, t. 2, Problèmes à temps mobile, Paris/New York/Barcelone, Masson, , 286 p. (ISBN 2-225-76989-3), p. 110-111
  7. (en) « Statistics Online - STAT ONLINE », sur PennState: Statistics Online Courses (consulté le ).
  8. « Module 6 : Deux variables sont-elles liées ? » [PDF] (consulté le ), partie 3 : « Le test de Cramer : mesurer l’intensité des relations entre variables ».
  9. Myron Tribus, Décisions rationnelles dans l'incertain, traduction française de Jacques Pézier, Masson, 1974.

Sur les autres projets Wikimedia :

Bibliographie

[modifier | modifier le code]

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]