Test  per tabelle di contingenza

    Esistono numerose situazioni nelle quali la descrizione dei fenomeni è effettuata solamente in termini qualitativi o semiquantitativi.
    Per valutare queste situazioni è necessario utilizzare un test statistico che non presuppone alcuna condizione che riguardi la natura o i parametri della popolazione dalla quale i campioni provengono, in pratica utilizziamo un metodo non parametrico.
    Il test  (si legge chi-quadrato) rappresenta una dei test statistici più utilizzati e consente di rispondere alla domanda: "esiste una differenza fra le frequenze osservate e quelle attese nei diversi gruppi?".
    Per applicare il test nella forma generalizzata per tabelle di contingenza è necessario che ciascun elemento del campione in esame possa essere classificato per una caratteristica in un numero R di classi, e per una seconda caratteristica in un numero C di classi, in modo tale che i dati possano essere organizzati in una tabella di R righe per C colonne, comprendente quindi un totale di (R * C) celle.
    Per illustrare il concetto si consideri il caso più semplice, quello di una tabella 2 x 2 in cui:

- le frequenze osservate per ciascuna delle quattro celle sono indicate rispettivamente con f1, f2, f3 e f4
- il totale della riga 1 è indicato con R1 (R1 = f1 + f2) e quello della riga 2 indicato con R2 (R2 = f3 + f4)
- il totale della colonna 1 indicato con C1 (C1 = f1 + f3) e quello della colonna 2 indicato con C2 (C2 = f2 + f4)
- il totale dei casi indicato con n (n = f1 + f2 + f3 + f4)

Si avrà la seguente tabella dei valori osservati:
 
 
Seconda caratteristica Colonna 1
Seconda caratteristica
Colonna 2
 
Prima caratteristica
Riga1
 f1
f2
R1
Prima caratteristica
Riga 2
f3
f4
R2
 
C1
C2
n

    Con f, abbiamo visto si indica la frequenza osservata in una data cella, mentre con F indichiamo la frequenza attesa per la stessa cella.
    Ciascuna delle frequenze attese F assume un valore pari al prodotto del totale della riga per il totale della colonna cui la cella appartiene diviso per il totale dei casi osservato, in altre parole:

i quattro valori di F attesi corrispondenti ai valori di f osservati sono allora:
 
 
Seconda caratteristica colonna 1
Seconda caratteristica
colonna 2
 
Prima caratteristica

Riga1

R1
Prima caratteristica

Riga 2

R2
 
C1
C2
n

essendo ancora ovviamente F1 + F2 + F3 + F4 = n

    Il  è calcolato sommando i contributi per ciascuna cella come rapporto della differenza tra frequenze osservate e attese per tutte le celle della tabella, cioè come:

o più brevemente come:

    Quello presentato è il caso più semplice con una tabella 2 x 2, ma è facile applicare le stesse regole a tabelle di qualsiasi dimensione. Al termine giungeremo ad un valore di p, cioè al valore della probabilità di osservare per caso un valore di  della stessa grandezza di quello effettivamente osservato: se tale probabilità è sufficientemente piccola, si conclude che esiste una differenza significativa fra i diversi gruppi.

    Vediamo un esempio: nella tabella successiva sono riportati i risultati di uno studio nel quale a tre gruppi di pazienti affetti dalla stessa patologia, ma scelti a caso, sono stati somministrati tre differenti farmaci, A, B e C. I pazienti successivamente sono stati classificati in due gruppi "migliorati" e "non migliorati". Quella sotto riportata è un esempio di tabella di contingenza. I pazienti sono stati prima classificati secondo un criterio (trattati con A, B o C); ciascuna di queste classi è poi suddivisa secondo un altro criterio (migliorati e non migliorati).
 
 
EFFETTO
migliorati
EFFETTO
non migliorati
 
Farmaco A
27
10
37
Farmaco B
20
6
26
Farmaco C
11
16
27
 
58
32
90

La tabella precedente corrisponde alla tabella generica m x n:
 
Prima
caratteristica
Seconda
caratteristica
Colonna 1
Seconda
caratteristica
Colonna 2
 
Riga 1
f1
f2
R1
Riga 2
f3
f4
R2
Riga 3
f5
f6
R3
 
C1
C2
n

    Nella tabella di contingenza generica ci sono m classi primarie e ciascuna di queste classi è divisa in n sottoclassi cosicché in totale la tabella contiene m x n celle; è spesso indicata come tabella m x n. Nel caso specifico si tratta di una tabella 3 x 2.
    L'ipotesi zero è che tutti i farmaci hanno lo stesso effetto, e che le differenze osservate siano la conseguenza di fluttuazioni casuali di campionamento. Si possono riunire i dati relativi a tutte e tre i farmaci in modo da ottenere una stima della proporzione media di pazienti migliorati: essa risulta uguale a 58/90 = 0,645 (C1/n). Analogamente si ottiene una stima della proporzione media di pazienti non migliorati, che risulta uguale a 32/90 = 0,355 (C2/n).
    A partire da queste proporzioni medie si può calcolare il numero dei pazienti migliorati e non migliorati che ci si sarebbe attesi di trovare in base all'ipotesi zero; per esempio, i pazienti migliorati per effetto del farmaco A avrebbero dovuto essere F1 = (C1 * R1) / n cioè F1 = (58 * 37) / 90 = 23,844. Si calcolano quindi tutte le frequenze attese e si scrivono nelle celle corrispondenti, otteniamo così la tabella delle frequenze attese.
 
no atteso
di pazienti
migliorati
no atteso
di pazienti
non migliorati
 
Farmaco A
23,844
13,156
37
Farmaco B
16,756
9,244
26
Farmaco C
17,400
9,600
27
 
58
32
90

Per calcolare la statistica del  si applica l'espressione:

dove f è il valore osservato di una cella della tabella di contingenza, F è il corrispondente valore atteso, e ? la sommatoria che è eseguita su tutte le celle.

    E' necessario calcolare il contributo per ciascuna cella in rapporto alla differenza tra frequenze osservate e attese della cella.
     Nella tabella seguente sono riportati i contributi al  delle singole celle della tabella di contingenza, calcolati come (f - F)2/ F.
 
 
contributo
di pazienti
migliorati
contributo
di pazienti
non migliorati
Farmaco A
0,418
0,757
Farmaco B
0,628
1,138
Farmaco C
2,354
4,267

    La somma di questi sei valori dà 9,562 che è il valore del . E' necessario ora conoscere il numero di gradi di libertà (GL) con cui consultare la tavola dei Valori critici per la distribuzione del. Per una tabella di contingenza m x n il numero dei gradi di libertà è uguale a (m - 1) * (n - 1); dove con m si indica il numero delle righe e con n il numero delle colonne. I gradi di libertà dell'esempio presente sono (3 - 1) * (2 - 1) = 2 GL. Consultando la tavola con 2 GL si vede che 9,562 è più grande sia del valore corrispondente a p = 0,05 che del valore corrispondente a p = 0,01. Si è quindi autorizzati a respingere l'ipotesi zero ed a concludere che vi sono differenze reali tra gli effetti dei tre farmaci.
    Perché il test del  applicato ad una tabella di contingenza sia valido è necessario che nessuna frequenza attesa sia minore di 5; questo è particolarmente importante quando abbiamo una tabella di contingenza 2 x 2. Frequenze attese piccole danno un contributo troppo grande al  che risulta quindi troppo elevato. Se le frequenze attese in una o più celle di una tabella di contingenza sono minori di 5 l'interpretazione del risultati deve essere molto prudente. Nelle tabelle di contingenza più grandi, m x n, è raccomandato che le frequenze attese in ogni cella non siano mai inferiori a 1, e che non più del 20% di esse sia inferiore a 5. Talvolta è possibile superare questa difficoltà raccogliendo più dati o riunendo insieme due o più classi in modo da avere una frequenza attesa più elevata; non sempre però quest'ultimo provvedimento è conveniente, oltre ad essere ovviamente impossibile per le tavole 2 x 2.
 
 
Indice generale
Pagina precedente
Pagina principale
Pagina successiva