Esistono numerose situazioni nelle quali la descrizione
dei fenomeni è effettuata solamente in termini qualitativi o semiquantitativi.
Per valutare queste situazioni è necessario
utilizzare un test statistico che non presuppone alcuna condizione che
riguardi la natura o i parametri della popolazione dalla quale i campioni
provengono, in pratica utilizziamo un metodo non parametrico.
Il test
(si legge chi-quadrato) rappresenta una dei test statistici più
utilizzati e consente di rispondere alla domanda: "esiste una differenza
fra le frequenze osservate e quelle attese nei diversi gruppi?".
Per applicare il test nella
forma generalizzata per tabelle di contingenza è necessario che
ciascun elemento del campione in esame possa essere classificato per una
caratteristica in un numero R di classi, e per una seconda caratteristica
in un numero C di classi, in modo tale che i dati possano essere organizzati
in una tabella di R righe per C colonne, comprendente quindi un totale
di (R * C) celle.
Per illustrare il concetto si consideri il caso
più semplice, quello di una tabella 2 x 2 in cui:
- le frequenze osservate per ciascuna delle quattro celle sono indicate
rispettivamente con f1, f2, f3 e f4
- il totale della riga 1 è indicato con R1 (R1 = f1 + f2) e
quello della riga 2 indicato con R2 (R2 = f3 + f4)
- il totale della colonna 1 indicato con C1 (C1 = f1 + f3) e quello
della colonna 2 indicato con C2 (C2 = f2 + f4)
- il totale dei casi indicato con n (n = f1 + f2 + f3 + f4)
Si avrà la seguente tabella dei valori osservati:
|
|
Colonna 2 |
|
Riga1 |
|
|
|
Riga 2 |
|
|
|
|
|
|
Con f, abbiamo visto si indica la frequenza osservata
in una data cella, mentre con F indichiamo la frequenza attesa per la stessa
cella.
Ciascuna delle frequenze attese F assume un valore
pari al prodotto del totale della riga per il totale della colonna cui
la cella appartiene diviso per il totale dei casi osservato, in altre parole:
i quattro valori di F attesi corrispondenti ai valori di f osservati
sono allora:
|
|
colonna 2 |
|
Riga1 |
|
|
|
Riga 2 |
|
|
|
|
|
|
essendo ancora ovviamente F1 + F2 + F3 + F4 = n
Il è calcolato sommando i contributi per ciascuna cella come rapporto della differenza tra frequenze osservate e attese per tutte le celle della tabella, cioè come:
o più brevemente come:
Quello presentato è il caso più semplice con una tabella 2 x 2, ma è facile applicare le stesse regole a tabelle di qualsiasi dimensione. Al termine giungeremo ad un valore di p, cioè al valore della probabilità di osservare per caso un valore di della stessa grandezza di quello effettivamente osservato: se tale probabilità è sufficientemente piccola, si conclude che esiste una differenza significativa fra i diversi gruppi.
Vediamo un esempio: nella tabella successiva sono
riportati i risultati di uno studio nel quale a tre gruppi di pazienti
affetti dalla stessa patologia, ma scelti a caso, sono stati somministrati
tre differenti farmaci, A, B e C. I pazienti successivamente sono stati
classificati in due gruppi "migliorati" e "non migliorati". Quella sotto
riportata è un esempio di tabella di contingenza. I pazienti sono
stati prima classificati secondo un criterio (trattati con A, B o C); ciascuna
di queste classi è poi suddivisa secondo un altro criterio (migliorati
e non migliorati).
|
migliorati |
non migliorati |
|
Farmaco A |
|
|
|
Farmaco B |
|
|
|
Farmaco C |
|
|
|
|
|
|
|
La tabella precedente corrisponde alla tabella generica m x n:
caratteristica |
caratteristica Colonna 1 |
caratteristica Colonna 2 |
|
Riga 1 |
|
|
|
Riga 2 |
|
|
|
Riga 3 |
|
|
|
|
|
|
Nella tabella di contingenza generica ci sono m classi
primarie e ciascuna di queste classi è divisa in n sottoclassi cosicché
in totale la tabella contiene m x n celle; è spesso indicata come
tabella m x n. Nel caso specifico si tratta di una tabella 3 x 2.
L'ipotesi zero è che tutti i farmaci hanno
lo stesso effetto, e che le differenze osservate siano la conseguenza di
fluttuazioni casuali di campionamento. Si possono riunire i dati relativi
a tutte e tre i farmaci in modo da ottenere una stima della proporzione
media di pazienti migliorati: essa risulta uguale a 58/90 = 0,645 (C1/n).
Analogamente si ottiene una stima della proporzione media di pazienti non
migliorati, che risulta uguale a 32/90 = 0,355 (C2/n).
A partire da queste proporzioni medie si può
calcolare il numero dei pazienti migliorati e non migliorati che ci si
sarebbe attesi di trovare in base all'ipotesi zero; per esempio, i pazienti
migliorati per effetto del farmaco A avrebbero dovuto essere F1 = (C1 *
R1) / n cioè F1 = (58 * 37) / 90 = 23,844. Si calcolano quindi tutte
le frequenze attese e si scrivono nelle celle corrispondenti, otteniamo
così la tabella delle frequenze attese.
di pazienti migliorati |
di pazienti non migliorati |
||
Farmaco A |
|
|
|
Farmaco B |
|
|
|
Farmaco C |
|
|
|
|
|
|
|
Per calcolare la statistica del si applica l'espressione:
dove f è il valore osservato di una cella della tabella di contingenza, F è il corrispondente valore atteso, e ? la sommatoria che è eseguita su tutte le celle.
E' necessario calcolare il contributo per ciascuna
cella in rapporto alla differenza tra frequenze osservate e attese della
cella.
Nella tabella seguente sono riportati i contributi
al delle singole
celle della tabella di contingenza, calcolati come (f - F)2/
F.
|
di pazienti migliorati |
di pazienti non migliorati |
Farmaco A |
|
|
Farmaco B |
|
|
Farmaco C |
|
|
La somma di questi sei valori dà 9,562 che
è il valore del .
E' necessario ora conoscere il numero di gradi di libertà (GL) con
cui consultare la tavola dei Valori
critici per la distribuzione del.
Per una tabella di contingenza m x n il numero dei gradi di libertà
è uguale a (m - 1) * (n - 1); dove con m si indica il numero delle
righe e con n il numero delle colonne. I gradi di libertà dell'esempio
presente sono (3 - 1) * (2 - 1) = 2 GL. Consultando la tavola con 2 GL
si vede che 9,562 è più grande sia del valore corrispondente
a p = 0,05 che del valore corrispondente a p = 0,01. Si è quindi
autorizzati a respingere l'ipotesi zero ed a concludere che vi sono differenze
reali tra gli effetti dei tre farmaci.
Perché il test del
applicato ad una tabella di contingenza sia valido è necessario
che nessuna frequenza attesa sia minore di 5; questo è particolarmente
importante quando abbiamo una tabella di contingenza 2 x 2. Frequenze attese
piccole danno un contributo troppo grande al
che risulta quindi troppo elevato. Se le frequenze attese in una o più
celle di una tabella di contingenza sono minori di 5 l'interpretazione
del risultati deve essere molto prudente. Nelle tabelle di contingenza
più grandi, m x n, è raccomandato che le frequenze attese
in ogni cella non siano mai inferiori a 1, e che non più del 20%
di esse sia inferiore a 5. Talvolta è possibile superare questa
difficoltà raccogliendo più dati o riunendo insieme due o
più classi in modo da avere una frequenza attesa più elevata;
non sempre però quest'ultimo provvedimento è conveniente,
oltre ad essere ovviamente impossibile per le tavole 2 x 2.
|
|
|
|