Test di Wilcoxon per campioni indipendenti

    Se in uno studio utilizziamo dei dati di tipo ordinale o se, pur essendo di tipo intervallare, i dati non mostrano una distribuzione normale, per decidere se due gruppi di osservazioni possono essere considerati, a ragione, campioni diversi di una stessa popolazione dobbiamo servirci di un test statistico non parametrico. Il test di Wilcoxon per campioni indipendenti è uno dei più potenti test non parametrici; corrisponde al test t di Student per campioni indipendenti.
    Vediamo un semplice esempio. Durante una sperimentazione clinica di un farmaco contro l'ipertrofia prostatica, ai pazienti del gruppo A, formato da 27 individui (n₁), viene somministrato il farmaco A mentre i pazienti del gruppo B, formato anch'esso da 27 individui (n₂), ricevono il farmaco B. In genere si indica con n₁ il gruppo con numero inferiore di osservazioni e con n₂ il gruppo con numero maggiore di osservazioni, mentre se i due gruppi hanno la stessa numerosità è indifferente.
Tutti i pazienti all'inizio della terapia mostravano i tipici segni di ostacolato deflusso dell'urina durante la minzione. Dopo un mese di terapia i soggetti di entrambi i gruppi compilano un questionario composto da 50 domande alle quali il soggetto risponde scegliendo fra tre possibili risposte; ogni risposta è correlata all'importanza della sintomatologia (assente = 1, moderata = 2, grave = 3). Sommando tutti i punteggi di ogni domanda, ad ogni paziente sarà assegnato un punteggio totale che potrà variare da 50 a 150.
    Ci chiediamo: esistono dei validi motivi per affermare che i pazienti appartenenti al gruppo A hanno una sintomatologia più grave rispetto ai pazienti del gruppo B in base ai dati riportati nella seguente tabella.

Gruppo A rango Gruppo B rango

1 116 40,5 145 54

2 143 53 126 46,5

3 141 52 130 49

4 106 24 126 46,5

5 110 29 107 26,5

6 115 36 106 24

7 120 42,5 93 15

8 113 31,5 110 29

9 127 48 115 36

10 107 26,5 65 5,5

11 98 19 68 7,5

12 131 50 121 44,5

13 55 3 93 15

14 140 51 86 12,5

15 110 29 115 36

16 115 36 106 24

17 65 5,5 70 9

18 68 7,5 104 21

19 121 44,5 80 10

20 93 15 53 2

21 86 12,5 64 4

22 115 36 105 22

23 115 36 115 36

24 120 42,5 116 40,5

25 96 17 98 19

26 83 11 50 1

27 113 31,5 98 19

830 T = 655

Per applicare il test di Wilcoxon per campioni indipendenti assegniamo ad ogni punteggio, di entrambi i gruppi, un numero di rango, disponendo i dati in ordine di grandezza crescente in una singola lista, etichettandoli in modo che possano essere successivamente di nuovo distinti. Quando due o più numeri sono uguali, si assegna a ciascuno di essi la media dei numeri di posizione, come nella Tabella seguente.

1
50
B 2
53
B 3
53
A 4
64
B 5,5
65
A 5,5
65
B 7,5
68
A 7,5
68
B 9
70
B 10
80
B 11
83
A

12,5
86
A 12,5
86
B 15
93
A 15
93
B 15
93
B 17
96
A 19
98
A 19
98
B 19
98
B 21
104
B 22
105
B

24
106
A 24
106
B 24
106
B 26,5
107
A 26,5
107
B 29
110
A 29
110
A 29
110
A 31,5
113
A 31,5
113
A 36
115
A

36
115
A 36
115
A 36
115
A 36
115
B 36
115
B 36
115
B 40,5
116
A 40,5
116
B 42,5
120
A 42,5
120
A 44,5
121
A

44,5
121
B 46,5
126
B 46,5
126
B 48
127
A 49
130
B 50
131
A 51
140
A 53
141
A 53
143
A 54
145
B

    Si sommano i ranghi indicando con T il più piccolo di questi totali se i campioni hanno lo stesso numero di dati.
    Se invece i due campioni hanno diverso numero di dati si chiama T₁ il totale del campione che ha minore numero di dati, diciamo n₁ ed il numero dei dati del secondo campione si indica con n₂.
    La somma dei ranghi del campione più numeroso sarà calcolato come:

anche in questo caso si indicherà con T il più piccolo fra i valori T₁ e T₂.

    Se l'ipotesi nulla è vera dobbiamo aspettarci che in media i ranghi, in ognuno dei due gruppi siano quasi uguali. Se la somma dei ranghi per un gruppo è molto grande (o molto piccola), potremmo aver ragione di sospettare che i campioni siano tratti dalla stessa popolazione o che vi siano differenze fra due gruppi tratti dalla stessa popolazione.
    Il test di Wilcoxon fornisce una risposta sempre più attendibile con l'aumento della numerosità dei gruppi in esame.
    Quando n₁ e n₂ aumentano di dimensioni, la distribuzione campionaria di T, si avvicina rapidamente alla distribuzione normale ridotta con:

e deviazione standard:

da cui:

z_T può essere confrontato con la distribuzione di t corrispondente ad un numero infinito di gradi di libertà perché quando i campioni sono numerosi (n > 20) tale distribuzione si avvicina a quella normale. Il confronto è reso più accurato introducendo una correzione per la continuità. Consideriamo ancora i dati del nostro esempio, essendoci 27 soggetti in ciascun gruppo, ricaviamo il valore di p calcolando z_T e confrontiamo il valore ottenuto con la distribuzione normale. La media di tutti i possibili valori di T, per esperimenti di queste dimensioni, è:

e deviazione standard

Utilizziamo la somma dei ranghi più piccola perchè i gruppi nello studio hanno la stessa numerosità, pertanto:

Si confronta la tabella dei valori critici del t di Student per un numero di gradi di libertà infinito. Questo valore è minore di 1,960, il valore di z che individua, nella distribuzione normale, una quota di valori pari al 5% dei valori più elevati. Lo studio non da quindi elementi sufficienti per dire che il farmaco B abbia fornito un effetto nel miglioramento dei sintomi quando confrontato con il farmaco A.

Indice generale

Pagina principale

Pagina successiva