Category: modulo4

25 Stima dell’attendibilità
Table of Contents
Introduzione

L’attendibilità (o fedeltà) riguarda la precisione dello strumento. La misura che otteniamo oggi su una determinata caratteristica dobbiamo poterla ottenere anche a distanza di tempo. Effettuando due misure con lo stesso strumento vi deve essere un accordo, una coerenza.

Tutte le misure sono affette da errori dovuti al caso. Il dato osservato X è costituito da una parte che corrisponde alla misura “vera” V e da una parte di errore casuale E.

Una misura è attendibile, quando si dimostra che tali errori di misura incidono in piccola parte, cioè che E sia molto piccolo e quindi il dato osservato X sia molto vicino al valore vero V.

Quindi l’attendibilità non è altro che l’affidabilità del nostro strumento, cioè il grado di accordo tra diversi tentativi di misurare uno stesso concetto teorico.

Quindi abbiamo che il nostro punteggio X è dato da una componente vera e un errore.

X = V + E

Dove: X = punteggio osservato, V = punteggio vero, E = errore casuale.

L’attendibilità può essere espressa come la percentuale di X che è dovuta al punteggio vero, overo tra rapporto tra V e somma di V ed E.

V / (V + E)

Le ASSUNZIONI STATISTICHE DELLA TEORIA sono che

1. la media degli errori casuali deve essere nulla per n che tende all’infinito

2. Punteggio vero e errore sono indipendenti.

3. Due errori casuali sono indipendenti.

Da tali assunzioni deriva che il punteggio osservato medio è

Per n → ∞ ho che il punteggio osservato medio è uguale al punteggio vero medio.

In altre parole perché la misura possa dirsi attendibile si assume dunque che tali errori di misura incidano in piccola parte, cioè che E sia molto piccolo e quindi il dato osservato X sia molto vicino al valore V.

Da qui si dimostra che la varianza del punteggio osservato è uguale alla somma della varianza della parte “vera” e della varianza d’errore.

Inoltre si dimostra che dividendo entrambi i membri dell’equazione per la varianza del punteggio osservato, si ottiene il coefficiente di attendibilità.

In base a questa formula, possiamo definire l’attendibilità come il rapporto tra la varianza della parte vera e la varianza osservata.

Tale rapporto è massimo (cioè = 1) quando la varianza d’errore è minima (tendente a 0).

Il valore dell’attendibilità ha quindi la proprietà
- di variare tra 0 e 1
- aumenta al diminuire della varianza di errore
Quindi maggiore è r_tt e maggiore sarà la precisione dello strumento

Metodo del Test-Retest

L’attendibilità di può calcolare in modi diversi. Una prima modalità riguarda l’utilizzo test-retest (r di Pearson)

Per fare ciò:
- Si somministra il test al tempo T1 e al tempo T2 e si calcola la correlazione tra i punteggi.
Questo metodo non necessita di ulteriori specificazioni. Basta saper calcolare la r di Pearson tra due serie di punteggi.

Facciamo un esempio di calcolo. Abbiamo 6 soggetti che hanno compilato un questionario, una volta al tempo T1, e una volta al tempo T2.

Il coefficiente è 0.53, e ci dice che le misure sono mediamente correlate. In generale ci aspettiamo che la relazione sia molto elevata, almeno 0.70.

Quindi il nostro strumento attraverso il metodo del test-retest non è risultato molto attendibile.

Questo metodo presenta alcuni limiti:
- Un possibile limite alla stima dell’attendibilità attraverso la correlazione test-retest è quello dell’apprendimento da parte di soggetti. Ovvero se somministriamo due volte lo stesso test agli stessi soggetti può generare due fonti di errore.
I soggetti da un lato potrebbero aver imparato a rispondere al test ed è quindi come se fosse somministrato a soggetti diversi durante la seconda somministrazione. Oppure la caratteristica che si sta misurando può essere modificata nel tempo.

Metodo delle forme parallele

Per minimizzare le fonti di errori derivanti dal metodo del test-retest si può usare un nuovo metodo di stima dell’attendibilità che è quello delle forme parallele. Questo metodo si basa sul confrontare, mettere in relazione, due forme parallele dello stesso test. La stima dell’attendibilità avviene con un coefficiente che chiamiamo coefficiente di equivalenza, che non è altro che la r di Pearson.

L’attendibilità, in questo caso, è stimata sull’equivalenza delle due forme.

Facciamo un esempio: si somministrano due versioni equivalenti del test (vuol dire che i test hanno stessa media e stessa dev. st.) al tempo T1 e al tempo T2. La correlazione tra le due forme è una stima dell’attendibilità.

Un ulteriore modo di procedere all’interno delle forme parallele è quello dello split-half.

In questo caso si sommiistra il test in un unico tempo T1. Poi si divide il test a metà e si considerano le due metà come forme parallele (stessa media e stessa deviazione standard)

L’attendibilità sarà la r di Pearson, ovvero la correlazione tra le due metà del test. Va corretta con la formula profetica di Spearman-Brown, dato che la vera lunghezza della scala è doppia rispetto a quella delle due metà.

Questa formula (Spearman-Brown) mira a prevedere l’attendibilità di un test al variare della sua lunghezza.

dove:
- r_ntt = attendibilità della forma ipotetica
- n = rapporto tra numero di item della forma ipotetica e numero di item nella versione già esistente del test
Con la stessa formula possiamo anche risolvere il caso inverso, cioè stimare quanto dovremo allungare o accorciare il test per ottenere un’attendibilità prefissata.

Facciamo un esempio: abbiamo un test composto da 20 item con attendibilità r_tt (r di Pearson) = .83

Possiamo stimare l’attendibilità del nostro test se aggiungessimo 8 item con caratteristiche simili ai 20 esistenti.

Quindi se aggiungiamo 8 item la nostra attendibilità salirebbe a .87

Se invece ci poniamo una domanda diversa, ovvero partendo sempre dai 20 item, quanti item dovrei aggiungere per avere un’attendibilità di .90?

dove n = rapporto tra numero di item della forma ipotetica e numero di item nella versione già esistente del test.

Otteniamo 1.84 che è il rapporto tra gli item finali e iniziali.

Quindi ricaviamo 37, ovvero occorrerà aggiungere 17 item (20+17=37) per avere un’attendibilità di .90

I limiti nell’utilizzo delle forme parallele sono
- la costruzione di due test paralleli non è facile.
Infatti, due test si dicono paralleli se hanno stessa media, stessa varianza e stessa intercorrelazione tra gli item che li compongono. Situazione che in psicologia non è sempre detto che si verifichi.

Metodo della coerenza interna

Stima attendibilità con il coefficiente α di Cronbach

Quindi il metodo più utilizzato nella ricerca in psicologia per la stima dell’attendibilità è quello della coerenza interna.

Per fare ciò possimao usare il coefficiente alpha di Cronbach.

La procedura è la seguente
- Si somministra il test in un unico tempo T1.
- Ogni item viene considerato un test a sé stante.
- Si stima (con apposite formule) la correlazione media tra tutti gli item, e si riassume la coerenza degli indicatori tramite l’indice α di Cronbach.
Questo è spesso il metodo più utilizzato in psicologia.

Il coefficiente α di CRONBACH concettualmente è il rapporto fra la varianza della scala totale rispetto alla somma delle varianze dei singoli item.

Quando si utilizza questo coefficiente? Quando abbiamo degli item politomici (non dicotomici, che hanno più livelli).

Questo coefficiente
- Varia fra 0 e 1. Valori superiori a .70 sono considerati buoni.
- All’aumentare del numero degli item, tende ad aumentare avvicinandosi asintoticamente a 1.
La sua formula è:

Stima attendibilità con il coefficiente K-R₂₀ di Kuder-Richardson

Quando invece abbiamo a che fare con degli item che sono dicotomici utilizziamo il coefficiente K-R₂₀ di Kuder-Richardson.

Concettualmente identico ad alpha di Cronbach. Varia fra 0 e 1. Valori superiori a .70 sono considerati buoni. Infine all’aumentare del numero degli item, tende ad aumentare avvicinandosi asintoticamente a 1.

Errore standard di misura

Abbiamo visto che l’attendibilità (o fedeltà) riguarda la precisione dello strumento.

Tutte le misure sono affette da errori dovuti al caso: il dato osservato X è costituito da una parte che corrisponde alla misura “vera” V e da una parte di errore casuale E.

Una misura è attendibile quando si dimostra che tali errori di misura incidono in piccola parte, cioè che E sia molto piccolo e quindi il dato osservato X sia molto vicino al valore V.

Tuttavia, sappiamo che non è possibile conoscere effettivamente la varianza della parte “vera”, per cui l’attendibilità dei test psicologici è da considerarsi sempre una stima.

In altre parole, l’intrinseca imprecisione di qualunque strumento implica che ogni punteggio ottenuto è accompagnato da un errore casuale.

Per tenere conto di tale errore dobbiamo considerare un margine entro il quale possiamo considerare accettabile la stima.

Tale margine è quantificato attraverso l’errore standard di misura.

Quindi l‘errore standard di misura è la stima delle deviazioni standard dei punteggi osservati intorno al punteggio vero.

dove σ_x è la deviazione standard del punteggio osservato x, r_tt è l’attendibilità.

Facciamo un esempio: supponiamo di avere un test del quale conosciamo l’attendibilità r_tt = .82 e la varianza σ²_x = 9. Vogliamo conoscere l’errore standard di misura del test. Applichiamo la formula.

Uso dell’errore standard di misura

Intervallo di fiducia per il punteggio vero

Questo intervallo è il margine entro il quale possiamo considerare accettabile la stima.

Partendo dal punteggio ottenuto da un soggetto ad un test, conoscendo l’errore standard del test, possiamo ricavare l’intervallo di fiducia all’interno del quale cadrà il punteggio vero V del soggetto se si ripetesse il test un numero infinito di volte.

Assumiamo che la distribuzione dei punteggi osservati intorno al punteggio vero sia normale e usiamo le proprietà della curva per stimare l’intervallo di confidenza al 95% della posizione di V.

Vediamo come determinare gli intervalli di confidenza

Di seguito la formula per il calcolo dei limiti dell’intervallo di fiducia (o di confidenza)

Dove z_α è il valore critico di z per α prefissato (es., α = .05 → z_α = 1.96).

Facciamo un esempio: Otteniamo un punteggio pari a 108. L’errore standard è 1.12. In quale ambito cade il suo punteggio vero con un margine di fiducia del 95%?

L’intervallo di fiducia per il punteggio vero V è compreso tra 105.81 e 110.19.
2026-02-27
24 Relazione tra variabili: la verifica delle ipotesi sul coefficiente di regressione lineare
Table of Contents
- La regressione lineare
- Verifica delle ipotesi sul coefficiente di regressione
  - Esempio
La regressione lineare

Il concetto di regressione è legato a quello di previsione, ovvero alla possibilità di prevedere, in base alla variazione di una variabile, la variazione di un’altra variabile ad essa correlata.

Viene introdotta, quindi, la relazione di causa-effetto, o meglio, di antecedente-susseguente.

Data una variabile “x” (detta variabile indipendente), antecedente all’altra variabile, “y” (detta variabile dipendente), lo studio della loro relazione permette di verificare se e quanto la V.I. (variabile indipendente) «spiega» o «influenza» la V.D.

Quando la correlazione tra le due variabili è molto alta, dato un valore di “X” (V.I.), è possibile prevedere il corrispondente valore di “Y” (V.D.) attraverso l’equazione di regressione.

Se per esempio consideriamo X (capacità di ragionamento astratto) la variabile indipendente, che precede logicamente la variabile dipendente, Y (voto in matematica) si può supporre influenzata o spiegata dalla variabile indipendente X. Per logica non è vero il contrario, il voto in matematica non può influire su una capacità già esistente nel soggetto.

Il legame tra correlazione e regressione è espresso dal coefficiente di determinazione che è il coefficiente di correlazione elevato al quadrato.

Ricordiamo la formula che esprime il coefficiente di correlazione lineare r attraverso la covarianza:

(covarianza di x e y, poi sotto ho le deviazioni standard di x e y). Il coefficiente di determinazione sarà quindi

Esso esprime la proporzione di varianza di Y (variabile dipendente) spiegata dall’influenza di X (variabile indipendente).

Se la relazione tra X e Y è perfetta, positiva o negativa (cioè r = +1 o -1), r² sarà uguale a 1.00, e cioè che la «varianza spiegata» corrisponde al 100%.

In tutti i casi intermedi abbiamo una parte di varianza, detta residua, che è la porzione di varianza della V.D. non spiegata dalla V.I. (1 – r²).

Se, riferendoci all’esempio, la correlazione tra X (ragionamento astratto) e Y (voto in matematica) risultasse r = 0.72, il coefficiente di determinazione r² = 0.52 indicherebbe che il 52% della variabilità di Y è spiegato dalla variabile antecedente X.

In questo caso la varianza residua sarebbe 1 – 0.52 = 0.48.

Con l’analisi della regressione studiamo se e quanto i valori assunti da Y (V.D.) dipendono dai valori corrispondenti assunti da X (V.I.).

Al concetto di regressione è collegato quello di «previsione». Quando il legame tra due variabili è molto stretto (correlazione elevata = elevata porzione di varianza comune), dato un valore di X, è possibile «prevedere», con un margine d’errore più o meno grande, il corrispondente valore di Y.

Indicheremo tale valore con il simbolo Y’ (Y predetto).

Per effettuare la previsione di Y dato X, si utilizza l’equazione di regressione.

Tale equazione, quando si tratta di relazioni lineari, non è altro che l’equazione di una retta.

Tuttavia, non si tratta di una retta qualsiasi bensì quella costruita in modo che sia la migliore tra tutte le infinite rette che si possono far passare attraverso i punti-intersezione del diagramma di dispersione.

Il criterio utilizzato per individuare tale retta è quello dei minimi quadrati, che consiste nello scegliere la retta che rende minima la somma delle distanze al quadrato tra le Y (osservate) e le Y’ (predette):

Σ (Y – Y’)² = minimo

Questa è la retta che, tra le infinite possibili, si avvicina più di tutte a tutti i punti del diagramma di dispersione.

L’equazione di una retta generica è:

y = a + bx

L’equazione della retta di regressione è:

y’ = a + bx

dove il parametro b:
- è il COEFFICIENTE DI REGRESSIONE (o angolare)
- indica l’inclinazione della retta, ovvero l’angolo che essa forma con l’asse delle ascisse
- Esprime la quantità di incremento (se positivo) o decremento (se negativo) che si verifica in Y per ogni unità di incremento o decremento in X.
- È il peso della V.I. sulla V.D.
Il parametro b lo andiamo a calcolare con

cioè il rapporto tra la somma del prodotto degli scarti di X e di Y dalle rispettive medie, e la somma degli scarti al quadrato di X.

A partire dalla precedente formula si ricava una formula semplificata di b per il calcolo dai dati grezzi.

Mentre il parametro a:
- è l’INTERCETTA sull’asse delle ordinate.
- Indica il punto in cui la retta incontra l’asse delle ordinate, ovvero la distanza tra l’origine degli assi e il punto in cui la retta taglia (incontra) l’asse delle ordinate.
Si ricava attraverso la seguente formula:

a = ȳ – b x̄

con
- ȳ: y medio
- x̄: x medio
Esempio

Abbiamo un campione di 9 adolescenti a cui abbiano chiesto di completare un compito e abbiano misurato il tempo impiegato.
Vogliamo verificare se la «velocità di esecuzione» (X) predice (spiega) il «numero di errori commessi» (Y).
Osserviamo la seguente distribuzione di punteggi:

facciamo i nostri calcoli e aggiungiamo due colonne

Calcoliamo ora b e a

Per tracciare la retta sarà sufficiente calcolare due valori di Y’:

Y’ per un soggetto che impiega x = 20 secondi e per un soggetto che impiega x = 55 secondi nel risolvere il compito.

Nella retta di regressione trovata si sostituisce ad x il valore di interesse e si calcola Y’:
- Y’ = 11.79 + (-0.16 * 20) = 8.59
- Y’ = 11.79 + (-0.16 * 55) = 2.99
Verifica delle ipotesi sul coefficiente di regressione

Come posso valutare se la relazione sintetizzata tramite il coefficiente regressione è significativa, cioè probabilisticamente diversa da zero?

Devo fare la verifica delle ipotesi, e questa verifica viene effettuata su β (beta):
- β = (parametro nella popolazione corrispondente al coefficiente b)
L’ipotesi viene verificata trasformando la b in una t (come per la correlazione).

La situazione in cui ci troviamo è la seguente
- abbiamo una popolazione dalla quale abbiamo estratto 1 campione
- abbiamo 2 VARIABILI METRICHE (covarianza) e siamo interessati capire se una variabile influisce sull’altra
Siamo nell’ambito della DISTRIBUZIONE NORMALE BIVARIATA (Spazio cartesiano a tre assi, tridimensionale) e useremo come distribuzione teorica di riferimento la DISTRIBUZIONE TEORICA DI PROBABILITÀ t

La procedura da seguire è la seguente

1. scelta del test statistico (di significatività): Abbiamo Due variabili metriche di cui voglio indagare relazione causale. Si calcola b e si trasforma in t

2. Definizione dell’ipotesi: Confrontare con la popolazione di riferimento
- H₀: β = 0 (non c’è effetto)
- H₁: β ≠ 0 (bidirezionale)
- β > 0 oppure β < 0 (monodirezionale)
3. Fissare il livello di significatività α e calcolare i gradi di libertà

Si definisce la regione di rifiuto in base a:
- α (= .05; .01; .001; ecc.)
- gdl = n – 2
- H₁ capire se è mono/bi-direzionale
Si trova poi un t_critico sulla Tavola

4. Associare una probabilità ad H₀

Si associa una probabilità ad H₀ trasformando b in t. La t è dato dal rapporto tra b e il suo errore standard

5. Decisione su H₀ (accettazione o rifiuto di H₁): Il confronto avviene tra t e t_critico

Se |t| < |t_critico| = p > α
- Si accetta H₀: l’ipotesi di un’assenza di relazione (β = 0) è probabilmente vera
- La relazione causale tra le due variabili non è significativa.
Se |t| > |t_critico| = p < α
- Si rifiuta H₀: si accetta H₁: l’ipotesi di un’assenza di relazione (β = 0) è probabilmente falsa
- La relazione causale tra le due variabili è significativa.
Esempio

Abbiamo un campione di 9 adolescenti a cui abbiano chiesto di completare un compito e abbiano misurato il tempo impiegato. Vogliamo verificare se la «velocità di esecuzione» (x) predice o spiega (relazione causale) il «numero di errori commessi» (y).

Sappiamo che la media x̄ = 34.4 con deviazione standard s_x = 13.1 e che la media della y è ȳ = 5.4 con deviazione standard s_y = 2.2

1. scelta del test statistico (di significatività):

Abbiamo
- 1 Campione: n = 9
- 2 variabili metriche: «velocità di esecuzione» e «numero di errori commessi» di cui vogliamo indagare la relazione causale
Scelgo di calcolare b

2. Definizione dell’ipotesi:

Le ipotesi saranno
- H₀: β = 0 (La velocità di esecuzione non predice significativamente il numero di errori commessi; non vi è una relazione causale tra le due variabili)
- H₁: β ≠ 0 (Bidirezionale: la velocità di esecuzione predice significativamente il numero di errori commessi; vi è una relazione causale significativa tra le due variabili)
3. Fissare il livello di significatività α e calcolare i gradi di libertà

Fissiamo α = .05; H₁ è bidirezionale; gdl = 9 – 2 = 7

Si definisce la regione di rifiuto secondo α, gdl e H₁, bidirezionale trovando un t_critico sulla Tavola

t_critico = 2.365

4. Associare una probabilità ad H₀

Calcolo b e lo trasformo in t

5. Decisione su H₀ (accettazione o rifiuto di H₁)

Abbiamo

| 8.00 | < | 2.37 | → p < .05

Quindi si rifiuta H₀, si accetta H₁, quindi si considera “verosimile” l’ipotesi alternativa

La probabilità che β sia uguale a 0 è minore del 5% fissato con α; ne concludo che:
- L’ipotesi di un’assenza di relazione (β = 0) è probabilmente falsa
- Vi è una relazione causale significativa tra la velocità di esecuzione e il numero di errori commessi.
- La velocità di esecuzione predice negativamente e significativamente il numero di errori commessi.
2026-02-27
23 Relazioni tra variabili: La verifica delle ipotesi sui coefficienti di correlazione non parametrici
Table of Contents
Introduzione

Spesso capita di non avere a disposizione delle misure di tipo metrico per le due variabili, X e Y, che si pensa possano essere associate.

Se si hanno scale dicotomiche o ordinali, vi sono una varietà di coefficienti concettualmente simili alla r di Pearson.

Se si dispone di frequenze, un coefficiente calcolato su una tabella di contingenza consente di indagare ipotesi di associazione.

Esempio

Per capire meglio facciamo un esempio e immaginiamo di aver osservato i comportamenti aggressivi e quelli oppositivi di 14 adolescenti durante le loro interazioni con i genitori.

Preferiamo misurare le due variabili come due graduatorie (dal meno aggressivo al più aggressivo; dal meno oppositivo al più oppositivo).

Non possiamo utilizzare r di Pearson poichè la graduatoria indica il livello di misura ordinale; non abbiamo misure metriche.

Osserviamo la seguente distribuzione di frequenze:

Quando abbiamo a che fare con queste tipi di variabili (non metriche) dobbiamo usare i coefficienti non parametrici. Questi devono essere utilizzati anche quando una sola delle due variabili in relazione non raggiunge il livello metrico di misurazione.

Un esempio di coefficiente di correlazione non parametrico è quello della correlazione tra ranghi r_s di Spearman

Il coefficiente di correlazione tra ranghi (misure ordinali)

Il coefficiente r_s va calcolato quando i dati sono costituiti da ranghi (graduatorie), oppure quando una delle variabili è ordinale, e l’altra metrica (previa trasformazione in rango).

Il coefficiente di correlazione rₛ si basa sulle differenze d tra i ranghi attribuiti a ciascuna coppia di valori e può essere calcolato tramite la formula:

dove:
- d_i = differenza tra i ranghi di ciascuna coppia di punteggi
- n = numero dei soggetti (o coppie di punteggi)
Quando i ranghi delle due graduatorie coincidono tutte le d=0 quindi

Quindi r_s = 1, oppure quando le posizioni in graduatoria sono esattamente opposte il coefficiente sarà r_s = -1 (correlazione negativa perfetta)

Esempio

ESEMPIO: Comportamenti aggressivi (x) e oppositivi (y) di 14 adolescenti. Ciascun soggetto è stato classificato sulla base di due variabili ordinali (graduatorie).

La colonna d corrisponde alle differenze, l’ultima colonna alle differenze al quadrato.

Il coefficiente risulta:

Verifica delle ipotesi su r_s di Spearman

Come posso valutare se la relazione sintetizzata tramite il coefficiente di correlazione rₛ è significativa, cioè probabilisticamente diversa da zero?

L’ipotesi viene verificata sul ρₛ (rhoₛ), dove ρₛ = parametro nella popolazione corrispondente alla statistica rₛ

Dunque, si procede in modo analogo a r di Pearson. Vanno però distinti due casi:
- Se n ≤ 30 i valori rₛ critici sono tabulati per due livelli di α (.05 e .01) e ipotesi monodirezionale in funzione del numero dei soggetti (non gdl). Quindi in questo caso usiamo la distribuzione r_s di Spearman e i relativi valori critici.
- Se n > 30, così come per il coefficiente r di Pearson, esiste una relazione tra rₛ e t di Student. In questo caso procederemo usando la distribuzione di probabilità t (trasformare r_s di Spearman in t di student)
In quale situazione ci troviamo? Abbiamo una popolazione dalla quale estraiamo 1 campione. Poi abbiamo due variabili ordinali.

La procedura è la seguente

1. Scelta del test statistico (di significatività)

Si calcola rₛ

2. Definizione dell’ipotesi:

Confronto con la popolazione di riferimento
- H₀: ρₛ = 0
- H₁: ρₛ ≠ 0 (bidirezionale solo se n > 30)
- H1: ρₛ > 0 oppure ρₛ < 0 (monodirezionale se n < 30)
3. Fissare il livello di significatività α:

Si delinea la regione di rifiuto in base a:
- α (= .05; .01; .001; ecc.)
- n (per n < 30) oppure gdl = n-2 (per n > 30)
- H₁ (monodirezionale per n < 30)
- H₁ mono-/bi-direzionale per n > 30
trovando un rₛ critico (per n < 30) oppure t_critico (per n > 30) sulla Tavola

4. Associare una probabilità ad H₀

Quando n < 30, si associa una probabilità ad H₀ calcolando rₛ e confrontandola con rₛ critico:

Quando n > 30, si associa una probabilità ad H₀ calcolando r_s trasformandolo in t e confrontandolo con t_critico

5. Decisione su H₀ (⇒ H₁): Il confronto avviene tra rₛ e rₛ critico per n < 30, Oppure tra t e t_critico per n > 30

Se |rₛ| < |rₛ critico| oppure |t| < |t_critico| = p > α
- Si accetta H₀ ⇒ L’ipotesi di un’assenza di relazione (ρₛ = 0) è probabilmente vera ⇒ La relazione tra le due variabili non è significativa.
Se |rₛ| > |rₛ critico| oppure |t| > |t_critico| = p < α
- Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ L’ipotesi di un’assenza di relazione (ρₛ = 0) è probabilmente falsa ⇒ La relazione tra le due variabili è significativa.
Esempio n < 30

ESEMPIO (precedente).

Abbiamo osservato i comportamenti aggressivi e quelli oppositivi di 14 adolescenti durante le loro interazioni con i genitori. Vogliamo verificare se esiste una relazione fra comportamenti aggressivi e quelli oppositivi.

Essendo n < 30 allora ho la seguente procedura

1. Scelta del test statistico (di significatività):

Ho 1 Campione con n = 14. Ho poi 2 variabili ordinali “compotamento aggressivo” e “comportamento oppositivo”. Si sceglie rₛ (r di Spearman)

2. Definizione dell’ipotesi:

H₀: ρₛ = 0 → assenza di relazione;

H₁ (monodirezionale): ρₛ > 0 → relazione positiva tra i due comportamenti

3. Si delinea la regione di rifiuto di H₀:

Si fissa α = .01 per n = 14.

Si trova un rₛ critico = .645 (sulla tavola)

4. Associare una probabilità ad H₀:

Calcolo rₛ con la seguente formula

5. Decisione su H₀ (⇒ H₁)

Facciamo confronto rₛ con rₛ critico
Poiché rₛ = (.29) < rₛ critico (= .645) si accetta H₀
Quindi la relazione tra comportamenti aggressivi e oppositivi non è significativa

Esempio n > 30

Se invece ho n > 30 allora ho la seguente procedura

1. Scelta del test statistico (di significatività):

Ho 1 Campione con n = 40. Ho poi 2 variabili ordinali “compotamento aggressivo” e “comportamento oppositivo”.

Si sceglie rₛ (r di Spearman) che viene trasformata in t di Student.

2. Definizione dell’ipotesi:

H₀: ρₛ = 0 → assenza di relazione;

H₁ (monodirezionale): ρₛ > 0 → relazione positiva tra i due comportamenti

3. Si delinea la regione di rifiuto di H₀:

Si fissa α = .01 per gdl = 40 -2 = 38 e H1 monodirezionale. Trovo un t_critico pari a 2.423 (sulla tavola)

4. Associare una probabilità ad H₀:

Dopo aver calcolato rₛ lo trasformiamo in t

5. Decisione su H₀ (⇒ H₁)

Effettuiamo il confronto t con t_critico
Poiché t (= 1.86) < tcritico (= 2.423) si accetta H₀
La relazione tra comportamenti aggressivi e oppositivi non è significativa.

Se il valore di t non è (oppure è) significativo non lo è (oppure lo è) anche rₛ

Quando una o entrambe le variabili non costituiscono già una graduatoria, dobbiamo trasformarle in ranghi.

Facciamo un esempio.

Misuriamo se i pazienti affetti da Autostima (0 “bassa”; 6 “alta”) e insonnia (numero di notti in una settimana in cui si ha difficoltà ad addormentarsi).

Sono associate? (α = .05)

Le due variabili non costituiscono in questa forma delle graduatorie.

Se tuttavia consideriamo ordinali le due misure (o anche almeno una) debbo trasformarle in ranghi prima di calcolare la loro associazione.

Per fare ciò debbo ordinare per ciascuna variabile (autostima e insomia) i soggetti in modo crescente, e in questo modo protremo assegnare dei ranghi. Se due punteggi sono uguali assegno un rango medio (si vede i valori con colore arancione).

Ora unisco la graduatoria in un’unica tabella, stando attento a mantenere sulla stessa riga i punteggi e i ranghi del medesimo soggetto.

A questo punto calcolo r_s

Per testare l’ipotesi nulla possiamo:
- Usare un’approssimazione alla t (per “grandi” campioni)
- Usare una tavola con valori “esatti” di rₛ (per “piccoli” campioni)
Il problema è che la tavola dei valori r Di Spearman prevede valori critici solo per ipotesi monodirezionali (poco frequenti).

Dunque, è consigliabile usare la trasformazione in t (gdl = n – 2):

Il coefficiente di correlazione tra variabili dicotomiche r_phi

Questo coefficiente misura la relazione fra due variabili nominali dicotomiche, ad es. la relazione tra due item di un test con risposta giusto/sbagliato.

Il coefficiente di correlazione r_phi va calcolato quando i dati sono costituiti da due variabili categoriali a due livelli.

Facciamo un esempio: In un gruppo di pazienti cerebrolesi si vuole valutare se la presenza di deficit del campo visivo è in relazione con il lato della lesione. Quindi ho
- Lesione DX/SN = variabile dicotomica A
- Deficit di campo visivo SI/NO = variabile dicotomica B
Il calcolo di r_phi si basa sul conteggio delle frequenze. La formula è

Verifica delle ipotesi su r_phi

Come posso valutare se la relazione sintetizzata tramite il coefficiente di correlazione r_phi è significativa, cioè probabilisticamente diversa da zero?

La verifica dell’ipotesi viene indicata con π_phi (pi greco phi) ovvero il parametro nella popolazione corrispondente alla statistica r_phi.

È stato dimostrato che

e pertanto si associa una probabilità ad H₀ (π_phi = 0 oppure ρ = 0) delineando la regione di rifiuto attraverso il χ² critico.

Facciamo un esempio: In un gruppo di pazienti cerebrolesi si vuole valutare se la presenza di deficit del campo visivo (var. B SI/NO) è in relazione con il lato della lesione (var. A DX/SN)

1. Scelta del test statistico (di significatività):

1 Campione: n = 140; 2 variabili dicotomiche “campo visivo” e “lesione”.

Scelgo r_phi (indagine della relazione tra due variabili dicotomiche)

2. Definisco le ipotesi:

Ho le seguenti ipotesi
- H₀: π_phi = 0 (assenza di relazione)
- H₁: π_phi ≠ 0 (presenza di una relazione)
3. Delineo la regione di rifiuto di H₀:

Fissiamo α = .01

gdl = (2 righe – 1)(2 colonne – 1) = 1 → sulla tavola, trovo χ² critico = 6.64

4. Associare una probabilità ad H₀:

Dopo aver calcolato r_phi utilizzo la stessa tabella di contingenza per calcolare la statistica test χ². Andiamo a confrontare le frequenze osservate con le frequenze teoriche.

Calcolo le frequenze teoriche per ogni cella

Ora possiamo andare a confrontare queste frequenze teoriche con quelle osservate atraverso la formula che usiamo per il calcolo per il χ².

Queste 3 formule sono pressochè equivalenti

5. Decisione su H₀ (⇒ H₁):

Facciamo il confronto

χ² > χ² critico (28.0 > 6.64) ⇒ p < .05

Quindi r_phi (.447) è significativo ⇒ Rifiuto H₀

Ne concludo che la presenza del deficit è associata alla localizzazione della lesione. Osservando i valori attesi, capisco che la lesione a destra è più spesso associata alla presenza del deficit, mentre la lesione a sinistra più spesso non procura deficit.
2026-02-27
22 Relazioni tra variabili: La verifica delle ipotesi sul coefficiente di correlazione R di Pearson
Table of Contents
- Il coefficiente di correlazione lineare R di Bravais-Pearson
- Verifica delle ipotesi su R di Pearson
  - Esempio
Il coefficiente di correlazione lineare R di Bravais-Pearson

A che serve la correlazione? Mettere in evidenza la relazione esistente tra due variabili. E consiste nello:
- stabilire il tipo di relazione (ad esempio lineare)
- stabilire il grado (forza o intensità) di tale relazione
- stabilire la direzione di tale relazione
Ad esempio:
- studiare la relazione tra età e peso, e capire se con l’avanzare dell’età aumenti anche il peso
- Tempo di esecuzione di un compito e numero di errori
- Stress e sintomi psicosomatici
Per meglio comprendere facciamo un esempio: Abbiamo 6 soggetti a cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva. Inoltre chiediamo loro se pensano sia difficle esercitarsi al computer. Vogliamo verificare se esiste una relazione fra intenzione nell’uso del pc e percezioni di controllo (quanto è difficile utilizzare il pc). Ecco la seguente distribuzione dei punteggi
- int: intenzione
- con: controllo
Per avere una visione grafica usiamo il diagramma di dispersione

La nube dei punti si sviluppa secondo una retta (la relazione è di tipo lineare)

Come fare per sisntetizzare i punteggi secondo un solo valore? In questo caso andiamo a Calcolare il punto le cui coordinate sono le medie (My e Mx)

Questo punto medio lo possiamo esprimere in termini di covarianza. La covarianza misura il grado di asociazione di 2 variabili (quanto la variabile x e y variano insieme)

Questo indice:
- Può assumere valori positivi e negativi
- Quando è 0, x e y sono indipendenti
- Aumenta al crescere del grado di dipendenza tra x e y
La covarianza ha un Limite: è una misura relativa, quindi dipende dall’unità di misura delle variabili

Come fare allora per ottenere un valore che sia indipendente dalle unità di misura di x e y? Lo dobbiamo standardizzare andando a calcolare le deviazioni standard di x e y (dispersione della nube dei punti).

Questo coefficiente è il coefficiente di correlazione r di Pearson, ed è una sorta di covarianza standardizata.

Il coefficiente r costituisce un indice della bontà di adattamento della retta ai dati campionari.

Il coefficiente r di Pearson misura la forza della relazione attraverso il valore. Il segno denota la direzione della relazione.

Ancora r è sempre compreso tra -1 e +1. Infine r può essere usato solo con variabili metriche, misurate almeno su scala a intervalli.

Il coefficiente di correlazione r può essere calcolato attraverso varie formule, equivalenti alla precedente:

Guardando l’ultima formula abbiamo r = covarianza standardizzata ⇒ rapporto tra la covarianza ( $s_{xy}$ oppure $Cov_{xy}$ ) e le deviazioni standard ( $s_x$ e $s_y$ ) di $x$ e $y$ ⇒ coefficiente indipendente dall’unità di misura di $x$ e $y$ .

Abiamo detto che Il coefficiente r di Pearson misura:
- la forza della relazione attraverso il valore
- la direzione della relazione attraverso il segno
- è sempre compreso tra -1 e +1 ⇒ −1 ≤ r ≤ +1
Come interpretare r?
- se r = ±1 ⇒ relazione lineare perfetta
- se r = 0 ⇒ assenza di relazione lineare
- se r < |.20| ⇒ relazione molto debole
- se |.20| < r < |0.40| ⇒ relazione moderata
- se |.40| < r < |.60| ⇒ relazione abbastanza forte
- se r > |.60| ⇒ relazione forte
Esempi

Esempio

Esempio di calcolo di r: Abbiamo 6 soggetti cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva; inoltre chiediamo loro se pensano sia difficile esercitarsi al computer. Vogliamo verificare se esiste una relazione fra intenzione e percezioni di controllo.
Osserviamo la seguente distribuzione di punteggi:

Sulla destra dell’immagine andiamo a calcolare il prodotto di x e y, x e y al qudrato. Sul fondo facciamo la somma, e otteniamo il numeratore della formula seguente

Quindi r = 0.53

r è un numero indipendente dall’unità di misura.

Nella formula di r il cambiamento ordine delle variabili non determina cambiamento del coefficiente di correlazione (r = media dei prodotti delle variabili standardizzate). In altre parole, la correlazione non ci dice nulla sulla direzione dell’effetto (quale variabile influenza l’altra).

L’influenza è reciproca, al variare di una varia anche l’altra.

Verifica delle ipotesi su R di Pearson

Come posso valutare se la relazione sintetizzata tramite il coefficiente di correlazione è significativa, cioè probabilmente diversa da zero?

Questo processo di verifica si basa sul ρ (rho). Il Rho è un parametro che corrispondente alla statistica r nella popolazione.

Come facciamo a verificare se la relazione sintetizzata con r è significativa? Lo facciamo trasformando la r in una t.

Sono anche disponibili dei valori critici del coefficiente r (per piccoli campioni), ma solo per ipotesi monodirezionali. Quindi usare t è una scelta spesso più comoda e generale.

In che situazione ci possiamo trovare quando abbiamo a che fare con la verifica delle ipotesi su un coefficiente di correlazione lineare r di Pearson?
- Abbiamo una popolazione dalla quale estraiamo un campione
- Su questo campione andiamo a misurare 2 variabili (x e y) metriche, e quindi l’inicatore di riferimento sarà quello della covarianza.
Quindi abbiamo a che fare con una distribuzione normale bivariata, che prevede uno spazio cartesiano a 3 assi (tridimensionale).

La distribuzione teorica di riferimento sarà la distribuzione teorica di probabilità t. La procedura da seguire è la seguente

1. Scelta del test statistico (di significatività): Si calcola r e si trasforma in t.

2. Definizione dell’ipotesi: Confrontare con la popolazione di riferimento:
- H₀: ρ = 0
- H₁: ρ ≠ 0 (bidirezionale)
- H1: ρ > 0 oppure ρ < 0 (monodirezionale)
3. Fissare il livello di significatività α e calcolare i gradi di libertà

Si definisce la regione di rifiuto in base a:
- α (= .05; .01; .001; ecc.)
- gdl = n – 2
- H₁ (mono/bi-direzionale)
Trovando un t_critico sulla Tavola.

4. Associare una probabilità ad H₀

Si associa una probabilità ad H₀ trasformando r in t:

5. Decisione su H₀ (⇒ H₁): Il confronto avviene tra t e t_critico

Se |t| < |t_critico| ⇒ p > α
- Si accetta H₀ ⇒ L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente vera ⇒ La relazione tra le due variabili non è significativa.
Se |t| > |t_critico| ⇒ p < α
- Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente falsa ⇒ La relazione tra le due variabili è significativa.
Esempio

Esempio: Abbiamo 6 soggetti cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva; inoltre chiediamo loro se pensano sia difficile esercitarsi al computer.
Vogliamo verificare se esiste una relazione fra intenzione e percezioni di controllo.

1. Scelta del test statistico (di significatività)

Abbiamo:
- 1 Campione: n = 6
- 2 variabili metriche: “Percezione di controllo” e “Intenzione uso pc”
Useremo la distribuzione normale bivariata e la confronteremo con la distribuzione di probabilità t.

2. Definizione dell’ipotesi

Le ipotesi sono

H₀: ρ = 0 (Percezione di controllo e Intenzione uso del computer non correlano (covariano) significativamente; non vi è una relazione tra le due variabili)

H₁: ρ ≠ 0 (bidirezionale, Percezione di controllo e Intenzione uso del computer correlano (covariano) significativamente; vi è una relazione significativa tra le due variabili)

3. Fissare il livello di significatività α:

Fissiamo α = .05;

H₁ è bidirezionale

gdl è = 6 – 2 = 4

Si definisce la regione di rifiuto secondo α, gdl e H₁ bidirezionale, trovando un t_critico sulla Tavola. Qual è il valore t_critico?

t_critico = 2.776

4. Associare una probabilità ad H₀:

Calcolo r e lo trasformo in t:

5. Decisione su H₀ (⇒ H₁)

|1.22| < |2.78| ⇒ p > .05

Quindi si accetta H₀, si considera vera l’ipotesi nulla.

La probabilità che Rho sia uguale a 0 è maggiore del 5% fissato con α, ne concludo che:
- L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente vera.
- Non ho elementi per pensare esista una relazione tra le due variabili, la relazione non è significativa.
- In altre parole, percezione di controllo e intenzione uso del pc non correlano
Quindi indagare la relazione esistente tra due variabili significa:
- Stabilire l’esistenza di una relazione ⇒ la verifica dell’ipotesi sul valore del coefficiente di correlazione ottenuto attesta la presenza o meno di una relazione lineare significativa.
- Stabilire il grado (intensità o strettezza) di tale relazione ⇒ il valore del coefficiente di correlazione indica la forza della relazione lineare (ad esempio, valori di r intorno a .70 indicano una relazione molto forte, attorno a .20 debole).
- Stabilire la direzione della relazione ⇒ il segno del coefficiente di correlazione indica la direzione della relazione lineare (ad esempio, se r è positivo indica che al crescere di X cresce Y).
Dunque per interpretare la correlazione dobbiamo chiederci:
- La relazione è (significativamente) diversa da zero?
- Qual è il verso della relazione?
- Quanto è forte la relazione?
In base alle risposte a queste domande interpretiamo il risultato.
2026-02-27