Category: modulo4

  • 25 Stima dell’attendibilità

    Table of Contents

    Introduzione

    L’attendibilità (o fedeltà) riguarda la precisione dello strumento. La misura che otteniamo oggi su una determinata caratteristica dobbiamo poterla ottenere anche a distanza di tempo. Effettuando due misure con lo stesso strumento vi deve essere un accordo, una coerenza.

    Tutte le misure sono affette da errori dovuti al caso. Il dato osservato X è costituito da una parte che corrisponde alla misura “vera” V e da una parte di errore casuale E.

    Una misura è attendibile, quando si dimostra che tali errori di misura incidono in piccola parte, cioè che E sia molto piccolo e quindi il dato osservato X sia molto vicino al valore vero V.

    Quindi l’attendibilità non è altro che l’affidabilità del nostro strumento, cioè il grado di accordo tra diversi tentativi di misurare uno stesso concetto teorico.

    Quindi abbiamo che il nostro punteggio X è dato da una componente vera e un errore.

    X = V + E

    Dove: X = punteggio osservato, V = punteggio vero, E = errore casuale.

    L’attendibilità può essere espressa come la percentuale di X che è dovuta al punteggio vero, overo tra rapporto tra V e somma di V ed E.

    V / (V + E)

    Le ASSUNZIONI STATISTICHE DELLA TEORIA sono che

    1. la media degli errori casuali deve essere nulla per n che tende all’infinito

    2. Punteggio vero e errore sono indipendenti.

    3. Due errori casuali sono indipendenti.

    Da tali assunzioni deriva che il punteggio osservato medio è

    Per n → ∞ ho che il punteggio osservato medio è uguale al punteggio vero medio.

    In altre parole perché la misura possa dirsi attendibile si assume dunque che tali errori di misura incidano in piccola parte, cioè che E sia molto piccolo e quindi il dato osservato X sia molto vicino al valore V.

    Da qui si dimostra che la varianza del punteggio osservato è uguale alla somma della varianza della parte “vera” e della varianza d’errore.

    Inoltre si dimostra che dividendo entrambi i membri dell’equazione per la varianza del punteggio osservato, si ottiene il coefficiente di attendibilità.

    In base a questa formula, possiamo definire l’attendibilità come il rapporto tra la varianza della parte vera e la varianza osservata.

    Tale rapporto è massimo (cioè = 1) quando la varianza d’errore è minima (tendente a 0).

    Il valore dell’attendibilità ha quindi la proprietà

    • di variare tra 0 e 1
    • aumenta al diminuire della varianza di errore

    Quindi maggiore è rtt e maggiore sarà la precisione dello strumento

    Metodo del Test-Retest

    L’attendibilità di può calcolare in modi diversi. Una prima modalità riguarda l’utilizzo test-retest (r di Pearson)

    Per fare ciò:

    • Si somministra il test al tempo T1 e al tempo T2 e si calcola la correlazione tra i punteggi.

    Questo metodo non necessita di ulteriori specificazioni. Basta saper calcolare la r di Pearson tra due serie di punteggi.

    Facciamo un esempio di calcolo. Abbiamo 6 soggetti che hanno compilato un questionario, una volta al tempo T1, e una volta al tempo T2.

    Il coefficiente è 0.53, e ci dice che le misure sono mediamente correlate. In generale ci aspettiamo che la relazione sia molto elevata, almeno 0.70.

    Quindi il nostro strumento attraverso il metodo del test-retest non è risultato molto attendibile.

    Questo metodo presenta alcuni limiti:

    • Un possibile limite alla stima dell’attendibilità attraverso la correlazione test-retest è quello dell’apprendimento da parte di soggetti. Ovvero se somministriamo due volte lo stesso test agli stessi soggetti può generare due fonti di errore.

    I soggetti da un lato potrebbero aver imparato a rispondere al test ed è quindi come se fosse somministrato a soggetti diversi durante la seconda somministrazione. Oppure la caratteristica che si sta misurando può essere modificata nel tempo.

    Metodo delle forme parallele

    Per minimizzare le fonti di errori derivanti dal metodo del test-retest si può usare un nuovo metodo di stima dell’attendibilità che è quello delle forme parallele. Questo metodo si basa sul confrontare, mettere in relazione, due forme parallele dello stesso test. La stima dell’attendibilità avviene con un coefficiente che chiamiamo coefficiente di equivalenza, che non è altro che la r di Pearson.

    L’attendibilità, in questo caso, è stimata sull’equivalenza delle due forme.

    Facciamo un esempio: si somministrano due versioni equivalenti del test (vuol dire che i test hanno stessa media e stessa dev. st.) al tempo T1 e al tempo T2. La correlazione tra le due forme è una stima dell’attendibilità.

    Un ulteriore modo di procedere all’interno delle forme parallele è quello dello split-half.

    In questo caso si sommiistra il test in un unico tempo T1. Poi si divide il test a metà e si considerano le due metà come forme parallele (stessa media e stessa deviazione standard)

    L’attendibilità sarà la r di Pearson, ovvero la correlazione tra le due metà del test. Va corretta con la formula profetica di Spearman-Brown, dato che la vera lunghezza della scala è doppia rispetto a quella delle due metà.

    Questa formula (Spearman-Brown) mira a prevedere l’attendibilità di un test al variare della sua lunghezza.

    dove:

    • rntt = attendibilità della forma ipotetica
    • n = rapporto tra numero di item della forma ipotetica e numero di item nella versione già esistente del test

    Con la stessa formula possiamo anche risolvere il caso inverso, cioè stimare quanto dovremo allungare o accorciare il test per ottenere un’attendibilità prefissata.

    Facciamo un esempio: abbiamo un test composto da 20 item con attendibilità rtt (r di Pearson) = .83

    Possiamo stimare l’attendibilità del nostro test se aggiungessimo 8 item con caratteristiche simili ai 20 esistenti.

    Quindi se aggiungiamo 8 item la nostra attendibilità salirebbe a .87

    Se invece ci poniamo una domanda diversa, ovvero partendo sempre dai 20 item, quanti item dovrei aggiungere per avere un’attendibilità di .90?

    dove n = rapporto tra numero di item della forma ipotetica e numero di item nella versione già esistente del test.

    Otteniamo 1.84 che è il rapporto tra gli item finali e iniziali.

    Quindi ricaviamo 37, ovvero occorrerà aggiungere 17 item (20+17=37) per avere un’attendibilità di .90


    I limiti nell’utilizzo delle forme parallele sono

    • la costruzione di due test paralleli non è facile.

    Infatti, due test si dicono paralleli se hanno stessa media, stessa varianza e stessa intercorrelazione tra gli item che li compongono. Situazione che in psicologia non è sempre detto che si verifichi.

    Metodo della coerenza interna

    Stima attendibilità con il coefficiente α di Cronbach

    Quindi il metodo più utilizzato nella ricerca in psicologia per la stima dell’attendibilità è quello della coerenza interna.

    Per fare ciò possimao usare il coefficiente alpha di Cronbach.

    La procedura è la seguente

    • Si somministra il test in un unico tempo T1.
    • Ogni item viene considerato un test a sé stante.
    • Si stima (con apposite formule) la correlazione media tra tutti gli item, e si riassume la coerenza degli indicatori tramite l’indice α di Cronbach.

    Questo è spesso il metodo più utilizzato in psicologia.

    Il coefficiente α di CRONBACH concettualmente è il rapporto fra la varianza della scala totale rispetto alla somma delle varianze dei singoli item.

    Quando si utilizza questo coefficiente? Quando abbiamo degli item politomici (non dicotomici, che hanno più livelli).

    Questo coefficiente

    • Varia fra 0 e 1. Valori superiori a .70 sono considerati buoni.
    • All’aumentare del numero degli item, tende ad aumentare avvicinandosi asintoticamente a 1.

    La sua formula è:

    Stima attendibilità con il coefficiente K-R20 di Kuder-Richardson

    Quando invece abbiamo a che fare con degli item che sono dicotomici utilizziamo il coefficiente K-R20 di Kuder-Richardson.

    Concettualmente identico ad alpha di Cronbach. Varia fra 0 e 1. Valori superiori a .70 sono considerati buoni. Infine all’aumentare del numero degli item, tende ad aumentare avvicinandosi asintoticamente a 1.

    Errore standard di misura

    Abbiamo visto che l’attendibilità (o fedeltà) riguarda la precisione dello strumento.

    Tutte le misure sono affette da errori dovuti al caso: il dato osservato X è costituito da una parte che corrisponde alla misura “vera” V e da una parte di errore casuale E.

    Una misura è attendibile quando si dimostra che tali errori di misura incidono in piccola parte, cioè che E sia molto piccolo e quindi il dato osservato X sia molto vicino al valore V.

    Tuttavia, sappiamo che non è possibile conoscere effettivamente la varianza della parte “vera”, per cui l’attendibilità dei test psicologici è da considerarsi sempre una stima.

    In altre parole, l’intrinseca imprecisione di qualunque strumento implica che ogni punteggio ottenuto è accompagnato da un errore casuale.

    Per tenere conto di tale errore dobbiamo considerare un margine entro il quale possiamo considerare accettabile la stima.

    Tale margine è quantificato attraverso l’errore standard di misura.

    Quindi l‘errore standard di misura è la stima delle deviazioni standard dei punteggi osservati intorno al punteggio vero.

    dove σx è la deviazione standard del punteggio osservato x, rtt è l’attendibilità.

    Facciamo un esempio: supponiamo di avere un test del quale conosciamo l’attendibilità rtt = .82 e la varianza σ²x = 9. Vogliamo conoscere l’errore standard di misura del test. Applichiamo la formula.

    Uso dell’errore standard di misura

    Intervallo di fiducia per il punteggio vero

    Questo intervallo è il margine entro il quale possiamo considerare accettabile la stima.

    Partendo dal punteggio ottenuto da un soggetto ad un test, conoscendo l’errore standard del test, possiamo ricavare l’intervallo di fiducia all’interno del quale cadrà il punteggio vero V del soggetto se si ripetesse il test un numero infinito di volte.

    Assumiamo che la distribuzione dei punteggi osservati intorno al punteggio vero sia normale e usiamo le proprietà della curva per stimare l’intervallo di confidenza al 95% della posizione di V.

    Vediamo come determinare gli intervalli di confidenza

    Di seguito la formula per il calcolo dei limiti dell’intervallo di fiducia (o di confidenza)

    Dove zα è il valore critico di z per α prefissato (es., α = .05 → zα = 1.96).

    Facciamo un esempio: Otteniamo un punteggio pari a 108. L’errore standard è 1.12. In quale ambito cade il suo punteggio vero con un margine di fiducia del 95%?

    L’intervallo di fiducia per il punteggio vero V è compreso tra 105.81 e 110.19.

  • 24 Relazione tra variabili: la verifica delle ipotesi sul coefficiente di regressione lineare

    Table of Contents

    La regressione lineare

    Il concetto di regressione è legato a quello di previsione, ovvero alla possibilità di prevedere, in base alla variazione di una variabile, la variazione di un’altra variabile ad essa correlata.

    Viene introdotta, quindi, la relazione di causa-effetto, o meglio, di antecedente-susseguente.

    Data una variabile “x” (detta variabile indipendente), antecedente all’altra variabile, “y” (detta variabile dipendente), lo studio della loro relazione permette di verificare se e quanto la V.I. (variabile indipendente) «spiega» o «influenza» la V.D.

    Quando la correlazione tra le due variabili è molto alta, dato un valore di “X” (V.I.), è possibile prevedere il corrispondente valore di “Y” (V.D.) attraverso l’equazione di regressione.

    Se per esempio consideriamo X (capacità di ragionamento astratto) la variabile indipendente, che precede logicamente la variabile dipendente, Y (voto in matematica) si può supporre influenzata o spiegata dalla variabile indipendente X. Per logica non è vero il contrario, il voto in matematica non può influire su una capacità già esistente nel soggetto.

    Il legame tra correlazione e regressione è espresso dal coefficiente di determinazione che è il coefficiente di correlazione elevato al quadrato.

    Ricordiamo la formula che esprime il coefficiente di correlazione lineare r attraverso la covarianza:

    (covarianza di x e y, poi sotto ho le deviazioni standard di x e y). Il coefficiente di determinazione sarà quindi

    Esso esprime la proporzione di varianza di Y (variabile dipendente) spiegata dall’influenza di X (variabile indipendente).

    Se la relazione tra X e Y è perfetta, positiva o negativa (cioè r = +1 o -1), r² sarà uguale a 1.00, e cioè che la «varianza spiegata» corrisponde al 100%.

    In tutti i casi intermedi abbiamo una parte di varianza, detta residua, che è la porzione di varianza della V.D. non spiegata dalla V.I. (1 – r²).

    Se, riferendoci all’esempio, la correlazione tra X (ragionamento astratto) e Y (voto in matematica) risultasse r = 0.72, il coefficiente di determinazione r² = 0.52 indicherebbe che il 52% della variabilità di Y è spiegato dalla variabile antecedente X.

    In questo caso la varianza residua sarebbe 1 – 0.52 = 0.48.

    Con l’analisi della regressione studiamo se e quanto i valori assunti da Y (V.D.) dipendono dai valori corrispondenti assunti da X (V.I.).

    Al concetto di regressione è collegato quello di «previsione». Quando il legame tra due variabili è molto stretto (correlazione elevata = elevata porzione di varianza comune), dato un valore di X, è possibile «prevedere», con un margine d’errore più o meno grande, il corrispondente valore di Y.

    Indicheremo tale valore con il simbolo Y’ (Y predetto).

    Per effettuare la previsione di Y dato X, si utilizza l’equazione di regressione.

    Tale equazione, quando si tratta di relazioni lineari, non è altro che l’equazione di una retta.

    Tuttavia, non si tratta di una retta qualsiasi bensì quella costruita in modo che sia la migliore tra tutte le infinite rette che si possono far passare attraverso i punti-intersezione del diagramma di dispersione.

    Il criterio utilizzato per individuare tale retta è quello dei minimi quadrati, che consiste nello scegliere la retta che rende minima la somma delle distanze al quadrato tra le Y (osservate) e le Y’ (predette):

    Σ (Y – Y’)² = minimo

    Questa è la retta che, tra le infinite possibili, si avvicina più di tutte a tutti i punti del diagramma di dispersione.

    L’equazione di una retta generica è:

    y = a + bx

    L’equazione della retta di regressione è:

    y’ = a + bx

    dove il parametro b:

    • è il COEFFICIENTE DI REGRESSIONE (o angolare)
    • indica l’inclinazione della retta, ovvero l’angolo che essa forma con l’asse delle ascisse
    • Esprime la quantità di incremento (se positivo) o decremento (se negativo) che si verifica in Y per ogni unità di incremento o decremento in X.
    • È il peso della V.I. sulla V.D.

    Il parametro b lo andiamo a calcolare con

    cioè il rapporto tra la somma del prodotto degli scarti di X e di Y dalle rispettive medie, e la somma degli scarti al quadrato di X.

    A partire dalla precedente formula si ricava una formula semplificata di b per il calcolo dai dati grezzi.

    Mentre il parametro a:

    • è l’INTERCETTA sull’asse delle ordinate.
    • Indica il punto in cui la retta incontra l’asse delle ordinate, ovvero la distanza tra l’origine degli assi e il punto in cui la retta taglia (incontra) l’asse delle ordinate.

    Si ricava attraverso la seguente formula:

    a = ȳ – b x̄

    con

    • ȳ: y medio
    • x̄: x medio
    Esempio

    Abbiamo un campione di 9 adolescenti a cui abbiano chiesto di completare un compito e abbiano misurato il tempo impiegato.
    Vogliamo verificare se la «velocità di esecuzione» (X) predice (spiega) il «numero di errori commessi» (Y).
    Osserviamo la seguente distribuzione di punteggi:

    facciamo i nostri calcoli e aggiungiamo due colonne

    Calcoliamo ora b e a

    Per tracciare la retta sarà sufficiente calcolare due valori di Y’:

    Y’ per un soggetto che impiega x = 20 secondi e per un soggetto che impiega x = 55 secondi nel risolvere il compito.

    Nella retta di regressione trovata si sostituisce ad x il valore di interesse e si calcola Y’:

    • Y’ = 11.79 + (-0.16 * 20) = 8.59
    • Y’ = 11.79 + (-0.16 * 55) = 2.99

    Verifica delle ipotesi sul coefficiente di regressione

    Come posso valutare se la relazione sintetizzata tramite il coefficiente regressione è significativa, cioè probabilisticamente diversa da zero?

    Devo fare la verifica delle ipotesi, e questa verifica viene effettuata su β (beta):

    • β = (parametro nella popolazione corrispondente al coefficiente b)

    L’ipotesi viene verificata trasformando la b in una t (come per la correlazione).

    La situazione in cui ci troviamo è la seguente

    • abbiamo una popolazione dalla quale abbiamo estratto 1 campione
    • abbiamo 2 VARIABILI METRICHE (covarianza) e siamo interessati capire se una variabile influisce sull’altra

    Siamo nell’ambito della DISTRIBUZIONE NORMALE BIVARIATA (Spazio cartesiano a tre assi, tridimensionale) e useremo come distribuzione teorica di riferimento la DISTRIBUZIONE TEORICA DI PROBABILITÀ t

    La procedura da seguire è la seguente

    1. scelta del test statistico (di significatività): Abbiamo Due variabili metriche di cui voglio indagare relazione causale. Si calcola b e si trasforma in t

    2. Definizione dell’ipotesi: Confrontare con la popolazione di riferimento

    • H₀: β = 0 (non c’è effetto)
    • H₁: β ≠ 0 (bidirezionale)
    • β > 0 oppure β < 0 (monodirezionale)

    3. Fissare il livello di significatività α e calcolare i gradi di libertà

    Si definisce la regione di rifiuto in base a:

    • α (= .05; .01; .001; ecc.)
    • gdl = n – 2
    • H₁ capire se è mono/bi-direzionale

    Si trova poi un tcritico sulla Tavola

    4. Associare una probabilità ad H₀

    Si associa una probabilità ad H₀ trasformando b in t. La t è dato dal rapporto tra b e il suo errore standard

    5. Decisione su H₀ (accettazione o rifiuto di H₁): Il confronto avviene tra t e tcritico

    Se |t| < |tcritico| = p > α

    • Si accetta H₀: l’ipotesi di un’assenza di relazione (β = 0) è probabilmente vera
    • La relazione causale tra le due variabili non è significativa.

    Se |t| > |tcritico| = p < α

    • Si rifiuta H₀: si accetta H₁: l’ipotesi di un’assenza di relazione (β = 0) è probabilmente falsa
    • La relazione causale tra le due variabili è significativa.

    Esempio

    Abbiamo un campione di 9 adolescenti a cui abbiano chiesto di completare un compito e abbiano misurato il tempo impiegato. Vogliamo verificare se la «velocità di esecuzione» (x) predice o spiega (relazione causale) il «numero di errori commessi» (y).

    Sappiamo che la media x̄ = 34.4 con deviazione standard sx = 13.1 e che la media della y è ȳ = 5.4 con deviazione standard sy = 2.2

    1. scelta del test statistico (di significatività):

    Abbiamo

    • 1 Campione: n = 9
    • 2 variabili metriche: «velocità di esecuzione» e «numero di errori commessi» di cui vogliamo indagare la relazione causale

    Scelgo di calcolare b

    2. Definizione dell’ipotesi:

    Le ipotesi saranno

    • H₀: β = 0 (La velocità di esecuzione non predice significativamente il numero di errori commessi; non vi è una relazione causale tra le due variabili)
    • H₁: β ≠ 0 (Bidirezionale: la velocità di esecuzione predice significativamente il numero di errori commessi; vi è una relazione causale significativa tra le due variabili)

    3. Fissare il livello di significatività α e calcolare i gradi di libertà

    Fissiamo α = .05; H₁ è bidirezionale; gdl = 9 – 2 = 7

    Si definisce la regione di rifiuto secondo α, gdl e H₁, bidirezionale trovando un tcritico sulla Tavola

    tcritico = 2.365

    4. Associare una probabilità ad H₀

    Calcolo b e lo trasformo in t

    5. Decisione su H₀ (accettazione o rifiuto di H₁)

    Abbiamo

    | 8.00 | < | 2.37 | → p < .05

    Quindi si rifiuta H₀, si accetta H₁, quindi si considera “verosimile” l’ipotesi alternativa

    La probabilità che β sia uguale a 0 è minore del 5% fissato con α; ne concludo che:

    • L’ipotesi di un’assenza di relazione (β = 0) è probabilmente falsa
    • Vi è una relazione causale significativa tra la velocità di esecuzione e il numero di errori commessi.
    • La velocità di esecuzione predice negativamente e significativamente il numero di errori commessi.

  • 23 Relazioni tra variabili: La verifica delle ipotesi sui coefficienti di correlazione non parametrici

    Table of Contents

    Introduzione

    Spesso capita di non avere a disposizione delle misure di tipo metrico per le due variabili, X e Y, che si pensa possano essere associate.

    Se si hanno scale dicotomiche o ordinali, vi sono una varietà di coefficienti concettualmente simili alla r di Pearson.

    Se si dispone di frequenze, un coefficiente calcolato su una tabella di contingenza consente di indagare ipotesi di associazione.

    Esempio

    Per capire meglio facciamo un esempio e immaginiamo di aver osservato i comportamenti aggressivi e quelli oppositivi di 14 adolescenti durante le loro interazioni con i genitori.

    Preferiamo misurare le due variabili come due graduatorie (dal meno aggressivo al più aggressivo; dal meno oppositivo al più oppositivo).

    Non possiamo utilizzare r di Pearson poichè la graduatoria indica il livello di misura ordinale; non abbiamo misure metriche.

    Osserviamo la seguente distribuzione di frequenze:

    Quando abbiamo a che fare con queste tipi di variabili (non metriche) dobbiamo usare i coefficienti non parametrici. Questi devono essere utilizzati anche quando una sola delle due variabili in relazione non raggiunge il livello metrico di misurazione.

    Un esempio di coefficiente di correlazione non parametrico è quello della correlazione tra ranghi rs di Spearman

    Il coefficiente di correlazione tra ranghi (misure ordinali)

    Il coefficiente rs va calcolato quando i dati sono costituiti da ranghi (graduatorie), oppure quando una delle variabili è ordinale, e l’altra metrica (previa trasformazione in rango).

    Il coefficiente di correlazione rₛ si basa sulle differenze d tra i ranghi attribuiti a ciascuna coppia di valori e può essere calcolato tramite la formula:

    dove:

    • di​ = differenza tra i ranghi di ciascuna coppia di punteggi
    • n = numero dei soggetti (o coppie di punteggi)

    Quando i ranghi delle due graduatorie coincidono tutte le d=0 quindi

    Quindi rs = 1, oppure quando le posizioni in graduatoria sono esattamente opposte il coefficiente sarà rs = -1 (correlazione negativa perfetta)

    Esempio

    ESEMPIO: Comportamenti aggressivi (x) e oppositivi (y) di 14 adolescenti. Ciascun soggetto è stato classificato sulla base di due variabili ordinali (graduatorie).

    La colonna d corrisponde alle differenze, l’ultima colonna alle differenze al quadrato.

    Il coefficiente risulta:

    Verifica delle ipotesi su rs di Spearman

    Come posso valutare se la relazione sintetizzata tramite il coefficiente di correlazione rₛ è significativa, cioè probabilisticamente diversa da zero?

    L’ipotesi viene verificata sul ρₛ (rhoₛ), dove ρₛ = parametro nella popolazione corrispondente alla statistica rₛ

    Dunque, si procede in modo analogo a r di Pearson. Vanno però distinti due casi:

    • Se n ≤ 30 i valori rₛ critici sono tabulati per due livelli di α (.05 e .01) e ipotesi monodirezionale in funzione del numero dei soggetti (non gdl). Quindi in questo caso usiamo la distribuzione rs di Spearman e i relativi valori critici.
    • Se n > 30, così come per il coefficiente r di Pearson, esiste una relazione tra rₛ e t di Student. In questo caso procederemo usando la distribuzione di probabilità t (trasformare rs di Spearman in t di student)

    In quale situazione ci troviamo? Abbiamo una popolazione dalla quale estraiamo 1 campione. Poi abbiamo due variabili ordinali.

    La procedura è la seguente

    1. Scelta del test statistico (di significatività)

    Si calcola rₛ

    2. Definizione dell’ipotesi:

    Confronto con la popolazione di riferimento

    • H₀: ρₛ = 0
    • H₁: ρₛ ≠ 0 (bidirezionale solo se n > 30)
    • H1: ρₛ > 0 oppure ρₛ < 0 (monodirezionale se n < 30)

    3. Fissare il livello di significatività α:

    Si delinea la regione di rifiuto in base a:

    • α (= .05; .01; .001; ecc.)
    • n (per n < 30) oppure gdl = n-2 (per n > 30)
    • H₁ (monodirezionale per n < 30)
    • H₁ mono-/bi-direzionale per n > 30

    trovando un rₛ critico (per n < 30) oppure tcritico (per n > 30) sulla Tavola

    4. Associare una probabilità ad H₀

    Quando n < 30, si associa una probabilità ad H₀ calcolando rₛ e confrontandola con rₛ critico:

    Quando n > 30, si associa una probabilità ad H₀ calcolando rs trasformandolo in t e confrontandolo con tcritico

    5. Decisione su H₀ (⇒ H₁): Il confronto avviene tra rₛ e rₛ critico per n < 30, Oppure tra t e tcritico per n > 30

    Se |rₛ| < |rₛ critico| oppure |t| < |tcritico| = p > α

    • Si accetta H₀ ⇒ L’ipotesi di un’assenza di relazione (ρₛ = 0) è probabilmente vera ⇒ La relazione tra le due variabili non è significativa.

    Se |rₛ| > |rₛ critico| oppure |t| > |tcritico| = p < α

    • Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ L’ipotesi di un’assenza di relazione (ρₛ = 0) è probabilmente falsa ⇒ La relazione tra le due variabili è significativa.
    Esempio n < 30

    ESEMPIO (precedente).

    Abbiamo osservato i comportamenti aggressivi e quelli oppositivi di 14 adolescenti durante le loro interazioni con i genitori. Vogliamo verificare se esiste una relazione fra comportamenti aggressivi e quelli oppositivi.

    Essendo n < 30 allora ho la seguente procedura

    1. Scelta del test statistico (di significatività):

    Ho 1 Campione con n = 14. Ho poi 2 variabili ordinali “compotamento aggressivo” e “comportamento oppositivo”. Si sceglie rₛ (r di Spearman)

    2. Definizione dell’ipotesi:

    H₀: ρₛ = 0 → assenza di relazione;

    H₁ (monodirezionale): ρₛ > 0 → relazione positiva tra i due comportamenti

    3. Si delinea la regione di rifiuto di H₀:

    Si fissa α = .01 per n = 14.

    Si trova un rₛ critico = .645 (sulla tavola)

    4. Associare una probabilità ad H₀:

    Calcolo rₛ con la seguente formula

    5. Decisione su H₀ (⇒ H₁)

    Facciamo confronto rₛ con rₛ critico
    Poiché rₛ = (.29) < rₛ critico (= .645) si accetta H₀
    Quindi la relazione tra comportamenti aggressivi e oppositivi non è significativa

    Esempio n > 30

    Se invece ho n > 30 allora ho la seguente procedura

    1. Scelta del test statistico (di significatività):

    Ho 1 Campione con n = 40. Ho poi 2 variabili ordinali “compotamento aggressivo” e “comportamento oppositivo”.

    Si sceglie rₛ (r di Spearman) che viene trasformata in t di Student.

    2. Definizione dell’ipotesi:

    H₀: ρₛ = 0 → assenza di relazione;

    H₁ (monodirezionale): ρₛ > 0 → relazione positiva tra i due comportamenti

    3. Si delinea la regione di rifiuto di H₀:

    Si fissa α = .01 per gdl = 40 -2 = 38 e H1 monodirezionale. Trovo un tcritico pari a 2.423 (sulla tavola)

    4. Associare una probabilità ad H₀:

    Dopo aver calcolato rₛ lo trasformiamo in t

    5. Decisione su H₀ (⇒ H₁)

    Effettuiamo il confronto t con tcritico
    Poiché t (= 1.86) < tcritico (= 2.423) si accetta H₀
    La relazione tra comportamenti aggressivi e oppositivi non è significativa.

    Se il valore di t non è (oppure è) significativo non lo è (oppure lo è) anche rₛ


    Quando una o entrambe le variabili non costituiscono già una graduatoria, dobbiamo trasformarle in ranghi.

    Facciamo un esempio.

    Misuriamo se i pazienti affetti da Autostima (0 “bassa”; 6 “alta”) e insonnia (numero di notti in una settimana in cui si ha difficoltà ad addormentarsi).

    Sono associate? (α = .05)

    Le due variabili non costituiscono in questa forma delle graduatorie.

    Se tuttavia consideriamo ordinali le due misure (o anche almeno una) debbo trasformarle in ranghi prima di calcolare la loro associazione.

    Per fare ciò debbo ordinare per ciascuna variabile (autostima e insomia) i soggetti in modo crescente, e in questo modo protremo assegnare dei ranghi. Se due punteggi sono uguali assegno un rango medio (si vede i valori con colore arancione).

    Ora unisco la graduatoria in un’unica tabella, stando attento a mantenere sulla stessa riga i punteggi e i ranghi del medesimo soggetto.

    A questo punto calcolo rs

    Per testare l’ipotesi nulla possiamo:

    • Usare un’approssimazione alla t (per “grandi” campioni)
    • Usare una tavola con valori “esatti” di rₛ (per “piccoli” campioni)

    Il problema è che la tavola dei valori r Di Spearman prevede valori critici solo per ipotesi monodirezionali (poco frequenti).

    Dunque, è consigliabile usare la trasformazione in t (gdl = n – 2):

    Il coefficiente di correlazione tra variabili dicotomiche rphi

    Questo coefficiente misura la relazione fra due variabili nominali dicotomiche, ad es. la relazione tra due item di un test con risposta giusto/sbagliato.

    Il coefficiente di correlazione rphi va calcolato quando i dati sono costituiti da due variabili categoriali a due livelli.

    Facciamo un esempio: In un gruppo di pazienti cerebrolesi si vuole valutare se la presenza di deficit del campo visivo è in relazione con il lato della lesione. Quindi ho

    • Lesione DX/SN = variabile dicotomica A
    • Deficit di campo visivo SI/NO = variabile dicotomica B

    Il calcolo di rphi si basa sul conteggio delle frequenze. La formula è

    Verifica delle ipotesi su rphi

    Come posso valutare se la relazione sintetizzata tramite il coefficiente di correlazione rphi è significativa, cioè probabilisticamente diversa da zero?

    La verifica dell’ipotesi viene indicata con πphi (pi greco phi) ovvero il parametro nella popolazione corrispondente alla statistica rphi.

    È stato dimostrato che

    e pertanto si associa una probabilità ad H₀ (πphi = 0 oppure ρ = 0) delineando la regione di rifiuto attraverso il χ² critico.

    Facciamo un esempio: In un gruppo di pazienti cerebrolesi si vuole valutare se la presenza di deficit del campo visivo (var. B SI/NO) è in relazione con il lato della lesione (var. A DX/SN)

    1. Scelta del test statistico (di significatività):

    1 Campione: n = 140; 2 variabili dicotomiche “campo visivo” e “lesione”.

    Scelgo rphi (indagine della relazione tra due variabili dicotomiche)

    2. Definisco le ipotesi:

    Ho le seguenti ipotesi

    • H₀: πphi = 0 (assenza di relazione)
    • H₁: πphi ≠ 0 (presenza di una relazione)

    3. Delineo la regione di rifiuto di H₀:

    Fissiamo α = .01

    gdl = (2 righe – 1)(2 colonne – 1) = 1 → sulla tavola, trovo χ² critico = 6.64

    4. Associare una probabilità ad H₀:

    Dopo aver calcolato rphi utilizzo la stessa tabella di contingenza per calcolare la statistica test χ². Andiamo a confrontare le frequenze osservate con le frequenze teoriche.

    Calcolo le frequenze teoriche per ogni cella

    Ora possiamo andare a confrontare queste frequenze teoriche con quelle osservate atraverso la formula che usiamo per il calcolo per il χ².

    Queste 3 formule sono pressochè equivalenti

    5. Decisione su H₀ (⇒ H₁):

    Facciamo il confronto

    χ² > χ² critico (28.0 > 6.64) ⇒ p < .05

    Quindi rphi (.447) è significativo ⇒ Rifiuto H₀

    Ne concludo che la presenza del deficit è associata alla localizzazione della lesione. Osservando i valori attesi, capisco che la lesione a destra è più spesso associata alla presenza del deficit, mentre la lesione a sinistra più spesso non procura deficit.

  • 22 Relazioni tra variabili: La verifica delle ipotesi sul coefficiente di correlazione R di Pearson

    Table of Contents

    Il coefficiente di correlazione lineare R di Bravais-Pearson

    A che serve la correlazione? Mettere in evidenza la relazione esistente tra due variabili. E consiste nello:

    • stabilire il tipo di relazione (ad esempio lineare)
    • stabilire il grado (forza o intensità) di tale relazione
    • stabilire la direzione di tale relazione

    Ad esempio:

    • studiare la relazione tra età e peso, e capire se con l’avanzare dell’età aumenti anche il peso
    • Tempo di esecuzione di un compito e numero di errori
    • Stress e sintomi psicosomatici

    Per meglio comprendere facciamo un esempio: Abbiamo 6 soggetti a cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva. Inoltre chiediamo loro se pensano sia difficle esercitarsi al computer. Vogliamo verificare se esiste una relazione fra intenzione nell’uso del pc e percezioni di controllo (quanto è difficile utilizzare il pc). Ecco la seguente distribuzione dei punteggi

    • int: intenzione
    • con: controllo

    Per avere una visione grafica usiamo il diagramma di dispersione

    La nube dei punti si sviluppa secondo una retta (la relazione è di tipo lineare)

    Come fare per sisntetizzare i punteggi secondo un solo valore? In questo caso andiamo a Calcolare il punto le cui coordinate sono le medie (My e Mx)

    Questo punto medio lo possiamo esprimere in termini di covarianza. La covarianza misura il grado di asociazione di 2 variabili (quanto la variabile x e y variano insieme)

    Questo indice:

    • Può assumere valori positivi e negativi
    • Quando è 0, x e y sono indipendenti
    • Aumenta al crescere del grado di dipendenza tra x e y

    La covarianza ha un Limite: è una misura relativa, quindi dipende dall’unità di misura delle variabili

    Come fare allora per ottenere un valore che sia indipendente dalle unità di misura di x e y? Lo dobbiamo standardizzare andando a calcolare le deviazioni standard di x e y (dispersione della nube dei punti).

    Questo coefficiente è il coefficiente di correlazione r di Pearson, ed è una sorta di covarianza standardizata.

    Il coefficiente r costituisce un indice della bontà di adattamento della retta ai dati campionari.

    Il coefficiente r di Pearson misura la forza della relazione attraverso il valore. Il segno denota la direzione della relazione.

    Ancora r è sempre compreso tra -1 e +1. Infine r può essere usato solo con variabili metriche, misurate almeno su scala a intervalli.

    Il coefficiente di correlazione r può essere calcolato attraverso varie formule, equivalenti alla precedente:

    Guardando l’ultima formula abbiamo r = covarianza standardizzata ⇒ rapporto tra la covarianza (sxys_{xy} oppure CovxyCov_{xy}​) e le deviazioni standard (sxs_x​ e sys_y​) di xx e yy ⇒ coefficiente indipendente dall’unità di misura di xx e yy.

    Abiamo detto che Il coefficiente r di Pearson misura:

    • la forza della relazione attraverso il valore
    • la direzione della relazione attraverso il segno
    • è sempre compreso tra -1 e +1 ⇒ −1 ≤ r ≤ +1

    Come interpretare r?

    • se r = ±1 ⇒ relazione lineare perfetta
    • se r = 0 ⇒ assenza di relazione lineare
    • se r < |.20| ⇒ relazione molto debole
    • se |.20| < r < |0.40| ⇒ relazione moderata
    • se |.40| < r < |.60| ⇒ relazione abbastanza forte
    • se r > |.60| ⇒ relazione forte

    Esempi

    Esempio

    Esempio di calcolo di r: Abbiamo 6 soggetti cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva; inoltre chiediamo loro se pensano sia difficile esercitarsi al computer. Vogliamo verificare se esiste una relazione fra intenzione e percezioni di controllo.
    Osserviamo la seguente distribuzione di punteggi:

    Sulla destra dell’immagine andiamo a calcolare il prodotto di x e y, x e y al qudrato. Sul fondo facciamo la somma, e otteniamo il numeratore della formula seguente

    Quindi r = 0.53

    r è un numero indipendente dall’unità di misura.

    Nella formula di r il cambiamento ordine delle variabili non determina cambiamento del coefficiente di correlazione (r = media dei prodotti delle variabili standardizzate). In altre parole, la correlazione non ci dice nulla sulla direzione dell’effetto (quale variabile influenza l’altra).

    L’influenza è reciproca, al variare di una varia anche l’altra.

    Verifica delle ipotesi su R di Pearson

    Come posso valutare se la relazione sintetizzata tramite il coefficiente di correlazione è significativa, cioè probabilmente diversa da zero?

    Questo processo di verifica si basa sul ρ (rho). Il Rho è un parametro che corrispondente alla statistica r nella popolazione.

    Come facciamo a verificare se la relazione sintetizzata con r è significativa? Lo facciamo trasformando la r in una t.

    Sono anche disponibili dei valori critici del coefficiente r (per piccoli campioni), ma solo per ipotesi monodirezionali. Quindi usare t è una scelta spesso più comoda e generale.

    In che situazione ci possiamo trovare quando abbiamo a che fare con la verifica delle ipotesi su un coefficiente di correlazione lineare r di Pearson?

    • Abbiamo una popolazione dalla quale estraiamo un campione
    • Su questo campione andiamo a misurare 2 variabili (x e y) metriche, e quindi l’inicatore di riferimento sarà quello della covarianza.

    Quindi abbiamo a che fare con una distribuzione normale bivariata, che prevede uno spazio cartesiano a 3 assi (tridimensionale).

    La distribuzione teorica di riferimento sarà la distribuzione teorica di probabilità t. La procedura da seguire è la seguente

    1. Scelta del test statistico (di significatività): Si calcola r e si trasforma in t.

    2. Definizione dell’ipotesi: Confrontare con la popolazione di riferimento:

    • H₀: ρ = 0
    • H₁: ρ ≠ 0 (bidirezionale)
    • H1: ρ > 0 oppure ρ < 0 (monodirezionale)

    3. Fissare il livello di significatività α e calcolare i gradi di libertà

    Si definisce la regione di rifiuto in base a:

    • α (= .05; .01; .001; ecc.)
    • gdl = n – 2
    • H₁ (mono/bi-direzionale)

    Trovando un tcritico sulla Tavola.

    4. Associare una probabilità ad H₀

    Si associa una probabilità ad H₀ trasformando r in t:

    5. Decisione su H₀ (⇒ H₁): Il confronto avviene tra t e tcritico

    Se |t| < |tcritico| ⇒ p > α

    • Si accetta H₀ ⇒ L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente vera ⇒ La relazione tra le due variabili non è significativa.

    Se |t| > |tcritico| ⇒ p < α

    • Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente falsa ⇒ La relazione tra le due variabili è significativa.

    Esempio

    Esempio: Abbiamo 6 soggetti cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva; inoltre chiediamo loro se pensano sia difficile esercitarsi al computer.
    Vogliamo verificare se esiste una relazione fra intenzione e percezioni di controllo.

    1. Scelta del test statistico (di significatività)

    Abbiamo:

    • 1 Campione: n = 6
    • 2 variabili metriche: “Percezione di controllo” e “Intenzione uso pc”

    Useremo la distribuzione normale bivariata e la confronteremo con la distribuzione di probabilità t.

    2. Definizione dell’ipotesi

    Le ipotesi sono

    H₀: ρ = 0 (Percezione di controllo e Intenzione uso del computer non correlano (covariano) significativamente; non vi è una relazione tra le due variabili)

    H₁: ρ ≠ 0 (bidirezionale, Percezione di controllo e Intenzione uso del computer correlano (covariano) significativamente; vi è una relazione significativa tra le due variabili)

    3. Fissare il livello di significatività α:

    Fissiamo α = .05;

    H₁ è bidirezionale

    gdl è = 6 – 2 = 4

    Si definisce la regione di rifiuto secondo α, gdl e H₁ bidirezionale, trovando un tcritico sulla Tavola. Qual è il valore tcritico?

    tcritico = 2.776

    4. Associare una probabilità ad H₀:

    Calcolo r e lo trasformo in t:

    5. Decisione su H₀ (⇒ H₁)

    |1.22| < |2.78| ⇒ p > .05

    Quindi si accetta H₀, si considera vera l’ipotesi nulla.

    La probabilità che Rho sia uguale a 0 è maggiore del 5% fissato con α, ne concludo che:

    • L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente vera.
    • Non ho elementi per pensare esista una relazione tra le due variabili, la relazione non è significativa.
    • In altre parole, percezione di controllo e intenzione uso del pc non correlano

    Quindi indagare la relazione esistente tra due variabili significa:

    • Stabilire l’esistenza di una relazione ⇒ la verifica dell’ipotesi sul valore del coefficiente di correlazione ottenuto attesta la presenza o meno di una relazione lineare significativa.
    • Stabilire il grado (intensità o strettezza) di tale relazione ⇒ il valore del coefficiente di correlazione indica la forza della relazione lineare (ad esempio, valori di r intorno a .70 indicano una relazione molto forte, attorno a .20 debole).
    • Stabilire la direzione della relazione ⇒ il segno del coefficiente di correlazione indica la direzione della relazione lineare (ad esempio, se r è positivo indica che al crescere di X cresce Y).

    Dunque per interpretare la correlazione dobbiamo chiederci:

    • La relazione è (significativamente) diversa da zero?
    • Qual è il verso della relazione?
    • Quanto è forte la relazione?

    In base alle risposte a queste domande interpretiamo il risultato.