07 Indicatori di dispersione

Table of Contents

Indicatori di dispersione

I due parametri fondamentali che consentono di sintetizzare i dati sono:

  • INDICATORE DI TENDENZA CENTRALE
  • INDICATORE DI DISPERSIONE

Oltre all’indicatore di tendenza centrale (valore che riassume i dati), è utile disporre di un valore o parametro capace di rappresentare la variabilità dei dati (cioè, la loro dispersione).

Tale valore o parametro è definito INDICATORE DI DISPERSIONE. Può essere ottenuto SOLAMENTE su scale di misura a INTERVALLI EQUIVALENTI e a RAPPORTI EQUIVALENTI.

Nel caso di dati qualitativi rilevati su scala nominale o ordinale, non si ha possibilità di quantificare la dispersione perché i dati non variano. Infatti i numeri sono semplici etichette per identificare categorie e per ordinarle.

Abbiamo una vasta scelta intermini di indicatori di variabilità dei dati, ciascuno con i propri vantaggi e svantaggi

  • Campo di variazione
  • differenza interquartilica
  • scarto semplice medio
  • varianza
  • Scarto quadritico medio o deviazione standard
  • coefficiente i variazione

Campo di variazione

Questo è dato dalla differenza tra il valore maggiore e quello minore della distribuzione di frequenza osservata.

Esempio: 11 ragazzi di 8 anni hanno ottenuto ad un test la seguente serie di punteggi: 23 45 34 57 23 57 48 38 38 54 48

I punteggi variano da 57 a 23 assumendo potenzialmente 34 possibili valori.

LIMITI:

  • Troppo sensibile ai valori aberranti (cioè, estremi)
  • Poco informativo
  • Viene usato solo in modo generico

Differenza interquartilica

La differenza interquartile è data dalla differenza tra il terzo e il primo quartile

Questo indice richiede una scala di misura metrica

In pratica la differenza interquartilica è analoga al campo di variazione ma tiene conto soltanto dei valori che cadono tra il 1° e il 3° quartile (cioè del 50% della distribuzione)

Riprendendo l’esempioprecedente degli 11 ragazzi di 8 anni abbiamo

Il 50% dei punteggi si distribuisce tra 54 e 34 assumendo potenzialmente 20 possibili valori.

Il limite di questo indicatore è chè è un indice che non tiene conto di cosa accade al centro della distribuzione (casi centrali) e agli estremi della distribuzione.

Indicatori di dispersione

Per ottenere un indice unico e sintetico di dispersione dei dati è necessario che i dati siano misurati su scale metriche, quindi a intervalli equivalenti o a rapporti equivalenti.

I più importanti indicatori di dispersione per questo genere di misure sono quelli che tengono conto della distanza di ciascun valore dalla media della distribuzione.

Per ottenere un indice di dispersione che tenga conto del contributo dei singoli casi:

  • Si calcolano gli scarti dei valori osservati dalla media
  • Si fa una media di questi scarti

Abbiamo infatti visto che la somma degli scarti dei singoli valori che compongono la media è sempre uguale a 0.

Scarto (scostamento) semplice medio

La formula per questo indicatore è

Ad esempio. Ad un test di personalità, 10 adolescenti hanno ottenuto i seguenti punteggi: 8 9 5 4 7 8 9 7 4 3. Andiamo a calcolare lo scostamento semplice medio, seguendo questi passaggi

Facciamo due considerazione sui vantaggi e limiti di questo indicatore.

  • VANTAGGI: Consente di avere un indicatore diverso da zero che considera gli scostamenti dei punteggi dalla media
  • LIMITI: Poco utilizzato rispetto al più noto e studiato indicatore di variabilità: LA VARIANZA

Varianza

La varianza si definisce come media al quadrato degli scostamenti dalla media. Poiché la somma degli scarti dalla media è zero, sommo gli scarti al quadrato:

ESEMPIO. Ad un test di personalità, 10 adolescenti hanno ottenuto i seguenti punteggi: 8 9 5 4 7 8 9 7 4 3. Andiamo a calcolare la varianza

La varianza non è mai negativa. Minore è la varianza più i casi sono concentrati attorno alla media. Maggiore è la varianza più i casi sono dispersi attorno alla media.

  • VANTAGGI: Indicatore di variabilità molto utile per elaborazioni sofisticate.
  • LIMITI: Non utilizza la stessa unità di misura della media: es., altezza media di un gruppo = 170cm; s² = 169. Abbiamo difficoltà a capire cosa significhi tale valore rispetto alla misura d’interesse. Tale difficoltà è data dal fatto che la varianza è un indice quadratico. Per superare questo limite usiamo l’indicatore deviazione standard

Scarto quadrico medio (deviazione standard)

La deviazione standard è la Radice quadrata della Varianza. Inoltre è un indice di dispersione con unità di misura uguale alla media, ed indica di quanto mediamente i dati osservati si discostano dalla loro media.

es., altezza media di un gruppo = 170cm; s² = 169 → s = 13cm

ESEMPIO: Ad un test di personalità, 10 adolescenti hanno ottenuto i seguenti punteggi: 8 9 5 4 7 8 9 7 4 3. Andiamo a calcolare la deviazione standard.

VANTAGGI della deviazione standard:

  • Indicare con un unico valore lo scostamento medio dei dati dalla loro media.
  • Stessa unità di misura della media.
  • Indicatore di dispersione più usato per valutare la variabilità dei dati, insieme alla media (che sintetizza l’insieme di dati).

La media e la deviazione standard vengono usualmente riportati insieme come statistiche descrittive → x̄ ± s.

Esempio si può dire che i 10 adolescenti al test di personalità ottengono una media di 6.4 ± 2.11 (6.4 valore medio, 2.11 deviazione standard)

Varianza e deviazione standard

Esistono formule abbreviate che consentono il calcolo direttamente dai dati grezzi (cioè senza il calcolo separato della media e dei singoli scarti)

Notare che la seconda parte delle formule non è altro che la media.

Facciamo un esempio: solito test personalità con i seguenti punteggi 8 9 5 4 7 8 9 7 4 3. Andiamo a calcolare varianza e deviazione standard con formule abbreviate

Ulteriori varianti delle formule per il calcolo di varianza e deviazione standard sono quelle relative ai dati raggruppati in classi.

Coefficiente di variazione

Questo coefficiente sintetizza il rapporto tra Media e Deviazione Standard.

E’un indicatore di variabilità relativa (al contrario della deviazione standard che è assoluta).

Permette di valutare la dispersione dei valori attorno alla media indipendentemente dall’unità di misura della variabile (usa la media stessa come unità di misura).

ESEMPIO: Supponiamo di avere un reddito medio in lire e euro con relative deviazioni standard

  • Reddito medio in Lire: x̄ = 30.000.000, s₁ = ± 2.000.000
  • Reddito medio in Euro: x̄ = 15.493,71; s₂ = ± 1.032,91

Le due deviazioni standard hanno unità di misura diversa e questo non ci permette di confrontarle.

Confrontando i due valori abbiamo s₁ = ± 2.000.000 > s₂ = ± 1.032,91 ovvero il reddito espresso in lire ha una maggiore variabilità assoluta.

Però calcolando i due coefficienti di variazione abiamo che

ovvero il reddito espresso in lire o euro hanno la stessa variabilità relativa