03 Rilevazioni dei dati e frequenza

Dalla carta al PC
- Operazioni preliminari per la tabulazione dei dati
La frequenza

Dalla carta al PC

I Dati grezzi sono tutto ci che viene osservato nel nostro campione di interesse. Per esempio i dati grezzi possono essere:

le risposte di ogni singolo soggetto ad un questionario di personalità
le sue risposte ad una scala di atteggiamento
la categorizzazione del comportamento di ogni singolo soggetto

Tutto ciò che raccogliamo deve essere poi trasformato in un file dati

Operazioni preliminari per la tabulazione dei dati

Per passare da dati raccolti in un file dati dobbiamo seguire alcuni passaggi:

Costruire un legame tra il questionario cartaceo e il file dati. Usualmente questa procedura prevede siglare ciascun questionario con un numero
Stabilire l’ordine secondo il quale le risposte vengono inserite nel file dati. Usualmente si segue la numerazione che le domande hanno sul supporto cartaceo
Scegliere un nome in codice per le variabili sulle quali si vuole lavorare. Questa procedura consiste nell”associare a ciascuna variabile un’ ETICHETTA

Spesso è necessario codificare numericamente alcune variabili. Di solito si attribuisce un numero intero, e se la variabile prevede solo due alternative si utilizza 0 e 1

Esempio: Supponiamo di aver somministrato a 10 partecipanti una misura di atteggiamento composta da 5 affermazioni (con risposta SI/NO) e di aver rilevato anche il genere, l’età e il titolo di studio:

Numeriamo i questionari da 1 a 10
Decidiamo l’ordine delle variabili:
— Numero, genere, età, domande da 1 a 5 (seguendo l’ordine che le domande hanno nel questionario)
Stabiliamo un’etichetta per ciascuna variabile:
— N.ord, SEX, AGE, DOM1, DOM2, DOM3, DOM4, DOM5
Stabiliamo un codice per le modalità assunte dalla variabile:
— SEX: maschio = 0, femmina = 1
— Domande: SI = 1, NO = 0

Supponiamo ora di codificare le risposte del terzo partecipante, maschio, di 33 anni. Questo ha risposto alle 5 affermazioni nel seguente modo: SI, SI, NO, NO, SI

IL RISULTATO FINALE DI QUESTE OPERAZIONI È IL FILE DATI, una matrice casi (in riga) x variabili (in colonna)

La frequenza

La FREQUENZA è il numero delle volte in cui un determinato evento si verifica. In irferimento a un file dati la frequenza indica il Numero di casi osservati per ciascuna modalità che la variabile assume.

Ad esempio

Se la variabile di interesse è il sesso dei partecipanti → contare il numero di volte in cui si presenta la modalità «MASCHIO» oppure «FEMMINA» → si ottiene un numero che rappresenta la frequenza di partecipanti maschi e femmine nel gruppo.

Esempio frequenza (livello di misura scala nominale)

Ho 10 partecipanti che rispondono SÌ (codice 1) 4 volte e NO (codice 0) 6 volte.

Le frequenze sono 4 (per risposta 1) e 6 (per risposta 0)

Esempio frequenza (livello di misura scala a rapporti o intervalli)

A destra ho una tabella che riporta gli anni di ciascun partecipante. Quindi ho (f indica frequenza)

anni 27 → f₁ = 1
anni 28 → f₂ = 3
anni 30 → f₃ = 1
anni 33 → f₄ = 3
anni 40 → f₅ = 2

Gli indici 1, 2, 3, 4 e 5 delle frequenze f (i.e., f₁, f₂, f₃, f₄, f₅) stanno a significare che la variabile assume 5 diversi valori. Indichiamo con k il numero dei valori diversi e con N il numero totale dei partecipanti.

Allora potremmo scrivere: $N = \sum_{i=1}^{k} f_{x_i}$ La somma di tutte le frequenze è uguale al numero totale dei partecipanti. Dove:

N = totale partecipanti
Σ = sommatoria
Xᵢ = valore generico della variabile (o codifica della variabile)
fᵢ = numero delle volte in cui si presenta ciascun valore di X
k = numero di valori che X può assumere (modalità)

Distribuzione di frequenza

Seguendo la formula precedente posso creare la distribuzione di frequenza della variabile x. Ciò equivale a costruire una distribuzione in cui a ciascun valore di X viene associata la sua frequenza.

le frequenze sono

X₁ = 6 → f₁ = 2
X₂ = 7 → f₂ = 4
X₃ = 8 → f₃ = 3
X₄ = 9 → f₄ = 1

da cui abbiamo la seguente formula, con K=4 (modalità) e N=10

Frequenze cumulate

Un altro modo di conteggiare le frequenze è quello delle frequenze cumulate. Si ottengono sommando progressivamente le frequenze della distribuzione.

Questo procedimento ha lo scopo di facilitare e velocizzare la lettura dei dati: ad esempio, individuare la quantità di partecipanti che hanno un punteggio da 2 a 4 sulla variabile X, cioè 6

Frequenze relative o proporziale / frequenze percentuali

La frequenza relativa è il rapporto tra le frequenze di una modalità assunta dalla variabile e il totale dei casi.

La frequenza percenuale è invece la frequenza relativa moltiplicata per 100

Per riassumere all’interno di un’unica tabella, potremmo trovare diversi conteggi associati alle frequenze e alla loro distribuzione, utili a quantificare il numero di volte in cui la variabile X assume k modalità:

Frequenze semplici
Frequenze cumulate
Frequenze percentuali
Frequenze percentuali cumulate

Le distribuzioni in classi

Le frequenze possono essere distribuite in specifiche classi.

Ciò è particolarmente utile quando le modalità della variabile sono molte (ad esempio, variabili metriche, x può avere 30 o 50 valori diversi).

Raggruppando le modalità della variabile oggetto di esame in classi o intervalli, otteniamo la FREQUENZA DI CLASSE, ovvero il numero di dati (partecipanti) compresi tra i valori che definiscono la classe (o intervallo).

Per costruire le classi posso seguire 3 criteri

Coprire l’intera gamma dei punteggi (altrimenti perderemmo dei dati)
Intervalli di uguale ampiezza (se possibile) (rende semplice il confronto e la rappresentazione grafica)
Intervalli mutuamente esclusivi (un dato deve entrare specificatamente in una classe e non in un’altra)

Esempio di partecipanti che riportano la loro età (f riporta il numero di volte che si è presentato il dato)

Numeri come 72, 73, 74, …, 79 rappresentano quelli che vengono definiti LIMITI TABULATI.

Poniamo ora il caso in cui fossimo interessati a classificare alcuni individui in base al loro peso (numeri con virgola). In questo caso dovremmo ricorrere ai LIMITI REALI.

I limiti reali si ottengono aggiungendo .50 al limite tabulato superiore e sottraendo .50 al limite tabulato inferiore.

Come si può procedere alla definizione delle classi e della loro ampiezza?

Consideriamo la seguente distribuzione di punteggi

possiamo usare le seguenti due formule

Gamma = (Xₘₐₓ − Xₘᵢₙ + 1) = 94 − 40 + 1 = 55 -> gamma è il rage di valori che può assumere la variabile
Ampiezza = (gamma : n° classi) = 55 : 5 = 11 -> questa rappresenta l’ampiezza di ciascuna classe

Otteniamo quindi 5 classi – i dati raggruppati nella seguente immagine

Riassumendo si definisce la Gamma della distribuzione (massimo − minimo + 1) e si divide per il numero delle classi volute. Questo porta all’ampiezza delle classi.

I LIMITI TABULATI dell’intervallo comprendono tutti i valori maggiori al limite inferiore e minori o uguali al limite superiore.

I LIMITI REALI si considerano mezzo punto sotto il limite inferiore e mezzo punto sopra il limite superiore.

Il numero delle classi non deve essere troppo elevato

(esempio 5 < k < 20)

ed è preferibile che l’ampiezza delle classi sia uguale

(es. 2, 3, 5, 10 e multipli).

Posso calcolare il punto medio di ciascuna classe facendo la semisomma dei limiti inferiore e superiore.

03 Rilevazioni dei dati e frequenza

Table of Contents

Dalla carta al PC

Operazioni preliminari per la tabulazione dei dati

La frequenza

Esempio frequenza (livello di misura scala nominale)

Esempio frequenza (livello di misura scala a rapporti o intervalli)

Distribuzione di frequenza

Frequenze cumulate

Frequenze relative o proporziale / frequenze percentuali

Le distribuzioni in classi

More posts

25 Stima dell’attendibilità

24 Relazione tra variabili: la verifica delle ipotesi sul coefficiente di regressione lineare

23 Relazioni tra variabili: La verifica delle ipotesi sui coefficienti di correlazione non parametrici

22 Relazioni tra variabili: La verifica delle ipotesi sul coefficiente di correlazione R di Pearson