Formule di coefficiente di correlazione, calcolo, interpretazione, esempio

Formule di coefficiente di correlazione, calcolo, interpretazione, esempio

Lui coefficiente di correlazione In statistica è un indicatore che misura la tendenza di due variabili quantitative xey per avere una relazione di linearità o proporzionalità tra loro.

Generalmente, le coppie di variabili xey sono due caratteristiche della stessa popolazione. Ad esempio, X può essere l'altezza di una persona e il suo peso.

Figura 1. Coefficiente di correlazione per quattro coppie di dati (X, Y). Fonte: f. Zapata.

In questo caso, il coefficiente di correlazione indicherebbe se esiste o meno un rapporto di proporzionalità tra l'altezza e il peso di una determinata popolazione.

Il coefficiente di correlazione lineare di Pearson è indicato con la lettera R minuscolo e i suoi valori minimi e massimi sono rispettivamente -1 e +1. 

Un valore r = +1 indicherebbe che tutte le coppie (x, y) sono perfettamente allineate e che quando x cresce e crescerà nella stessa proporzione. D'altra parte, se accade che r = -1, l'insieme di coppie sarebbe anche perfettamente allineato, ma in quel caso quando X cresce e diminuisce nella stessa proporzione.

figura 2. Valori diversi del coefficiente di correlazione lineare. Fonte: Wikimedia Commons.

D'altra parte, un valore r = 0 indicherebbe che non esiste una correlazione lineare tra le variabili xey. Mentre un valore di r = +0,8 indicherebbe che le coppie (x, y) tendono a raggrupparsi da un lato e un'altra di una certa linea.

La formula per il calcolo del coefficiente di correlazione R è la seguente:

Laddove il numeratore rappresenta la covarianza tra le variabili X e Y, mentre il denominatore è il prodotto della deviazione standard per la variabile X e la deviazione standard per la variabile e.

Come calcolare il coefficiente di correlazione?

Il coefficiente di correlazione lineare è un importo statistico incorporato nei calcolatori scientifici, nella maggior parte dei fogli di calcolo e dei programmi statistici.

Può servirti: paraboloide iperbolico: definizione, proprietà ed esempi

Tuttavia, è conveniente sapere come viene applicata la formula che la definisce e per questo verrà visualizzato un calcolo dettagliato, effettuato su un piccolo set di dati.

E come indicato nella sezione precedente, il coefficiente di correlazione è la covarianza SXY divisa per il prodotto della deviazione standard SX per le variabili X e SY per la variabile e.

Covarianza e varianza

La covarianza SXY è:

Sxy = [σ (xi -) (yi -)] / (n -1)

Dove la somma va da 1 alle coppie n (xi, yi). E sono le calze aritmetiche dei dati rispettivamente.

Da parte sua, la deviazione standard per la variabile X è la radice quadrata della varianza del set di dati XI, con I da 1 a N:

Sx = √ [σ (xi -)^2) / (n -1)]

Allo stesso modo, la deviazione standard per la variabile ed è la radice quadrata della varianza del set di dati YI, con I da 1 a N:

Sy = √ [σ (yi -)2 ) / (N-1)]

Caso illustrativo

Al fine di mostrare in dettaglio il modo per calcolare il coefficiente di correlazione, prenderemo la seguente serie di quattro coppie di dati 

(X, y): (1, 1); (23); (3, 6) e (4, 7).

Per prima cosa calcoliamo la media aritmetica per xey, come segue:

= (1 + 2 + 3 + 4) / 4 = 2.5

= (1 + 3 + 6 + 7) / 4 = 4.25

Quindi vengono calcolati i parametri rimanenti:

Covarianza di sxy

Sxy = [(1 - 2.5) (1 - 4.25) + (2 - 2.5) (3 - 4.25) + (3 - 2.5) (6 - 4.25) +.. ... .(4 - 2.5) (7 - 4.25)] / (4-1)

Sxy = [(-1.5) (-3.25) + (-0.5) (-1.25) + (0.5) (1.75) +.. . 

Può servirti: regole di derivazione (con esempi)

.. .(1.5) (2.75)] / (3) = 10.5/3 = 3.5

Deviazione standard SX

Sx = √ [(-1.5)2 + (-0.5)2 + (0.5)2 + (1.5)2) / (4-1)] = √ [5/3] = 1.29

Deviazione standard Sy

Sx = √ [(-3.25)2 + (-1.25)2 + (1.75)2 + (2.75)2) / (4-1)] = 

√ [22.75/3] = 2.75

Coefficiente di ringhiera r

R = 3.5 / (1.29 * 2.75) = 0.98

Interpretazione

Nel set di dati del caso precedente esiste una forte correlazione lineare tra le variabili X e Y, che si manifesta sia nel grafico di dispersione (che può essere visto nella Figura 1) e nel coefficiente di correlazione, che ha lanciato un valore abbastanza vicino a l'unità.

Nella misura in cui il coefficiente di correlazione è più vicino a 1 o -1, più senso fa l'impostazione dei dati su una linea, il risultato della regressione lineare.

Regressione lineare

La linea di regressione lineare è ottenuta da Metodo dei minimi quadrati. in cui il parametro della linea di regressione è ottenuto dalla minimizzazione della somma del quadrato della differenza tra il valore e la stima e lo Yi dei dati N.

D'altra parte, i parametri A e B della linea di regressione y = a + bx, ottenuti con il metodo dei quadrati minimi, sono:

*B = sxy / (sx2) Per la pendenza

*A = - b per l'intersezione della linea di regressione con l'asse del e.

Ricordiamo che Sxy è la covarianza definita sopra e SX2 È la varianza o il quadrato della deviazione standard precedentemente definita. E sono i mezzi aritmetici dei dati x e e rispettivamente.

Esempio

Il coefficiente di correlazione viene utilizzato per determinare se esiste una correlazione di tipo lineare tra due variabili. È applicabile quando le variabili da studiare sono quantitative e anche, dovrebbero seguire una distribuzione di tipo normale.

Può servirti: regola di corrispondenza di una funzione

Un esempio illustrativo che abbiamo di seguito: una misura del grado di obesità è l'indice di massa corporea, che si ottiene dividendo il peso di una persona in chilogrammi tra l'altezza della stessa nelle unità quadrate verso il quadrato.

Si desidera sapere se esiste una forte correlazione tra l'indice di massa corporea e la concentrazione di colesterolo HDL nel sangue, misurata in millimoles per litro. A tal fine, è stato condotto uno studio con 533 persone riassunte nel grafico seguente, in cui ogni punto rappresenta i dati di una persona.

Figura 3. Studio IMC e colesterolo HDL in 533 pazienti. Fonte: Aragonese Institute of Health Sciences (IACS).

Dall'attenta osservazione del grafico, ne consegue che esiste una certa tendenza lineare (non molto marcata) tra la concentrazione di colesterolo HDL e l'indice di massa corporea. La misura quantitativa di questa tendenza è il coefficiente di correlazione che per questo caso si è rivelato essere r = -0.276.

Riferimenti

  1. González c. Statistiche generali. Recuperato da: tarwi.La Molina.Edu.PE
  2. IACS. Aragonese Institute of Health Sciences. Estratto da: ICS-Aragon.com 
  3. Salazar c. e Castillo s. Principi statistici di base. (2018). Estratto da: dspace.Uce.Edu.EC
  4. Superprof. Coefficiente di correlazione. Recuperato da: SuperProf.È
  5. USAC. Manuale delle statistiche descrittive. (2011). Recuperato da: statistiche.ingegneria.USAC.Edu.Gt
  6. Wikipedia. Coefficiente di correlazione di Pearson. Recuperato da: è.Wikipedia.com.