Formule di coefficiente di determinazione, calcolo, interpretazione, esempi

Formule di coefficiente di determinazione, calcolo, interpretazione, esempi

Lui Coefficiente di determinazione È un numero tra 0 e 1 che rappresenta la frazione di punti (x, y) che segue la linea di regolazione mediante regressione di un set di dati con due variabili.

È anche noto come Bontà di aggiustamento ed è indicato da R2. Per calcolarlo, il quoziente viene preso tra la varianza dei dati ŷi stimati dal modello di regressione e la varianza dei dati YI corrispondenti a ciascun XI dei dati.

R2 = Sŷ / sy

Figura 1. Coefficiente di correlazione per quattro coppie di dati. Fonte: f. Zapata.

Se il 100% dei dati è sulla linea di funzione di regressione, il coefficiente di determinazione sarà 1.

Al contrario, se per un set di dati e una determinata funzione di regolazione, il coefficiente R R2 Risulta essere uguale a 0.5, quindi si può dire che l'adeguamento è soddisfacente o buono al 50%. 

Allo stesso modo, quando il modello di regressione lancia valori di R2 Meno di 0.5, ciò indica che la funzione di regolazione scelta non si adatta in modo soddisfacente ai dati, quindi necessaria per cercare un'altra funzione di regolazione.

E quando covarianza o il coefficiente di correlazione Tende a zero, quindi le variabili xey dai dati non sono correlate, e quindi r2 tenderà anche a zero.

[TOC]

Come calcolare il coefficiente di determinazione?

Nella sezione precedente si diceva che il coefficiente di determinazione fosse calcolato trovando il quoziente tra le varianze:

-Stimato dalla funzione di regressione della variabile e 

-La variabile Yi corrispondente a ciascuna variabile XI. 

In forma matematica, rimane così:

R2 = Sŷ / sy

Da questa formula segue che r2 rappresenta la proporzione di varianza spiegata dal modello di regressione. In alternativa, R può essere calcolato2 Attraverso la seguente formula, totalmente equivalente a quella precedente:

R2 = 1 - (sε / sy)

Dove sε rappresenta la varianza dei rifiuti εi = ŷi - yi, mentre SY è la varianza del set di dati dei dati dei dati. Per determinare ŷi viene applicata la funzione di regressione, il che significa affermare che ŷi = f (xi).

Può servirti: frazione equivalente a 3/5 (soluzione e spiegazione)

La varianza del set di dati YI, con I da 1 a N viene calcolata in questo modo:

Sy = [σ (yi -)2 ) / (N-1)]

E quindi procedere in modo simile a Sŷ o per Sε.

Caso illustrativo

Per mostrare i dettagli del modo in cui il calcolo del Coefficiente di determinazione Prenderemo il seguente set di quattro coppie di dati: 

(X, y): (1, 1); (23); (3, 6) e (4, 7).

Viene proposta una regolazione di regressione lineare per questo set di dati ottenuto con il metodo dei minimi quadrati:

f (x) = 2.1 x - 1 

Applicando questa funzione di regolazione, si ottengono i pari:

(X, ŷ): (1, 1.1); (23.2); (3, 5.3) e (4, 7.4).

Quindi calcoliamo la media aritmetica per xey:

= (1 + 2 + 3 + 4) / 4 = 2.5

= (1 + 3 + 6 + 7) / 4 = 4.25

Varianza sy

Sy = [(1 - 4.25)2 + (3. 4.25)2 + (6 - 4.25)2 +.. ... .(7 - 4.25)2] / (4-1) =

= [-3.25)2+ (-1.25)2 + (1.75)2 + (2.75)2) / (3)] = 7.583

Varianza sŷ

Sŷ = [(1.1 - 4.25)2 + (3.2 - 4.25)2 + (5.3. 4.25)2 +.. ... .(7.4 - 4.25)2] / (4-1) =

= [-3.25)2 + (-1.25)2 + (1.75)2 + (2.75)2) / (3)] = 7.35

Coefficiente di determinazione R2

R2 = Sŷ / sy = 7.35/7.58 = 0.97

Interpretazione

Il coefficiente di determinazione per il caso illustrativo considerato nel segmento precedente si è rivelato essere 0.98. Vale a dire che la regolazione lineare attraverso la funzione:

 f (x) = 2.1x - 1

È affidabile al 98% spiegare i dati con cui sono stati ottenuti attraverso il metodo quadrato minimo. 

Oltre al coefficiente di determinazione, esiste il Coefficiente di correlazione lineare o noto anche come coefficiente di Pearson. Questo coefficiente, indicato come R, È calcolato dalla seguente relazione:

R = sxy / (sx sy)

Qui il numeratore rappresenta la covarianza tra le variabili X e Y, mentre il denominatore è il prodotto della deviazione standard per la variabile X e la deviazione standard per la variabile e.

Il coefficiente di Pearson può prendere valori tra -1 e +1. Quando questo coefficiente tende a +1 c'è una correlazione lineare diretta tra X e Y. Se invece tende a -1, c'è una correlazione lineare ma quando X cresce e diminuisce. Infine, è vicino a 0 non esiste una correlazione tra le due variabili.

Può servirti: dati raggruppati: esempi e esercizi risolti

Va notato che il coefficiente di determinazione coincide con il quadrato del coefficiente di Pearson, solo quando il primo è stato calcolato in base a una regolazione lineare, ma questa uguaglianza non è valida per altre regolazioni non lineari.

Esempi

- Esempio 1

Un gruppo di studenti delle scuole superiori intende determinare una legge empirica per il periodo di un pendolo in funzione della sua lunghezza. Per raggiungere questo obiettivo, effettuano una serie di misurazioni in cui misurano il tempo di un'oscillazione del pendolo per diverse lunghezze che ottengono i seguenti valori:

Lunghezza (m) Periodo / e)
0.1 0.6
0.4 1.31
0.7 1.78
1 1.93
1.3 2.19
1.6 2.66
1.9 2.77
3 3.62

È richiesto di creare un grafico di dispersione dei dati e effettuare una regolazione lineare per regressione. Inoltre, mostra l'equazione di regressione e il suo coefficiente di determinazione.

Soluzione

figura 2. Soluzione grafica dell'esercizio 1. Fonte: f. Zapata.

Si può osservare un coefficiente di determinazione abbastanza elevato (95%), quindi si potrebbe pensare che la regolazione lineare sia ottimale. Tuttavia, se i punti vengono osservati insieme, sembra che abbiano la tendenza a curvare. Questo dettaglio non è contemplato nel modello lineare.

- Esempio 2

Per gli stessi dati dell'esempio 1, creare un grafico di dispersione dei dati. In questa occasione, a differenza dell'esempio 1, è richiesto di effettuare una regolazione di regressione attraverso una potenziale funzione.

Figura 3. Soluzione grafica dell'esercizio 2. Fonte: f. Zapata.

Mostra anche la funzione di regolazione e il suo coefficiente di determinazione R2.

Soluzione

La potenziale funzione è della forma f (x) = axB, dove a e b sono costante che sono determinati con un metodo quadrato minimo.

La figura precedente mostra la funzione potenziale e i suoi parametri, nonché il coefficiente di determinazione con un valore molto alto del 99%. Si noti che i dati seguono la curvatura della linea di tendenza.

Può servirti: principio additivo

- Esempio 3

Con gli stessi dati dell'esempio 1 e dell'esempio 2, effettuare una regolazione polinomiale di secondo grado. Mostra il grafico, il polinomio di regolazione e il coefficiente di determinazione R2 corrispondente.

Soluzione

Figura 4. Grafico dell'esercizio grafico 3. Fonte: f. Zapata.

Con la regolazione polinomiale di secondo grado, si può vedere una linea di tendenza che si adatta bene alla curvatura dei dati. Allo stesso modo, il coefficiente di determinazione è al di sopra della regolazione lineare e al di sotto del potenziale aggiustamento.

Confronto di aggiustamento

Dei tre regolazioni mostrate, quella con un coefficiente di determinazione più elevato è il potenziale aggiustamento (Esempio 2).

Il potenziale aggiustamento coincide con la teoria fisica del pendolo, che, come è noto, stabilisce che il periodo di un pendolo è proporzionale alla radice quadrata della sua lunghezza, essendo la costante di proporzionalità 2π /√g dove G è l'accelerazione di gravità.

Questo tipo di potenziale aggiustamento non solo ha il coefficiente di determinazione più alto, ma l'esponente e la costante di proporzionalità coincidono con il modello fisico. 

Conclusioni

-La regolazione della regressione determina i parametri della funzione che mira a spiegare i dati attraverso il metodo quadrato minimo. Questo metodo consiste nel ridurre al minimo la somma della differenza quadratica tra il valore e la regolazione e il valore Yi dei dati per i valori XI dei dati. In questo modo sono determinati i parametri della funzione di regolazione.

-Come abbiamo visto, la funzione di aggiustamento più comune è la linea, ma non è l'unica, poiché le regolazioni possono anche essere polinomici, potenziali, esponenziali, logaritmi e altri. 

-In ogni caso, il coefficiente di determinazione dipende dai dati e dal tipo di regolazione ed è un indicativo della bontà della regolazione applicata.

-Infine, il coefficiente di determinazione indica la percentuale di variabilità totale tra il valore e i dati rispetto al valore ŷ dell'agitazione per la X indicata.

Riferimenti

  1. González c. Statistiche generali. Recuperato da: tarwi.La Molina.Edu.PE
  2. IACS. Aragonese Institute of Health Sciences. Estratto da: ICS-Aragon.com
  3. Salazar c. e Castillo s. Principi statistici di base. (2018). Estratto da: dspace.Uce.Edu.EC
  4. Superprof. Coefficiente di determinazione. Recuperato da: SuperProf.È
  5. USAC. Manuale delle statistiche descrittive. (2011). Recuperato da: statistiche.ingegneria.USAC.Edu.Gt.
  6. Wikipedia. Coefficiente di determinazione. Recuperato da: è.Wikipedia.com.