Ejercicios sobre correlación y regresión lineal
Analicemos la relación que tiene la edad de un
estudiante con la cantidad de horas que se conecta a internet. Para ello se
toma una muestra de 11 estudiantes del liceo, se les pregunta su edad y cuántas
horas promedio se conectan a internet al día, por lo que se establecen datos
como
Estudiante |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
Edad |
15 |
14 |
17 |
16 |
15 |
16 |
15 |
13 |
17 |
16 |
16 |
Hora |
2 |
0 |
3 |
4 |
3 |
4 |
3 |
1 |
4 |
3 |
5 |
DIAGRAMA DE DISPERSIÓN
Ubicar los datos en un plano cartesiano, a
esta representación de pares ordenados se le llama diagrama de dispersión.
IDENTIFICACIÓN DE UN PATRÓN LINEAL
Una vez ubicados todos los pares ordenados en estudio procedemos a identificar la existencia, si fuese el caso, de un patrón lineal y se señala con un ovalo alargado que envuelva a todos los pares ordenados.
Se puede dibujar el ovalo, por lo que existe un patrón lineal, este patrón está inclinado hacia arriba entonces la relación es positiva, por lo que conforme aumenta la edad en el eje x, las horas de conexión a internet tienden a aumentar a lo largo del eje y.
LÍNEA DE REGRESIÓN
Conocer el patrón
lineal nos prepara para ajustar las estimaciones de y. Conociendo
el patrón lineal podemos ajustar el patrón de las coordenadas. Por lo que
trazar una línea de regresión será indispensable.
Para trazar la línea de regresión necesitamos emplear la función lineal \(y_{c} = a + bx\)
Calculemos a y b
Estudiante |
X |
Y |
\[x_{i}.y_{i}\] |
\[(x_{i})^{2}\] |
\[(y_{i})^{2}\] |
1 |
15 |
2 |
30 |
225 |
4 |
2 |
14 |
0 |
0 |
196 |
0 |
3 |
17 |
3 |
51 |
289 |
9 |
4 |
16 |
4 |
64 |
256 |
16 |
5 |
15 |
3 |
45 |
225 |
9 |
6 |
16 |
4 |
64 |
256 |
16 |
7 |
15 |
3 |
45 |
225 |
9 |
8 |
13 |
1 |
13 |
169 |
1 |
9 |
17 |
4 |
68 |
289 |
16 |
10 |
16 |
3 |
48 |
256 |
9 |
11 |
16 |
5 |
80 |
256 |
25 |
Suma |
170 |
32 |
508 |
2642 |
114 |
Cálculo para b
Cálculo
para a
Promedio de \(x\) (\(\bar{x}\))
Sustituyendo en
\[a = \bar{y} - b\bar{x}\]
Sustituyendo en \(yc=a+bx\) obtenemos la línea de regresión
Ahora graficamos la línea en el diagrama de
dispersión
Haciendo
uso de la línea de regresión podemos hacer estimaciones de la realidad, por
ejemplo: un estudiante con 15 años y 6 meses se conecta a internet
aproximadamente por 3 horas diarias.
COEFICIENTE DE CORRELACIÓN DE PEARSON
Para conocer el
grado o la fuerza de la relación entre
las variables se emplea coeficiente de correlación de Pearson o r de Pearson.
Es decir, con la r de Pearson podemos conocer si la
relación es positiva o negativa y si los datos tienen una fuerte relación o no.
Para calcular la r de Pearson empleamos la fórmula
Este valor es
bastante cercano a 1 por lo que la relación lineal entre las variables es
bastante fuerte. Al ser 0,77 un número
positivo nos está indicando que la relación es positiva o directa.
En nuestro ejemplo
significa que muchas veces el mayor número de horas de conexión a internet está
asociado a adolescentes de mayor edad o que a menor edad se espera que muchos
adolescentes tengan menor tiempo de conexión diaria a internet.