Correlación y regresión lineal
Variable dependiente: es la variable que deseamos explicar.
Variable
independiente: es la variable predictoria.
Correlación
Dos variables se correlacionan cuando las
mediciones de una variable cambian simultáneamente con las medidas de la otra.
Dos variables están correlacionadas si sus medidas cambian juntas, de manera
consistentes, de caso en caso.
Ejemplos: en una población de adultos, existe
una correlación entre la edad y el número de veces al doctor en un año, es
decir, los adultos de mayor edad tienden a ir más al doctor que los adultos de
menor edad. En otras palabras, mientras más edad tenga una persona más visita
al doctor.
Entre los estudiantes, el tiempo invertido en
la lectura se correlaciona con el promedio de sus calificaciones; cuando más
tiempo se pase leyendo se obtendrán mejores calificaciones.
Correlación lineal simple y análisis de regresión
El proceso para superar las mejores
estimaciones de una variable dependiente (Y)
considerando su relación con una variable independiente (X) se llama correlación
lineal simple y análisis de regresión. (Simple se refiere al caso de dos
variables. Con tres o más variables se denomina correlación múltiple). La idea central detrás de la correlación
lineal y de la regresión simple consiste en servirse de una fórmula para una
línea recta para obtener una mejor estimación de Y, para cualquier valor dado de X.
Se utiliza el símbolo Yc para
referirse al valor estimado de Y.
Diagrama de dispersión
Es una
cuadrícula en dos dimensiones de las coordenadas de dos variables X y Y.
Una coordenada es un punto en un diagrama de dispersión donde se grafican los
valores de X y Y para un caso. Los estadísticos que acompañan al diagrama de
dispersión sólo se aplican a situaciones en las cuales las coordenadas caen en
un patrón lineal. – aquel donde las coordenadas del diagrama de dispersión caen
en un patrón de un ovalo alargado que se
aproxima a la forma de una línea recta.
Patrón lineal
En un diagrama de dispersión lineal, una
relación lineal está presente si las
coordenadas forman un patrón ovalado y alargado que desciende o asciende.
☛ Relación positiva o directa
Conforme se incrementa la variable al moverse
sobre el eje X, las puntuaciones de Y también se incrementan a lo largo del eje Y. Cuando
ambas variables aumentan de manera
simultánea, se llama una correlación positiva. (Cuando X aumenta, Y sigue una tendencia a aumentar)
☛ Relación negativa a inversa
Conforme las puntuaciones de X suben, las puntuaciones de Y bajan. Un incremento en X se relaciona con una disminución de Y.
☛ Ausencia de correlación
Un aumento de X no se relaciona con las puntuaciones de Y. (un aumento de x no se relaciona con las puntuaciones de Y (Cuando
X aumenta, las puntuaciones de Y varían de manera aleatoria).
Conocer el patrón lineal de las coordenadas de
un diagrama de dispersión nos prepara para ajustar las predicciones de Y.
Línea de regresión
Si el diagrama de dispersión revela una forma
de óvalo alargado con un patrón lineal de las coordenadas, se traza una línea
recta para “ajustar” el patrón de las coordenadas. Esta línea es aquella que
cae lo más cerca posible de cada coordenada y se llama línea de “mejor ajuste”
o, técnicamente, la línea de regresión.
La fórmula para una línea recta para estimar Y
es Yc = a + bX
Donde
Yc=
la Y predicha
(una estimación de la variable dependiente Y
calculada para un valor dado de la variable independiente X)
a= intercepción del eje Y, el
punto donde la línea de regresión intersecta el eje Y cuando X=0
b=pendiente de la
línea de regresión (llamada coeficiente de regresión)
\(b = \frac{n(\Sigma xy) - (\Sigma x)(\Sigma y) }{n\Sigma x^2-(\Sigma x)^2}\)
Donde
b= coeficiente de regresión
X= variable independiente
Y= variable dependiente
n= tamaño de la muestra
\(a = \bar{Y} - b\bar{x}\)
Donde
a= intersección del eje Y
¯¯
\(\bar{y}\)= media de la variable dependiente \(\bar{y} =\frac{\mathrm{\Sigma } y}{\mathrm n}\)
b= coeficiente de regresión
¯¯\(\bar{x}\)= media de la variable independiente \(\bar{x} =\frac{\mathrm{\Sigma } x}{\mathrm n}\)
Una vez que se ha ubicado esta línea podemos, podemos usar ccordenadas
sobre ellas para identificar la mejor estimación de Y para cualquie valor de X (Yc).
La Yc constituye una
estimación que es “factible conocer “ – con base en el conocimiento de la
relación precisa entre las variables.
El beneficio clave del análisis de regresión consiste en la habilidad para
mejorar las estimaciones de Y en una
población. Así las estimaciones resultantes están más cerca a los verdaderos
valores de Y.
Coeficiente de correlación r de Pearson
En un diagrama de dispersión, cuanto más estrechamente se ajusten los datos de las coordenadas alrededor de la línea de regresión, mayor será la correlación entre X y Y, y más precisamente se estimará Y para cualquier valor de X . La r de Pearson es un coeficiente de correlación ampliamente usado que mide la estreches del ajuste de la coordenadas X , Y alrededor de la línea de regresión. La fórmula para la r de Pearson es como sigue:
Donde
r= coeficiente de correlación de Pearson
X= variable independiente
Y= variable dependiente
n= tamaño de la muestra
Características del coeficiente de correlación de Pearson
1.- Los valores calculados de la r de Pearson
pueden ir de -1,0 a +1.0 pasando por cero.
2.- A mayor valor absoluto de la r de Pearson,
habrá mayor estrechez del ajuste de las coordenadas X,Y alrededor de la línea de regresión.
3.- Cuando la r de Pearson es positiva hasta
un valor de +1.0, la línea de regresión se inclina hacia arriba.
4.- Cuando la r de Pearson es negativa hasta
un valor de -1.0, la línea de regresión se inclina hacia abajo.
5.- Cuando la r de Pearson es 0, la línea de
regresión es plana.
Video explicativo
BIBLIOGRAFÍA
Ritchey, F. (2002). Estadística para las ciencias
sociales: el potencial de la
imaginación estadística. Primera Edición. México. Editorial McGRAW –HILL.
COLECCIÓN BICENTENARIO: La matemática y el vivir bien. 5
quinto año. (2012). Primera edición. Venezuela. Ministerio del Poder
Popular para la Educación.