Estandarización y Regresión Lineal
Resulta valioso tener un modelo que nos ayude a predecir el comportamiento de una variable , es por ello que muchas veces se utiliza como una herramienta de pronóstico el modelo de regresión lineal.
Para entender su utilidad se desarrollará el siguiente ejemplo:
Se llevó a cabo un estudio para determinar la relación entre el número de años de experiencia (X) y el salario mensual , en miles de pesetas (Y) ,entre los informáticos de una región española. Se tomó una muestra aleatoria de 17 informáticos y se obtuvieron los siguientes datos:
Se utilizará el software R para determinar la ecuación de regresión lineal del modelo.
En primer lugar se registran los datos históricos de las variables, en este caso la variable independiente ( X) que sería los años de experiencia y la variable dependiente (Y) que sería el salario mensual en miles de pesetas.
Como se puede apreciar en la imagen anterior se ha creado en R la variable pronostico que se utilizará para determinar los coeficientes del modelo de regresión lineal.
Ahora colocamos el comando summary (pronostico) y seleccionamos todas las lineas programadas y le damos click en Run y nos aparecerá la siguiente información:
La información mostrada nos indica el que el coeficiente de determinación R^2 (Multiple R- squared) es 0.8639 , lo que significa que en un 86% la variación del salario puede ser explicado por la variación de la variable : Años de experiencia.
Esta medida de bondad es fuerte por lo tanto podemos utilizar los datos del modelo de regresión lineal que son:
Intercepto ( bo) = 17.87
pendiente (b1) = 0.72
Por tanto el modelo de regresión lineal sería : Y= 17.87 + 0.72 X
Prácticamente lo que se ha hecho es estandarizar bajo un modelo matemático la predicción de la variable y , que antes para nosotros era incierta.
La gráfica que representa esta ecuación se puede mostrar en R con la siguiente linea de comandos:
plot (x,y)
abline(pronostico)
Es tambien necesario considerar la suma de los cuadrados del Error , que representa la variación dentro de nuestro modelo, es decir la diferencia que existe entre el Y pronosticado vs Y real.
Mientras la diferencia entre nuestro Y pronosticado y Y real es menor significa que seremos más precisos a la hora de predecir el comportamiento de la variable dependiente.
La suma de cuadrados del error del modelo es calculado como la sumatoria de todos los
( Ydato - Y pronosticado ) ^2
Lo idea es minimizar la suma de cuadrados del error.
Para revisar la comparación de nuestro modelo vs los datos reales se puede apreciar en la siguiente gráfica en R con la siguiente linea de comando:
plot(pronostico)
La manera de ajustar nuestro modelo para que sea más preciso es incorporar otras variables que tambien tengan impacto significativo en el salario , y evaluar los resultados como el coeficiente de determinación y analisis anova. Ya estaríamos hablando de un modelo de regresión múltiple.
0 comentarios:
Publicar un comentario