Contenido dedicado a explicar el uso de diversas herramientas de la calidad para gestionar procesos y compartir metodologías de trabajo que promuevan la mejora continua.

Con la tecnología de Blogger.

lunes, 23 de octubre de 2017

Estandarización y Regresión Lineal



Resulta valioso tener un modelo que nos ayude a predecir el comportamiento de una variable , es por ello que muchas veces se utiliza como una  herramienta de pronóstico el modelo de regresión lineal.

Para entender su utilidad se desarrollará el siguiente ejemplo:

Se llevó a cabo un estudio para determinar la relación entre el número de años de experiencia (X) y el salario mensual , en miles de pesetas  (Y) ,entre los informáticos de una región española. Se tomó una muestra aleatoria de 17 informáticos y se obtuvieron los siguientes datos:


Se utilizará el software R para determinar la ecuación de regresión lineal del modelo.

En primer lugar se registran los datos históricos de las variables, en este caso la variable independiente ( X)  que sería los años de experiencia y la variable dependiente (Y) que sería el salario mensual en miles de pesetas.


Como se puede apreciar en la imagen anterior se ha creado en R la variable pronostico que se utilizará para determinar los coeficientes del modelo de regresión lineal.

Ahora colocamos el comando summary (pronostico) y seleccionamos todas las lineas programadas y le damos click en  Run y nos aparecerá la siguiente información:



La información mostrada nos indica el que el coeficiente de determinación R^2 (Multiple R- squared) es 0.8639 , lo que significa que en un 86%  la variación del salario puede ser explicado por  la variación de la variable : Años de experiencia.

Esta medida  de bondad es fuerte por lo tanto podemos utilizar los datos del modelo de regresión lineal que son:

Intercepto ( bo) = 17.87
pendiente (b1) = 0.72

Por tanto el modelo de regresión lineal sería :  Y= 17.87 + 0.72 X
Prácticamente lo que se ha hecho es estandarizar bajo un modelo matemático la predicción de la variable y , que antes para nosotros era incierta.

La gráfica que representa esta ecuación se puede mostrar en R con la siguiente linea de comandos:

plot (x,y)
abline(pronostico)



Es tambien necesario considerar la suma de los cuadrados del Error , que representa la variación dentro de nuestro modelo, es decir la diferencia que existe entre el Y pronosticado vs Y real.
Mientras la diferencia entre nuestro Y pronosticado y Y real es menor significa que seremos más precisos a la hora de predecir el comportamiento de la variable dependiente.

La suma de cuadrados del error  del modelo es calculado como la sumatoria de todos los
( Ydato - Y pronosticado ) ^2

Lo idea es minimizar la suma de cuadrados del error.
Para revisar la comparación de nuestro modelo vs los datos reales se puede apreciar en la siguiente gráfica en R con la siguiente linea de comando:

plot(pronostico)


La manera de ajustar nuestro modelo para que sea más preciso es incorporar otras variables que tambien  tengan impacto significativo en el salario , y evaluar los resultados como el coeficiente de determinación y analisis anova. Ya estaríamos hablando de un modelo de regresión múltiple.








0 comentarios:

Publicar un comentario