Contenido dedicado a explicar el uso de diversas herramientas de la calidad para gestionar procesos y compartir metodologías de trabajo que promuevan la mejora continua.

Con la tecnología de Blogger.

miércoles, 2 de noviembre de 2016

La importancia de la correlación y sus limitaciones




Este coeficiente es utilizado ampliamente  en la estadística y  sin embargo muchas veces no se establece claramente una diferenciación con la relación de causalidad.

El coeficiente de correlación ( r) , mide el grado de asociación lineal que existe entre dos o más variables.

Es decir  la variable independiente ( x) , nos ayuda a predecir el comportamiento de la variable dependiente (y) , siempre y cuando exista una relación fuerte entre ambas variables.


Para el análisis e interpretación de la correlación en primer lugar se deben tomar datos de por lo menos dos variables , la variable que se va a predecir (y)  y la variable que se utilizará como entrada (x)  de la ecuación de regresión.

A continuación se desarrollará el siguiente ejemplo:

La resistencia del cemento , depende entre otras cosas del tiempo de secado del cemento (t) . En un experimento se obtuvo la resistencia de bloques de cemento con diferentes tiempos de secado. Los resultados se muestran en la tabla.


En primer lugar se calculará el promedio de los resultados de cada prueba realizada.


Ahora se procederá a calcular el coeficiente de correlación entre las variables utilizando Excel.

Para ello se aplicará la siguiente fórmula "= COEF.DE.CORREL(Matriz 1 , Matriz 2) "
Las matrices corresponden a los datos contenidos en la columna de tiempo y la columna de resistencia respectivamente.

El coeficiente resulta ser: r= 0.8

El valor de r puede estar entre -1 y 1 , cuando el valor de r = 0 , se afirma que no existe correlacion entre las variables y cuando se acerca a -1 ó 1 se afirma que existe una relacion inversa o directa entre las variables.

Para este caso el resultado ( r= 0.8)  demuestra que existe una fuerte relacion lineal directa entre las variables. Es decir si el tiempo de secado aumenta , tambien el nivel de resistencia debería aumentar y viceversa.

Ahora se procederá a calcular la ecuación de regresión lineal.

Un método para calcular en excel es generar la ecuación de regresión a partir de la gráfica.

En primer lugar seleccionamos los datos que nos interesa graficar es decir los datos de tiempo y resistencia promedio y elegimos en la pestaña Insertar el gráfico de dispersión.



Una vez seleccionado la primera opción  se generará la siguiente gráfica:



Posteriormente manteniendo seleccionado el gráfico generado, nos vamos a la pestaña diseño y en la opción "Agregar Elementos del Gráfico" seleccionamos la opción "Linea de Tendencia" y elegimos "Más opciones de Linea de Tendencia".




Luego nos aparecerá una ventana emergente al lado derecho y activaremos la casilla Presentar Ecuación de Regresión en el gráfico.


La ecuación que se muestra es la siguiente : y= 7.19x +212.32

Donde el intercepto es 212.32 y la pendiente de la gráfica es 7.19.

Interpretación:  Significa que por cada día que se considera en el secado del cemento , aumenta la resistencia de los bloques en 7.19 kg/ cm2

Restricciones:

1. Se debe tomar en cuenta que el modelo es un buen predictor entre el rango de datos considerado en la variable independiente ( es decir entre 1 y 28 días)No significa ello que pueda predecir de manera correcta mas allá del rango ( Ej. Predecir la resistencia para 50 días)   , para lo cual se tendría que considerar más datos. 

2. Si bien existe una correlación lineal directa , no se puede afirmar que hay una relación de causalidad , es decir no puedo afirmar que  el tiempo de secado sea la razón que origina mayor resistencia. Dado que para ello se necesita realizar el Diseño de Experimentos, que me permitiría sustentar tal afirmación. 


Conclusión:

La utilidad del coeficiente de correlación lineal consiste en corroborar que existe una fuerte relacion lineal , que nos sirva de apoyo para establecer nuestro modelo de regresión lineal y con ello podamos predecir el comportamiento de la variable objetivo a partir de la variable independiente. 

Lo cual no significa que una sea el orígen de la otra, sino que ambas variables estan estrechamente relacionadas y dado ese comportamiento podemos obtener información de utilidad.











0 comentarios:

Publicar un comentario