Contenido dedicado a explicar el uso de diversas herramientas de la calidad para gestionar procesos y compartir metodologías de trabajo que promuevan la mejora continua.

Con la tecnología de Blogger.

miércoles, 28 de marzo de 2018

Análisis ANOVA: Inferencias



Para entender el comportamiento de una característica que puede ser afectada por una o múltiples variables. se debe establecer un modelo que nos permita evaluar si existe o no relación entre el resultado (Y) que buscamos obtener y los potenciales factores (X) que impactan significativamente en el comportamiento de la variable dependiente.
De tal manera que podamos establecer una hipotesis ( X Y).

La lógica de la estadística inferencial consiste en partir de la información de una muestra para entender y predecir el comportamiento de una población.

Las pruebas de hipótesis son utilizadas ampliamente como parte del proceso de investigación, así como en la metodología Six Sigma ( Fase: Analizar) con el objeto de entender la causa que origina que un producto o servicio esté fuera de especificación.

A continuación se desarrollarán los siguientes ejercicios para comparar los resultados de una variable afectada por diferentes métodos.

Ejemplo 1:

Se realizó un experimento con germinado de semillas, el cual tenía por objeto determinar el contenido de proteínas de diferentes especies. El experimento se realizó con un diseño completamente al azar, obteniéndose los siguientes resultados: 
 

 ¿Existe una diferencia en el contenido de proteína en las diferentes especies? 
Se considerará un nivel de significancia del 5%

En primer lugar se determinarán los estadísticos de cada grupo de especies, para utilizar la información en nuestros cálculos.


A continuación planteamos la hipótesis nula y alternativa:

Ho: U1 = U2 = U3=U4=U5=U6 (En promedio el contenido de proteínas en todas las especies es el mismo)

H1: Al menos una de las especies difiere en el contenido de proteinas respecto de las otras especies.

Vamos a asumir de que se cumplen las condiciones para realizar el análisis ANOVA.

-Es decir cada muestra que representa una población es obtenida de manera independiente.
-La varianza es homogénea para todas las especies.
- La distribución de los datos de cada muestra se puede representar con una curva de campana ( Distribución normal).

Teniendo en cuenta estos principios a priori procedemos al cálculo del estadístico f.

Suma de Cuadrados Totales = Σ (Yi - Y ) ^2
 Donde:
Yi: Valor de cada observación
Y: Media de Medias de la variable de respuesta

SCT = (5.13 - 3.12)^2 + (4.17-3.12)^2 + ....+ (3.32 - 3.12)^2
SCT = 63.24

Suma de Cuadrados de la Regresión = Σ nj (Yj - Y)^2
Donde:
Yj: Valor promedio de cada especie
nj: El tamaño de muestra de cada especie
Y: Media de Medias de la variable de respuesta

SCR= (6x(2.36-3.12)^2) + (6x(4.51-3.12)^2) + .... (6x(3.93-3.12)^2)
SCR= 54.47

Suma de Cuadrado del Error = SCT - SCR = 8.77

Ahora corresponder establecer la tabla ANOVA con los datos que se han calculado.


Para hallar los grados de Libertad asociados con ANOVA

Grados de libertad  del grupo de la regresión = K -1 = 6 -1 = 5
(Donde K = nro de especies)
Grados de Libertad del total = n -1 =  36 -1 = 35
(Donde n= total de datos)
Grados de Libertad de los residuales = GLT - GLR = 35 - 5 = 30

- Para hallar el promedio de la suma de cuadrados, se divide cada suma de cuadrados entre los grados de libertad respectivo.
- Para hallar el estadístico F se divide el promedio de Suma de Cuadrados del grupo de la regresión entre el promedio de suma de cuadrados de los residuales.

Para un nivel de significancia del 0.05, considerando los grados de libertad del numerador 5 y del denominador 30. Se revisa la tabla de fisher que el valor de F es 2.53



Nuestro f calculado es 37.26 que estaría en la zona de rechazo , dado que este valor es mayor al f de tabla. (2.53)

Se rechaza la hipótesis nula y por tanto concluimos que al menos una de las especies tiene en promedio, mayor o menor contenido de proteinas.

Para identificar cual de las especies tiene una diferencia significativa frente a las otras se debe realizar una prueba de hipótesis con el estadístico t para comparar cada par de especies.


Ejemplo 2: 

Se realiza un experimento para determinar el efecto de tres métodos de preparación del terreno sobre el crecimiento de pinos en el primer año. Cuatro localidades fueron seleccionadas y divididas en tres parcelas cada una. Como se esperaba que la fertilidad del terreno fuese más homogénea dentro de una localidad que entre las localidades, se utilizó un diseño de bloques aleatorios, tomando a las localidades como bloques. Los métodos de preparación fueron A ( ninguna preparación), B ( fertilización ligera), C (fertilización fuerte). Las preparaciones del terreno se aplicaron al azar a las parcelas dentro de cada localidad.  En cada parcela se plantó la misma cantidad de árboles y se observó el crecimiento promedio durante el primer año de los árboles en cada parcela.


Realizar un análisis de varianza y verificar si existe evidencia de una diferencia significativa entre los crecimientos medios correspondientes a las tres preparaciones y entre localidades.

Respecto a las tres preparaciones:

Ho: U1=U2=U3 ( La media de crecimiento para las tres preparaciones es la misma)
H1: Al menos una de las tres preparaciones del terreno tiene una media de crecimiento diferente

Se analizará en Minitab si existe una diferencia significativa entre las tres métodos de preparación del terreno.

Para ello registramos los datos en función del tipo de preparación tal como se muestra:



Luego realizar click en el menú Estadística / ANOVA / Un solo factor (Desapilado)  y  se mostrará una ventana que nos permitira seleccionar las respuestas que queremos analizar de cada columna y el nivel de confianza es de 95%:


Finalmente damos click en Aceptar y aparecerán los siguientes resultados para interpretar:


Como se muestra en los resultados el valor de P es 0.152 de acuerdo a la tabla ANOVA
Considerando un nivel de significancia de 0.05 (alpha)

Interpretación
Si el valor de p < alpha se rechaza la hipótesis nula
Si el valor de p > alpha se acepta la hiótesis nula

En este caso p > alpha , por lo tanto podemos afirmar que no existe una diferencia significativa entre los métodos de preparación.

La media de crecimiento es el mismo , independiente del metodo de preparación del terreno.


Respecto a las localidades:

Ho: U1=U2=U3 ( La media de crecimiento para las cuatro localidades es la misma)
H1: Al menos una de las cuatro localidades tiene una media de crecimiento diferente

Realizamos el mismo proceso en minitab:



Finalmente obtenemos los siguientes resultados:




Interpretación:

Considerando un nivel de significancia de 0.05 ( Dado que seleccionamos como nivel de confianza 0.95)
p > alpha
Por tanto se acepta la hipótesis nula , es decir no hay un diferencia significativa respecto al crecimiento , independiente de la localidad.

En conclusión podemos afirmar que la fertilidad de los terrenos es homogénea.

miércoles, 7 de marzo de 2018

Matriz de Confusión



Cuando se utiliza información que tiene dos posibles resultados , ya sea positivo o negativo respecto a un evento ( clasificación binaria).
Se puede analizar el grado de precisión de un sistema de predicción a través de la matriz de confusión.

La matriz de confusión, es una herramienta útil a la hora de analizar la predicción de varios escenarios a favor y en contra. Permite analizar si una prueba es segura para detectar enfermedades, si un sistema de radar es lo suficiente confiable para diferenciar misiles de otros objetos en el aire,etc. En general nos permite clasificar la información y seleccionar  modelos óptimos y descartar  modelos con deficiencia.

Para construir la matriz de confusión se deben considerar los siguientes elementos:


Fuente: Universidad Externado de Colombia


Verdaderos Positivos (VP) ,  corresponden a aquellos eventos que realmente sucedieron y el sistema de predicción acertó.

Falsos Positivos (FP) , son aquellos eventos que no sucedieron pero fueron clasificados como si hubiera sucedido.
Falsos Negativos (FN), son aquellos eventos que si sucedieron pero que el sistema no los detectó.

Verdaderos Negativos (VN),  aquellos eventos que no sucedieron y que el sistema los clasificó como tal correctamente.

Para entender a cabalidad la aplicación de la matriz se desarrollará el siguiente ejemplo:

La probabilidad de que haya un accidente en una fábrica que dispone de alarma es 0.1. La probabilidad de que suene esta sí se ha producido algún accidente es de 0.97 y la probabilidad de que suene si no ha sucedido ningún accidente es 0.02.

A partir de esta información se desarrollará un árbol de decisiones y se extraerá los datos para construir la matriz.  


Fuente: www.vitutor.com

- Como se puede observar segun datos del enunciado, la probabilidad de que suceda un accidente , cuando la fábrica dispone de una alarma es del 0.10 , por lo tanto el 0.9 sera la probabilidad de que una persona no sufra un accidente mientras esté funcionando la alarma.

- La probabilidad de que suene la alarma si sufre un accidente es de 0.97 , por lo tanto el 0.03 corresponde a la probabilidad de que no suene la alarma si sufre un accidente.

- De acuerdo al enunciado si no sufre algun accidente, la probabilidad de que suene la alarma es 0.02, caso contrario la probabilidad de que no se active la alarma será 0.98 frente a ese escenario.


Se ha construido la matriz de confusión, para ello se han calculados los datos necesarios aplicando fórmula de probabilidades:

(+) Se activó la alarma
(- )No se activó la alarma
(I) Sucedió el accidente
(-I) No sucedió el accidente

VP = P ( + ,  I) = P (+/I) *P (I) = 0.97 *0.01 = 0.097
FP= P ( + , -I) = P (+/-I) *P(-I) = 0.02 * 0.9 = 0.018
VN = P (-, -I)= P(- / -I)*P(-I) = 0.98 * 0.9 = 0.882
FN = P( -, I) = P (-/I)*P(I) = 0.03*0.01 = 0.003


Fuente: Elaboración Propia


Interpretación:

Precisión de la Predicción Positiva = VP / (VP + FP) = 0.097 /(0.097 + 0.018) = 84.35%

84.35% sería la probabilidad de que si la alarma se activó,  efectivamente sucedió un accidente.


Precisión de la Predicción Negativa = VN / (VN + FN) = 0.882 / (0.882 +0.003) = 99.66%

99.66 % sería la probabilidad de que la alarma no se active , dado que no sucedió un accidente.

Precisión del Modelo = (VP + VN)/ (VP + FP + VN + FN) = 97.9%

97.9% es el porcentaje total de aciertos del sistema de alerta de accidentes.

Ahora estos resultados se pueden comparar con otro sistema y determinar cual es más efectivo y confiable para la organización.