Contenido dedicado a explicar el uso de diversas herramientas de la calidad para gestionar procesos y compartir metodologías de trabajo que promuevan la mejora continua.

Con la tecnología de Blogger.

martes, 8 de octubre de 2019

Análisis de Residuales



1. ¿ Qué son los residuales?

Es la diferencia entre el valor real y el valor proyectado de nuestro modelo de regresión.

Donde:
ri = Residual
Yi= Valor real

= Valor proyectado


El modelo es adecuado cuando el valor de los residuales es en promedio cercano a cero (0). En otras la palabras nuestra proyección es precisa.


2. ¿ Para qué se utiliza el análisis de residuales?

El análisis de residuales nos ayuda a :

a) Verificar la normalidad de los residuales.

     Es decir verificar si los residuales siguen una distribución normal con una media de cero.

b) Verificar la homogeneidad de las varianzas.

c) Detectar la presencia de Outliers (Puntos alejados del rango de dispersión de datos)

d) Determinar la independencia de errores u observaciones
 
    Es decir descartar la existencia de una relación de dependencia de los residuales.

3. Ejemplo de Análisis de Residuales

Se va a desarrollar la siguiente casuística para verificar la normalidad de los residuos utilizando el programa SPSS. 

De acuerdo a los resultados obtenidos se realizará el análisis e interpretación de la información.

El Gerente de Marketing de una cadena de supermercados desea utilizar el espacio en los anaqueles para predecir las ventas de comida para mascotas. Una muestra aleatoria de doce (12) tiendas de igual tamaño son seleccionadas, con los siguientes resultados:






- En primer lugar ingresamos los datos al programa SPSS tal como se muestra en la siguiente figura:



- Luego seleccionar la opción Analizar >> Regresión >> Lineales ...



- Seleccionar "Venta Semanal" como variable dependiente y "Espacio" como variable independiente tal  como se muestra:



- Seleccionar el botón gráficos y activar con un check las opciones "histograma", "Gráfico de prob. normal" ," Generar todos los gráficos parciales" y hacer clic en el botón continuar:



- Hacer clic en el botón "Guardar" , activar con un check la opción de residuos " No estandarizados" ,desactivar la opción de "Incluir matriz de covarianzas" y hacer clic en el botón continuar:



- Hacer clic en el botón Aceptar y se mostrará la siguiente reportería:



Podemos observar en la estadística de residuos que la media del residuo es cero (0). Este valor es relevante para nuestro modelo. Dado que deseamos predecir las ventas con un margen mínimo de error.


En el gráfico P-P normal de regresión Residuo estandarizado, podemos observar que aparentemente los residuos calzan o están cercanos al modelo.


Sin embargo para poder afirmar con certeza de que los residuos del modelo siguen una distribución normal con media cero (0) se realizará un análisis riguroso:


3.1 Verificación de la normalidad de los residuos

En este caso se utilizaran dos (02) pruebas:

La prueba de Kolgomorov-Smirnov
La prueba de Shapiro-Wilk

a)  Prueba de Kolgomorov

- Para realizar esta prueba de bondad, seleccionar la opción Analizar >> Pruebas no paramétricas >> Una muestra



- En la ventana emergente, seleccionar la pestaña Campos, y en la sección de campos agregar las variables del modelo tal como se muestra en la siguiente figura:



- En la pestaña Configuración, hacer clic en Personalizar Pruebas y activar con un check la prueba de Kolgomorov tal como se muestra:




- Hacer clic en el botón de Opciones de la prueba de Kolgomorov, luego activar con un check la opción " Normal" y hacer clic en el botón Aceptar



- Finalmente hacer clic en el botón Ejecutar y se mostrará el siguiente resultado.



Interpretación: De acuerdo al resultado según la prueba de Kolgomorov, el modelo es consistente por lo que se acepta que los residuales siguen una distribución normal con media cero (0).


b) Prueba de Shapiro - Wilk

- Hacer clic en la opción Analizar>> Estadísticos Descriptivos >> Explorar



- Seleccionar la variable a analizar , en nuestro caso los residuales tal como se muestra:



- Luego hacer clic en el botón Gráficos,activar con un check la opción Gráficos de normalidad con pruebas y hacer clic en el botón continuar:




- Finalmente hacer clic en Aceptar y mostrará los siguiente resultados:


Como se puede apreciar el reporte nos brinda los resultados tanto de la prueba de Kolgomorov como la prueba de Shapiro-Wilk.

Interpretación: El resultado de la prueba de Shapiro Wilk es 0.231. Considerando que la prueba tiene un nivel de significancia (alpha) de 0.05.


  • Si el resultados es menor a 0.05 , se afirma que los residuales no siguen una distribución normal.
  • Si por el contrario el resultado es mayor a 0.05 , se afirma que los residuales siguen una distribución normal.


Para nuestro caso el valor obtenido de la prueba de bondad es 0.231 , el cual es mayor a 0.05, por tanto podemos afirmar que el modelo es consistente y los residuales son cercanos a cero.



Conclusíón: Se comprueba la normalidad de los residuos a través de las pruebas de bondad de Kolgomorov y Shapiro-Wilk. Los residuos siguen una distribución normal con media cero (0).

lunes, 29 de julio de 2019

¿De que depende el tamaño de la muestra? Parte I



Para responder a la pregunta del título, debemos previamente entender qué significa una muestra.

En estadística una muestra es una colección de elementos que representa a la población. Es decir que a partir de las características identificadas en la muestra puedo inferir el comportamiento de la población.

Naturalmente es mas económico para una organización realizar el muestreo del objeto de estudio (Producto, servicio, proceso, fenómeno natural, entre otros) que estudiar la población total, sin embargo existe el riesgo de que los datos obtenidos puedan estar sesgados y no representar a la población. Entonces ¿Cómo me aseguro que la información colectada es válida para estudiar a la población?

Algunos mencionarán que está directamente relacionado al tamaño de la muestra. Es decir mientras la muestra sea considerablemente mayor tendremos más certeza de predecir las características de la población. Sin embargo esto no es precisamente así, primeramente el investigador o especialista debe entender la naturaleza del objeto de estudio.

Si los datos de la muestra objeto de estudio se distribuyen según el modelo normal, entonces conviene realizar los siguientes tipos de muestreo:

1) Muestreo Aleatorio Simple: Este tipo de diseño se utiliza cuando la población es homogénea, es decir cada individuo de un universo tiene la misma importancia y probabilidad de ser seleccionado.


Ejemplo: De un universo de mil (1000) personas, se selecciona cincuenta (50) personas al azar, conformando de esta manera la muestra requerida.
Vale decir que la muestra es representativa de la población si cumple los principios del teorema del límite central:
- El tamaño de la muestra (n) es mayor a 30 y menor al 10 % del tamaño de la población.
- La selección de la muestra debe ser aleatoria.

2) Muestreo Estratificado:  Técnica de muestreo probabilístico en donde el investigador divide a toda la población en diferentes subgrupos o estratos, luego selecciona aleatoriamente a los estratos en forma proporcional.


Ejemplo: A 100 estudiantes de una escuela de 1000 estudiantes se les hacen preguntas sobre su curso favorito . Es un hecho que estudiantes de primer grado tendrán diferentes preferencias que los estudiantes de quinto grado. Para que la encuesta arroje resultados precisos , la manera ideal es dividir grado grado en varios estratos.

A continuación se muestra la tabla del número de estudiantes de cada grado


Para calcular la muestra de cada grado se procederá de la siguiente manera:

(Tamaño de la muestra / tamaño de la población) * Cantidad de estudiantes de cada grado



3) Muestreo Conglomerado: Técnica de muestreo probabilístico en el que los elementos de una población son seleccionados de manera aleatoria por agrupaciones (clusters). Los elementos del muestreo se seleccionan de la población de manera individual.




Las unidades de muestreo pueden ser espaciados, tal como ocurre en las unidades geográficas o físicas. A menudo se utiliza este tipo de muestreo en investigaciones de mercado, por ejemplo si queremos calcular qué proporción de la población mexicana fuma podemos dividir el total de la población en estados y seleccionar alguna de ellas para ser estudiadas.

Para calcular el tamaño de la muestra se puede utilizar las siguientes fórmulas:

Donde:
n= tamaño de la muestra
N= tamaño de la población
Z= Nivel de confianza
p = probabilidad a favor
e= error de estimación


Donde:
n= tamaño de la muestra
N= tamaño de la población
Z= Nivel de confianza
σ = Desviación estándar de la población.
e= error de estimación


4) Muestreo Sistemático: Consiste en escoger un individuo inicial de forma aleatoria entre la población y a continuación seleccionar para la muestra a cada enésimo individuo disponible en el marco muestral.



Ejemplo: De 120 productos que es el tamaño de la población (N),  vamos a elegir 40 productos como muestra(n).
Para calcular el intervalo (K) para realizar la selección de muestras sería: K=N/n= 120/40 = 30
Entonces seleccionamos a los individuos a partir de una sucesión aritmética, es decir cada treinta (30) productos seleccionamos una muestra.

El muestro sistemático normalmente se utiliza en la inspección y el control de calidad debido a la alta rapidez y la baja varianza de este tipo de muestreo.


5) Muestreo Multietapas: Es un caso particular de muestreo por conglomerado en el que la unidad final de muestreo no son los conglomerados sino subdivisiones de estos.

Ejemplos: 

- Estimar la densidad poblacional de un organismo en hojas de las ramas de los árboles de las huertas.

El árbol sería la unidad primaria, la rama la unidad muestral secundaria y la hoja la unidad muestral terciaria y en este caso se trata de un muestreo de tres etapas.

- Seleccionar una muestra de alumnos en educación  preescolar de la ciudad de Sevilla (España).

Se selecciona aleatoriamente (05) distritos municipales de Sevilla.
En cada distrito se selecciona (03) centros educativos,
En cada centro educativo elegimos uno de los grupos de Educación Preescolar.
Finalmente en cada grupo seleccionamos (15) individuos aleatoriamente , con lo que habremos seleccionado una muestra total de 225 alumnos.

Lista de Referencias:

- Análisis de Datos en la Investigación Educativa. España: OpenCourseWare Universidad de Sevilla. Recuperado de http://ocwus.us.es/metodos-de-investigacion-y-diagnostico-en-educacion/analisis-de-datos-en-la-investigacion-educativa/Bloque_II/page_26.htm/

- Ochoa,C. (05 de Mayo,2015). Muestreo Probabilístico: Muestreo Sistemático. España: Netquest. Recuperado de https://www.netquest.com/blog/es/blog/es/muestreo-sistematico

-  Ochoa,C. (18 de Mayo,2015). Muestreo Probabilístico: Muestreo por Conglomerados. España: Netquest. Recuperado de https://www.netquest.com/blog/es/blog/es/muestreo-probabilistico-muestreo-conglomerados

- Muestreo por conglomerado: Un tipo de muestreo probabilístico. QuestionPro. Recuperado de https://www.questionpro.com/blog/es/muestreo-por-conglomerados/

¿Como hacer un muestreo estratificado?. QuestionPro. Recuperado de https://www.questionpro.com/blog/es/como-hacer-un-muestreo-estratificado/

- Muestreo aleatorio simple. Enciclopedia Económica. Recuperado de https://enciclopediaeconomica.com/muestreo-aleatorio-simple/

domingo, 7 de abril de 2019

Diseño de Experimentos: Popcorn


A continuación se muestra un ejemplo aplicado al diseño de experimentos (DOE) para dos variables.

El objetivo de la empresa  CINÉFILO es maximizar la cantidad de popcorn, para lo cual se utiliza el modelo DOE para establecer la mejor combinación entre las variables: "tiempo de cocción" y "tipo de grano" que permita obtener obtener el mejor resultado.



Objetivo: Maximizar la cantidad de Popcorn.

Para el experimento se ha considerado:

- Tiempo de cocción (A) :  160 segundos ó 200 segundos
- Tipo de grano (B) : Blanco ó Amarillo

Donde: (-1) y (+1)  representan el menor y mayor  nivel de la variable respectivamente.

Para el modelo DOE  se tienen que realizar 2^n experimentos, siendo "n" la cantidad de niveles.
Para nuestro caso cada variable tiene dos niveles. Ej. Tipo de grano Blanco (-1)  o Amarillo (+1)

Por lo tanto se realizará 2^2 = 4 experimentos.

A continuación se muestra la siguiente matriz con los resultados del experimento:



Para procesar la información se utilizará el programa Minitab. Los datos han sido registrados en la hoja de trabajo de Minitab.





Luego hacer clic en la siguiente opción del programa: Estadísticas >> DOE >> Factorial >> Diseño Factorial Personalizado ...




En la ventana emergente " Definir diseño factorial personalizado" hacer doble clic a las variables A y B para que aparezcan en la sección de factores tal como se muestra en la siguiente ventana: 





Hacer clic en el botón Bajo/Alto para revisar y/o registrar los niveles de cada variable y hacer clic en "Aceptar".




Hacer clic en el botón "Aceptar" de la ventana emergente  y automáticamente el programa creará el diseño factorial con los datos ingresados.

 


Ahora corresponde registrar los resultados del experimento, como se muestra en la siguiente pantalla:




Para realizar el análisis del diseño factorial , se debe hacer clic en la opción Estadísticas >> DOE >> Factorial >> Analizar Diseño Factorial





Hacer doble clic en la variable de respuesta " Pop corn" para que aparezca en la sección de Respuestas y hacer clic en el botón Aceptar.





Como se puede apreciar se ha generado el modelo de predicción que ayuda a maximizar la cantidad de popcorn (y) teniendo en cuenta las variables analizadas:    y = 67 +10 A + 4 B - 1 AB






Según el modelo se puede maximizar la cantidad de popcorn si utilizamos el nivel superior de cada variable. ( 200 segundos y Popcorn amarillo)

y= 67 + 10 (+1) + 4(+1)  - 1*(+1)(+1) = 80

Minitab puede calcular la opción óptima haciendo clic en la siguiente opción: Estadísticas >> DOE >> Factorial >> Optimizador de Respuesta





En la ventana emergente hacer doble clic en la variable de respuesta " Pop corn" para que aparezca en la sección de Seleccionado.




Luego hacer clic en el botón Configuración para establecer que la meta es maximizar y fijar un valor inferior y objetivo referencial para la cantidad de pop corn y hacer clic en el botón Aceptar.





Finalmente hacer clic en el botón Aceptar de la ventana emergente y aparecerá la Gráfica de Optimización. En rojo se muestra las condiciones óptimas para obtener el mejor resultado. (200 segundos y Popcorn Amarillo).





Interpretación:  Significa que para obtener la mayor cantidad de popcorn debemos emplear 200 segundos de cocción y utilizar el pop corn amarillo.

Alguien podría preguntar ¿se puede mejorar aún mas el modelo?, que pasa si empleamos un mayor tiempo de cocción.

El modelo es confiable dentro del rango de niveles establecido , es decir si asignamos un mayor tiempo de cocción ( 300 segundos ) es problable que el modelo indique que se obtendrá un mejor resultado, sin embargo en la práctica sabemos que se corre el riesgo de que el producto se queme.

Por ello es muy importante el análisis  , la herramienta nos ayuda en la obtención de resultados pero el analista debe saber interpretar la información que ha obtenido y aplicar el modelo de manera correcta.