Matriz de Confusión: Detección de Fraude en Tarjetas de Crédito
Con el auge del e-commerce y el contexto de la pandemia, las ventas online se han incrementado. Los Clientes están modificado su comportamiento de compra, ahora haciendo uso de tarjetas bancarias para ejecutar transacciones en tiendas virtuales de diversas compañías y adquirir el producto de su preferencia.
Siendo un proceso sensible la detección de fraudes a nivel transaccional. Una companía retail ha decidido probar (02) modelos de detección de fraude con tarjeta de crédito, en su plataforma de e-commerce. Para ello se determinará la precisión del modelo haciendo uso de los conceptos de la matriz de confusión.
Los datos a utilizar en este caso a manera de ejemplo han sido extraídos del trabajo de grado desarrollado por la Facultad de Estadística de la Universidad Santo Tomás (Gonzáles, Ortiz, Romero, Cruz. 2018) respecto a detección de fraude en tarjetas de crédito.
La compañía retail ha decidido poner a prueba ambos modelos con una base de prueba de (84,891) transacciones (que incluyen transacciones normales y fraudulentas) a fin de elegir el mejor modelo a implementar como sistema de detección antifraude de tarjetas de crédito.
a) Modelo 1: Red Neuronal Artificial
De acuerdo al testeo se obtuvieron los siguientes resultados expresados en la matriz de confusión:
Matriz de confusión en números de transacciones.
Matriz de confusión en (%) del total de transacciones
b) Modelo 2:Naive Bayes
De acuerdo al testeo se obtuvieron los siguientes resultados expresados en la matriz de confusión:
Matriz de confusión en números de transacciones.
Matriz de confusión en (%) del total de transacciones
c) Comparativo de Ambos modelos
Para validar qué modelo es más preciso a la hora de detectar transacciones normales y fraudulentas se utilizará las fórmulas de precisión de predicción positiva, predicción negativa y precisión del modelo.
Precisión de Predicción Positiva (PPP) = Verdadero Positivo / (Verdadero Positivo + Falso Positivo)
PPP del modelo 1 = [84731 / (84731 + 22) ] *100 = 99. 97 %
PPP del modelo 2 = [82912 / (82912 + 1841) ] *100 = 97. 83 %
Precisión de Predicción Negativa (PPN) = Verdadero Negativo/ (Verdadero Negativo + Falso Negativo)
PPN del modelo 1 = [111 / (111 + 27) ] *100 = 80. 43 %
PPN del modelo 2 = [117 / (117 + 21) ] *100 = 84. 78 %
Precisión del Modelo (PM) = (Verdadero Positivo + Verdadero Negativo) / (Verdadero Positivo + Falso Positivo + Verdadero Negativo + Falso Negativo)
PM 1 = [(84731 + 111) /(84731+22+111+27)]*100 = 99.94%
PM 2 = [(82912 + 117) /(82912+1841+117+21)]*100 = 97.81%
Interpretación
Como se puede apreciar la precisión de que se detecte como transacción normal una transacción que en efecto está libre de fraude es del 99.97% para el caso del modelo 1 el cual es superior al modelo 2 (97.83%)
Para el caso de la precisión de detectar como transacción fraudulenta una transacción irregular (no autorizada por el titular de la tarjeta) es de 84.78% para el modelo 2 la cual es superior al modelo 1. (80.43%)
Para nuestro caso la predicción del modelo completo nos ayudará a decidir qué modelo es el más preciso para prevenir fraudes y evitar errores en la detección de transacciones fraudulentas.
Por lo tanto el modelo 1 que tiene una precisión del 99.94 % para detectar verdaderamente transacciones normales y fraudulentas es el modelo a implementar, el cual es superior al modelo 2 (97.81%) el cual demostró menor precisión a la hora de identificar realmente transacciones normales.
Bibliografía:
Gonzáles, Ortiz, Romero, Cruz. (2018). Detección de Fraude en Tarjetas de Crédito mediante técnicas de minería de datos. Universidad Santo Tomás. Colombia