
Quizá haya aún mucha gente que no conoce los distintos pasos que se llevan a cabo para realizar un proyecto de Data Mining.
Por esta razón, quisiera hacer al menos una breve descripción del proceso necesario para encontrar resultados lo más rápida y linealmente posible.
Como cualquier proyecto de minería, cuando se realiza un estudio de Data Mining (DM), no se tiene asegurado prima facie los resultados positivos. Sin embargo aplicando la metodología correcta es posible saber en un plazo relativamente corto y con un esfuerzo razonable si lo que hay al fin del camino es oro o no.
La primera regla a cumplir para ejecutar exitosamente un proyecto de estas características es definir un problema que queremos estudiar.
Ejemplos de problemas típicos son: mejorar la tasa de respuesta de una campaña de mails, aumentar la tasa de compradores de un sitio de ecommerce, disminuir la tasa de abandono de abonados a un servicio, mejorar la tasa de click-through de los banners impresos en un sitio web, predecir la cantidad de llamados a un call center, etc.
Una vez definido el problema a atacar, se realiza lo que llamamos “Entendimiento del Negocio”. La idea para esta etapa, es que el analista de DM se interiorice de las características que rodean al problema (como funciona la industria, quienes son los clientes, como son los productos o servicios ofrecidos, como son los procesos, etc.). Para esto es fundamental que pueda interactuar con un especialista en el tema (normalmente alguna persona de marketing o comercial de la compañía). Esta etapa se lleva adelante con una o varias entrevistas entre ambos.
A continuación se realiza el “Entendimiento de Datos”. Esta vez el analista interactuará con un experto de las bases de datos de la compañía (habitualmente gente del área de sistemas de la misma). Para este proceso hará falta una o varias reuniones y acceso a la documentación de los modelos de datos.
Una vez realizados los pasos de entendimiento, el analista solicitará una primera tanda de datos para analizar. Esto lo podrá hacer junto con el área de sistemas o en forma directa si cuenta con los permisos necesarios.
Luego trabajará realizando la “Preparación de Datos” que sea necesaria (limpieza, transformaciones, sumarizaciones, etc.). La idea es obtener al final de esta etapa una tabla de dos dimensiones con los datos “limpios” para iniciar el paso siguiente.
Ahora llegamos al núcleo del trabajo de DM con la etapa de “Modelización”. De aquí surgirán modelos que describan o predigan circunstancias o comportamientos. Es interesante hacer notar que existen numerosos tipos de modelos, por lo cuál el analista determinará en esta instancia el más adecuado para el problema que estamos tratando (ej. reglas de asociación, clusters, árboles de decisión, redes neuronales, regresiones, etc.).
Una vez obtenidos los primeros modelos el analista proseguirá con la fase de “Evaluación”, etapa en la que tratará de medir la calidad o efectividad predictiva del modelo obtenido.
Si los modelos obtenidos superan un umbral de calidad aceptable, se realizará la “Implementación” del mismo. Esta implementación tiene infinitos “flavors” (sabores). Desde listas con clientes con mayor propensión a adquirir un producto, hasta formulas que nos permitan calcular en tiempo real que banner presentar al visitante de nuestro sitio en determinado momento.
Por último, medir los resultados de los modelos implementados nos permitirá recalibrar los mismos para lograr una mejora permanente de los efectos buscados.
Para más información sobre las etapas de un proyecto de Data Mining, pueden visitar: http://www.crisp-dm.org.
Daniel Ferro.

