Ciclo de vida de un proyecto de Data Science

Ciclo de vida de un proyecto de Data Science

Ciclo de vida de un proyecto de Data Science

En general, la mayoría de proyectos de Data Science siguen una estructura muy similar, estandarizada por los libros académicos y la comunidad. Dicha estructura recoge los pasos necesarios para poder encontrar el mejor modelo matemático y trabajar con datos de calidad.

Sin embargo, el mejor modelo matemático no tiene por qué ser siempre el que más beneficios aporte a la empresa.

En Mistral Business Solutions nos diferenciamos porque enfocamos cada proyecto para que sea rentable para nuestro cliente en vez de aplicar el mejor modelo matemático. En otras palabras, nos adaptamos al negocio.

Los pasos que seguimos en un proyecto de Data Science en Mistral son los siguientes:

Business Questions

El ciclo de vida de un proyecto de Data Science empieza por la Business Question mediante la cual el cliente plantea una necesidad, ya sea específica de su propia empresa o más general, común a las empresas de un mismo sector.

Por ejemplo, en sectores industriales predominan preguntas del tipo “¿cuántas ventas tendré el año que viene?”, con el objetivo de poder optimizar la compra de materiales (reducir costes) y la gestión del stock (evitar roturas de stock), lo que se resuelve mediante modelos de predicción de la demanda.

Otro tipo de pregunta relacionada con la cadena de producción es “¿cuándo fallarán las máquinas?”. Su respuesta permitiría predecir el mantenimiento de las mismas y evitar paradas no deseadas gracias a algoritmos de mantenimiento predictivo.

En este sector también se preguntan, “¿cómo puedo reducir la merma generada para minimizar costes?”, lo que requiere un estudio de los parámetros recogidos por los sensores distribuidos y relacionarlos con la calidad del producto en sus diferentes etapas de la cadena de producción.

Sin embargo, en las empresas relacionadas con el e-commerce o retail, además de querer predecir la demanda, este sector se pregunta “¿qué tipos de clientes tengo?”, lo que se responde mediante técnicas de segmentación de la clientela con las que se caracterizan diferentes perfiles.

Para aumentar las ventas, en este sector es recurrente preguntarse “¿qué productos puedo recomendar de forma acertada para cada cliente?”, fomentando el Up-Selling y Cross-Selling. En este último caso, es fundamental poder relacionar los datos históricos de compra disponibles y mejor aún, con las valoraciones hechas por los propios clientes.

 

Know the business

La segunda fase del proceso en un proyecto de Data Science se denomina Know the business. Durante esta fase, en Mistral recopilamos cuanta información haya disponible que nos permita responder a las Business Questions y las resumimos en esquemas o diagramas de flujo para poder identificar factores de control (variables que influyen en el negocio que en ocasiones se pasan por alto) y cuellos de botella potenciales.

Por ejemplo, en el caso del mantenimiento predictivo se representarían las máquinas de producción junto su función y la información que emiten sus sensores, como se puede observar en la siguiente figura.

Data Collection and Exploration

Conocidos todos los procesos e identificados los factores de control, traducimos esta información en variables y datos, momento en el que se produce la recolección de esta información (Small o Big Data) y su posterior análisis exploratorio para evaluar la calidad de estos y cuantificar el efecto de esos factores de control.

Por un lado, evaluamos el tamaño muestral para ver si hay suficientes datos históricos con los que desarrollar los modelos matemáticos, así como también la coherencia de los datos (descriptivos estadísticos básicos, valores extremos, “outliers”, tipo de distribución y visualización).

Por otro lado, clasificamos la importancia de los factores de control (por ejemplo, la varianza explicada) y su efecto en el ajuste de los modelos matemáticos.

 

Mathematical model

Durante la cuarta fase y partiendo siempre de lo más simple a lo más complejo, Mistral aplica diferentes metodologías de Machine Learning para desarrollar varios modelos matemáticos que compiten entre sí con el objetivo de identificar cuál es el mejor enfoque científico que explique y prediga los datos.

Este procedimiento es cíclico y reiterativo, hasta que se obtienen los parámetros más adecuados.

Empezamos con modelos más sencillos para después incrementar su complejidad, ofreciendo de esta manera una respuesta más rápida a las necesidades del cliente y que éste pueda obtener beneficios desde los momentos más tempranos del desarrollo del proyecto.

 

Implementation

Cuando se dispone de un modelo mínimo viable, se inicia la fase de implementación, durante la cual se introduce éste en el sistema de control correspondiente de la empresa. El modelo desarrollado tiene que ser dinámico, aprendiendo de forma continua, con una implementación escalable y tolerable a los cambios del modelo: es decir que sea capaz de auto entrenarse a medida que se tienen más datos.

 

ROI Evaluation

La última fase del ciclo, y la que nos diferencia del resto ya que se suele pasar por alto, se alcanza con la medición del ROI (Return on Investment) para evaluar el retorno económico de la inversión realizada, puesto que el mejor modelo matemático no tiene por qué ser siempre el que mayor beneficios aporte.

Si es el ROI es negativo, quiere decir que no está aportando beneficios a la empresa, por lo que regresamos a Mathematical model, la cuarta fase, para probar con otro modelo hasta que sea positivo (modelo mínimo viable).

 

Monitorización del modelo

Una vez implantado el modelo mínimo viable, el ciclo continúa con el desarrollo de modelos matemáticos más complejos que reemplazarán al previamente instalado si se considera que pudiesen reducir los costes o aumentar los beneficios. Además, a medida que se obtengan más datos o nuevas variables, se irán incluyendo, volviéndose a evaluar la bondad de ajuste y ROI.

 

En esta fase Mistral monitoriza la efectividad real de los algoritmos desarrollados mediante la implementación de cuadros de mando (integrados o no en el sistema de control), con los que visualizar de forma interactiva y en tiempo real la evolución de los parámetros más significativos (por ejemplo, la temperatura), para que el cliente pueda adoptar en cualquier momento las decisiones más oportunas con la máxima información posible, de calidad y reciente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *