Retomando los últimos dos temas, empezaré por recordar la definición de Minería de Datos:
La minería de datos es un proceso que usa varias herramientas de análisis de datos para descubrir patrones y relaciones en los datos, que pueden ser usados para realizar predicciones válidas.
Ahora me centraré en la última parte de la definición, la de las predicciones válidas. Pero ¿qué es una predicción? El diccionario de la Real Academia Española la define como “Anunciar por revelación, ciencia o conjetura algo que ha de suceder”. En el ámbito de los negocios sería muy aventurado decir que una predicción se realiza por medio de una revelación o de una conjetura, sin embargo sucede. Habrá el responsable que solo confíe en su instinto para la toma de decisiones, y aunque es válido es impreciso, estas revelaciones y conjeturas puede que no signifiquen la pérdida de dinero para una empresa, pero tampoco se puede tomar ventaja de alguna situación en particular. Se sigue la norma de “así esta, así funciona, así se queda”.
En la pasada época navideña tuve que viajar un par de días anteriores a la Noche Buena. En ningún momento se me ocurrió pensar en el caos con el que me enfrentaría en la Terminal de Autobuses. Solo basta comentar que tarde seis horas en conseguir un boleto. Obviamente es molesto, esperar seis horas por un boleto, y más si la mayoría son de pie entre empujones y palabras altisonantes inmerecidas. Muchos nos preguntábamos el por qué no programaban corridas extras, siendo que todos los años pasa lo mismo.
Dos son las causas:
- No se tiene un modelo predictivo.
- El actual sistema de decisiones, basado seguramente en conjeturas, fue rebasado por la demanda de viajeros que aumenta anualmente.
Por supuesto, me abstendré de mencionar algunas otras causas que me vienen a la mente, por respeto al lector.
Así pues, tenemos que las predicciones en los negocios son de una inestimable ayuda. Construir toda una estrategia de negocios basados en un modelo predictivo puede catapultar los activos de una empresa. Solo basta imaginar que alguna de las líneas de autobuses hubiera puesto en marcha una estrategia basada en los patrones de venta y las relaciones entre demanda y oferta de rutas, no solo generaría activos tangibles, sino también aquellos intangibles y no medibles como serían una buena imagen de eficiencia y atención al cliente, así como ganarse algunas lealtades de viajeros frecuentes. Ojalá no sea una utopía…
La Minería de Datos tiene varias herramientas que nos ayudarían a alcanzar estos objetivos, siendo el principal producir nuevo conocimiento sobre el cual se pueda actuar o se pueda usar.
Redes Neuronales
Las redes neuronales son de un interés particular para la minería de datos ya que ofrecen un significativo modelo para problemas grandes y complejos, donde puede haber cientos de variables predictivas que interactúan entre sí. Las redes neuronales pueden ser usadas en problemas de clasificación cuando la variable de salida es clasificada como categórica, o pueden usarse para regresiones cuando la variable de salida es continua.
Una red neuronal inicia con una capa de entrada, donde cada nodo corresponde a una variable predictiva. Estos nodos de entrada están conectados a nodos dentro de una capa escondida. Finalmente, esta la capa de salida que consiste en una o más variables de respuesta.
La arquitectura o topología de una red neuronal consiste en el número de nodos y capas escondidas, y como están conectadas. Ya sea el usuario o el software, deben decidir el número de nodos en una capa oculta, la función de activación y sus límites. Es importante para la Minería de Datos que el algoritmo que se use en una red neuronal sea el que reduzca el error en los datos de prueba y no en los datos de entrenamiento, para obtener datos de salida “claros”.
Los usuarios de redes neuronales deben estar conscientes acerca de algunos hechos. Primero, las redes neuronales no son fáciles de interpretar. Segundo, tienden saturar los datos de entrenamiento. Tercero, requieren de una gran cantidad de tiempo de entrenamiento, pero una vez entrenadas, pueden proveer las predicciones muy rápido. Cuarto, requieren que los datos sean cuidadosamente preparados, generalmente, esta preparación requiere depuración, selección y pre-procesamiento. Por último, las redes neuronales tienden a un mejor desempeño cuando el conjunto de datos es suficientemente grande.
Arboles de decisión.
Los árboles de decisión son una manera de representar una serie de reglas que culminan en una clase o valor. Los modelos de árboles decisionales son comúnmente usados en la minería de datos para examinar los datos e inducir las reglas para realizar predicciones. Diferentes algoritmos pueden ser usados para construir árboles de decisión tales como la Detección Automática de Interacciones (CHAID), Clasificación y Árboles de Regresión (CART), Quest y C5.0.
Los árboles de decisión crecen a través de una división iterativa de grupos discretos, donde la meta es maximizar la “distancia” entre grupos por cada división. Una de las distinciones entre los diferentes métodos de “división” es como miden esta distancia. Se puede pensar que cada división de los datos en nuevos grupos debe ser diferente uno de otro tanto como sea posible. Esto también es llamado como “purificación” de grupos.
Los árboles de decisión usados para predecir variables categóricas son llamados árboles de clasificación, y los árboles usados para predecir variables continuas son llamados árboles de regresión. Los árboles de decisión manejan datos no numéricos muy bien. La habilidad para aceptar datos categóricos minimiza la cantidad de transformaciones en los datos y la explosión de variables de predicción inherentes en las redes neuronales.
Algunos árboles de clasificación fueron diseñados, y de hecho trabajan mejor cuando las variables de predicción también son categóricas.
Divisiones Regresiones Multivariadas Adaptativas (MARS)
A mediados de los 80’s uno de los inventores del método CART, Jerome H. Friedman, desarrollo un método diseñado para señalar sus deficiencias. Las principales desventajas que deseaba eliminar fueron:
- Predicciones discontinuas (divisiones difíciles).
Dependencia de todas las divisiones de sus antecesoras.
Reducción de la interpretabilidad debido a las interacciones.
El algoritmo de MARS consiste en:
- Reemplazar la división discontinua en un nodo con una transición modelada por un par de líneas directas. Al final del proceso de construcción del modelo, las líneas directas en cada nodo son reemplazadas con una función libre de obstáculos.
- No requiere que nuevas divisiones dependan de divisiones antecesoras.
Desafortunadamente, esto significa que MARS pierda la estructura de árbol de CART y no pueda producir reglas. Por otro lado, MARS automáticamente encuentra y enlista las variables predictivas más importantes así como las interacciones entre estas. MARS también esquematiza la dependencia de la respuesta en cada predicción. El resultado es un herramienta de regresión no linear con iteraciones “astutas”.
Inducción de reglas.
Este método consiste en derivar un conjunto de reglas para clasificar casos. Aunque los árboles de decisión pueden producir un conjunto de reglas, los métodos de inducción de reglas generan un conjunto de reglas independientes que no necesariamente formarán un árbol. Debido a que un inductor de reglas no fuerza divisiones en cada nivel y puede adelantarse, puede ser capaz de encontrar diferentes y en algunos casos mejores patrones para la clasificación. A diferencia de los árboles, las reglas generadas pueden no cubrir todas las posibles situaciones, además de que estas pueden tener conflictos en sus predicciones, en cuyo caso es necesario elegir una regla para seguir.
Un método común para resolver conflictos es asignar confiabilidad a las reglas y usar aquella con mayor confiabilidad.