Construyendo el modelo (Minería de Datos) | Business Intelligence, Data Warehouse, Monterrey, México : Gravitar

Hace unos días, saque mi auto de la cochera, lo deje estacionado y cuando mi esposa trato de encenderlo el auto no respondió. A pesar de mis desesperados intentos no logre hacerlo funcionar. No había mucho que hacer, puesto que no soy muy hábil en cuestiones mecánicas. Así que hice lo que todo neófito hace, le llame al maestro mecánico que hace mes y medio había arreglado el carro por la misma razón que no quería arrancar esa mañana.

Extrañado por que pudiera ser una falla recurrente, ya que el maestro es de los pocos mecánicos honestos que conozco, esperaba paciente a que llegara. Pasadas cuatro horas y en mi tercera llamada, un maestro completamente ebrio me decía que mi carro iba a quedar bien, que no me preocupase. Me resigne y empecé la búsqueda de otro mecánico. Fue una prueba de paciencia, ya que visite tres mecánicos que me negaron el servicio porque ya era la hora de la comida y en la tarde ya no abrían, encontré dos talleres cerrados y finalmente encontré un taller abierto donde el mecánico me pidió mi dirección, quedando muy formal de visitarme en una hora. Pasada ésta, no se presento. Cuando fui nuevamente al taller, lo encontré cerrado.

Completamente abatido, decidí meter el auto a la cochera. Le pedí a mi suegro que me prestará su batería para hacerlo arrancar o que me ayudara a empujarlo, y nos decidimos a ponerle la batería de su auto. Curiosamente mi auto siguió sin responder, así que mi suegro decidió limpiar y golpear las terminales de la batería. El auto funcionó. Lo metí a la cochera, pero ahora yo limpie bien las terminales, apreté bien las tuercas y lo volví a arrancar. El auto funcionó sin problemas desde aquel día hasta la fecha.

Qué hace un relato de mis desventuras en un sitio dedicado a las Tecnologías de la Información? Tal vez, distraernos y adivinar cuantas caguamas se tomo mi estimado maestro para emborracharse en un lapso de dos horas. Ese es uno de los propósitos de esta anécdota. El otro es regocijarme por los doscientos pesos que me ahorre.

El tercer propósito es reflexionar en las oportunidades que un negocio desaprovecha por desconocer o carecer de una herramienta que les permita tomar una decisión adecuada, descubrir una potencial forma de crecer o enfocar los esfuerzos. Si alguno de estos mecánicos que se negaron a revisar mi auto hubiera conocido una herramienta psicológica para notar mi desesperación combinada con mi ignorancia, además de con un par de preguntas diagnosticar la falla; esta herramienta les hubiera predicho que se trataba de una oportunidad de ganar dinero con un mínimo esfuerzo, pero todos hicieron lo que estaban acostumbrados a hacer.

Enfoquemos ahora el tema de la minería de datos. Continuando con el artículo anterior vamos a dar ahora un vistazo a la forma en cómo se preparan los datos para ser analizados y que estos sean útiles en cuanto al propósito de la minería de datos: realizar predicciones válidas.

Antes de construir un modelo hay que tener claro que se deben entender los datos.

Los datos pueden ser continuos con un valor numérico (p.e. ventas) o categóricos dentro de clases (p.e. rojo, azul, verde). Los datos categóricos pueden ser definidos como ordinales teniendo un orden significativo (p.e. alto/bajo), o nominales, estos son sin orden alguno (p.e. códigos postales).

Las gráficas y otras herramientas de visualización son una buena ayuda en la preparación de los datos. Patrones, relaciones, valores excepcionales y valores faltantes son frecuentemente más fáciles de percibir cuando son mostrados gráficamente.

Clustering

La técnica conocida como clustering divide la base de datos en diferentes grupos. La meta del clustering es encontrar grupos que son diferentes entre sí y cuales miembros son similares el uno del otro. A diferencia de la clasificación, no se sabe donde habrá clusters o con que atributos de los datos se harán los clusters. Consecuentemente, alguien con gran conocimiento del negocio debe interpretar los clusters. Con frecuencia si es necesario modificar el clustering excluyendo variables que han sido usadas para agrupar, porque mediante este examen el usuario identifica que datos son irrelevantes o sin significado. Después de haber encontrado clusters que segmenten razonablemente la base de datos, estos pueden ser usados para clasificar nuevos datos.

Algunos de los algoritmos más usados para realizar clustering son los Mapas de Presentación de Kohonen y los K-Significativos. Estos algoritmos se tratarán en posteriores artículos. No hay que confundir clustering con segmentación. La segmentación se usa para identificar grupos que tienen características comunes. El clustering es un modo de segmentar datos en grupos que no están previamente definidos, mientras que la clasificación es un modo de segmentar datos asignándolos a grupos que están previamente definidos.

Análisis de relaciones.

Trata sobre la exploración de datos con el fin de identificar relaciones entre valores dentro de una base de datos. Las dos técnicas más comunes para el análisis de relaciones son el descubrimiento de asociaciones y el descubrimiento de secuencias.

EL descubrimiento de asociaciones encuentra reglas en los elementos que aparecen juntos en un evento tal como una compra. El descubrimiento de secuencias es muy similar, en este una secuencia es una asociación relacionada con el tiempo. Las asociaciones se denotan como A=>B, donde A es el antecedente y B es el consecuente.

Usaremos este ejemplo como regla de asociación: “Si una persona compra un martillo entonces comprará clavos”; donde A es comprar martillo y B es comprar clavos.

Es fácil determinar la proporción de transacciones que contienen un elemento en particular o un conjunto de estos: simplemente hay que contarlos. La frecuencia con que una asociación en particular aparece en la base de datos es llamada prevalencia.

Si dijéramos que 15 transacciones de 1000 posibles consisten en “martillo y clavos” la prevalencia para esta asociación sería de 1.5 %.

Para descubrir relaciones significativas, debemos observar también la relativa frecuencia con que ocurren los elementos y sus combinaciones.

¿Si una persona compra un martillo que tan frecuente es que compre clavos?

Otro término para la predicción condicionada es la confianza. La confianza es calculada como una razón ( frecuencia de A y B / frecuencia de A ).

Especifiquemos con mayor detalle nuestra hipotética base de datos para ilustrar estos conceptos con mayor detalle:

Total de transacciones en ferretería: 1000
Veces que se repite “martillo”: 50
Veces que se repite “clavos”: 80
Veces que se repite “madera”: 20
Veces que se repite “martillo” y “clavos”: 15
Veces que se repite “clavos” y “madera”: 10
Veces que se repite “martillo” y “madera”: 10
Veces que se repite “martillo”, “clavos” y “madera”: 5
Ahora se puede calcular:
Prevalencia de “martillo” y “clavos” = 1.5% (15/1000)
Prevalencia de “martillo”, “clavos” y “madera” = 0.5% (5/1000)
Confianza de “martillo => clavos” = 30% (15/50)
Confianza de “clavos => martillo” = 19% (15/80)
Confianza de “martillo y clavos => madera” = 33% (5/15)
Confianza de “madera => martillo y clavos” = 25%(5/20)

Carga, es otra medida del poder de una asociación. Entre mayor sea la carga, mayor será la influencia de que cuando el antecedente ocurra el consecuente también lo hará. Carga es calculada como la razón ( confianza de A=>B / frecuencia de B ).

Carga de “martillo” => “clavos”: 3.75 (30%/8%)
Carga de “martillo y clavos” => “madera”: 16.5 (33%/2%)

Los algoritmos de asociación encuentran estas reglas realizando la ordenación de los datos mientras cuentan las ocurrencias y así calculan el nivel de confianza. La eficiencia con que lo hagan es lo que los distingue, esto es importante a causa de la explosión combinacional que resulta en un enorme número de reglas. Algunos algoritmos crean una base de datos de reglas, factores de confianza y prevalencia“martillo” y “clavos” que pueden ser consultados. Otro atributo de los generadores de reglas de asociación es la habilidad de especificar elementos de jerarquía. Un elemento jerárquico permite controlar el nivel de agregación y experimentar con diferentes niveles. Es importante recordar que las reglas de secuencia o asociación no son realmente reglas, sino descripciones de las relaciones en una base de datos.

No hay una manera formal de probar los modelos en otros datos para consolidar la predictibilidad de las reglas. En su lugar, se asume implícitamente que el comportamiento pasado continuara en el futuro.

Los métodos gráficos pueden ser muy útiles para ver la estructura de las relaciones. En la figura siguiente cada uno de los círculos representa un valor o un evento. Las líneas que los conectan representan una relación. Las líneas más gruesas representan relaciones frecuentes o fuertes, con énfasis en relaciones potencialmente más importantes para las asociaciones.

En resumen, el análisis y la experimentación usualmente son requeridos para lograr los beneficios de las reglas de asociación.

Relacionado

4 comentarios en “Construyendo el modelo (Minería de Datos)”

Oswlado de Jesus Martinez dice:
13 enero 2008 a las 12:16
soy pricipiante de esto y sì me estoy ubicando en el area de tal manera que quisiera un ayudita en cuando a los tutoriales de mineria de datos para estudiarlo mas al fondo
hiperion dice:
24 enero 2008 a las 6:44
Necesito una base de datos de lo que sea para realizar prácticas relacionadas con mineria de datos ¿Alguien me puede ayudar? ¿dónde puedo localizar una base de datos? ¿alguna página? Gracias.
Miguel Enriquez dice:
28 noviembre 2008 a las 17:06
Pueden buscar en google Weka que es el referente de la mineria de datos, incluso trae ejemplos.
Gracias
michael dice:
26 agosto 2009 a las 11:00
soy michael nuevo en data mining quisiera contar con un tutorial para poder hacer unas pruebas. si alguien tiene seria de gran ayuda. gracias