Minería de Datos

Desventajas

Dificultad de recopilación de los datos.

Dependiendo del tipo de datos que se quieran recopilar puede conllevar mucho trabajo o la necesidad de tecnología de elevado coste.

El pre-procesamiento de datos puede llevar demasiado tiempo.

No está asegurada la obtención de un modelo válido.

Ventajas

Enormes bases de datos pueden ser analizadas.

Enormes bases de datos pueden ser analizadas mediante la tecnología del Data Mining. Estas Bases de datos pueden ser enormes tanto en largo como en ancho. Por ejemplo, para cada cliente se puede tener cientos de atributos que contienen información detallada; y además tener miles de registros de clientes.

El Data Mining descubre información que no se esperaba obtener.

Como muchos modelos diferentes son validados, algunos resultados inesperados tienden a aparecer. En muchos estudios, se ha descubierto que combinaciones particulares de factores entregan efectos inesperados que entregan valor a la compañía.

Los modelos Son Confiables.

El modelo es probado y comprobado usando técnicas estadísticas antes de ser usado, luego las predicciones que se obtienen por el modelo son válidas y confiables.

Los modelos se construyen de manera rápida.

La minería de datos permite construir y generar modelos en sólo uno minutos u horas. El modelado se torna mucho más fácil puesto que muchos algoritmos son probados y sólo el mejor modelo es entregado al usuario.

Modelos

Estructura del contenido del modelo de Minería de Datos:

El contenido de cada modelo se presenta en forma de nodos. Un nodo es un objeto dentro de un modelo de minería de datos que contiene metadatos e información sobre una parte del mismo. Donde los mimos están organizados en una jerarquía.

La organización exacta de los nodos en la jerarquía y el significado de esta dependen del algoritmo utilizado. Siempre al primer nodo de cada modelo se lo denomina raíz donde suele contener algunos métodos sobre el modelo y el número de nodos secundarios, pero con la contra de tener poca información de los patrones detectados por el modelo.

Nodos:

Es un contenedor de uso general que almacena una parte de información sobre todo o parte del modelo. Dentro de cada uno de los metadatos que contiene el nodo posee un identificar único dentro de cada modelo, permitiendo dar una identificación a que clase de modelo pertenece el nodo.

El contenido adicional que se proporciona en el nodo difiere en función del tipo de algoritmo que se usara para crear el modelo y podría incluir lo siguiente:

El recuento de casos en los datos de entrenamiento que admiten un valor de predicción determinado.
Estadísticas, como la media, desviación estándar o varianda.
Coeficientes y fórmulas.
La definición de reglas y punteros laterales.
Fragmentos XML que describen una parte del modelo.

Definir modelos de Minería de Datos:

Para la creación de un modelo de minería de datos se toma en cuenta lo siguiente:

Crear la estructura de minería de datos subyacentes.
Seleccionar un tipo de algoritmo.
Especificar las columnas y el uso del modelo.
Procesar el modelo.

Técnicas

Las técnicas de minerías de datos que más sobresalen son:

Redes Neuronales:

Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos de red neuronal son:

El Perceptrón.
El Perceptrón multicapa.
Los mapas auto organizados, también conocidos como redes de Kohonen.

Regresión lineal:

Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.

Arboles de decisión:

Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:

Algoritmo ID3
Algoritmo C4.5

Modelos estadísticos:

Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.

Agrupamiento o Clustering:

Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma en que estén más cercanos aquellos que tengan características comunes. Ejemplo:

Algoritmo K-means.
Algoritmo K-medoids

Reglas de asociación:

Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros desconocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

Proceso de Extracción de Conocimiento

Es un proceso que extrae información de calidad que se puede usar para dibujar conclusiones basadas en relaciones o modelos dentro de los datos. La siguiente figura ilustra las etapas del proceso KDD:

Proceso de minería de datos

Las 5 fases que se divide son:

1. Selección de datos. -

En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos.

2. Procesamiento. –

Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación.

3. Transformación. –

Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente.

4. Data Mining. –

Es la fase de moldeamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.

5. Interpretación y Evaluación. –

Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos.

Concepto Del KDD

La capacidad de generar y almacenar información crece de una manera considerable, duplicándose toda esa información a un aproximado de 20 años. Es por esto por lo que las grandes organizaciones tienden a almacenarlos de una forma jerárquica pero no los pueden analizar eficientemente.

Las sentencias SQL permiten realizar un primer análisis de la información almacenada de una organización hasta un 80%, pero todo este análisis es de información no tan importante, lo cual el 20% restante radica la información más importante en donde requiere las utilizaciones de técnicas más avanzadas.

El Descubrimiento de Conocimiento (KDD) es un proceso no trivial que identifica patrones válidos, novedosos y potencialmente útiles, apuntando que el usuario podrá convivir solo con información valiosa que este requiera.

Su principal objetivo es el hallazgo de conocimiento útil, valido, relevante y nuevo sobre un fenómeno mediante algoritmos eficientes, presentando resultados profundos de lo requerido para que su interpretación sea clara y precisa.

Otro de sus aspectos que su calidad de información que presenta no se ve afectada por los volúmenes excesivos de datos o por los ruidos que generan estos. En donde los algoritmos de búsqueda utilizados deben ser robustos.

Historia

Se crea por primera vez en alrededor de la década de los setenta, donde los estadísticos manejaban términos como Data Fishing, Data Mining o Data Archaeology interactuando con la idea de encontrar correlaciones sin alguna definición previa a la Minería de Datos o KDD.

Ya en la década de los ochenta, autores y creadores de bases de datos como Rokesh Agrawal, GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro y otros, empezaron a consolidar el termino de Minería de Datos.

Con el pasar del tiempo estas herramientas han ido evolucionando en la cual se pueden dividir en cuatro etapas:

Colección de Datos (1960).
Acceso de Datos (1980).
Almacén de Datos y Apoyo a las decisiones (a principios de la década de los 90).
Minería de Datos Inteligente (a finales de la década de los 90).