Exposicion BI - Data Mining PDF

Title Exposicion BI - Data Mining
Course Sistemas inteligentes para negocios
Institution Universidad Católica de Honduras
Pages 14
File Size 257.3 KB
File Type PDF
Total Downloads 104
Total Views 159

Summary

Informe sobre minería de datos....


Description

MINERÍA DE DATOS

.

Contenido Introducción .................................................................................................................................. 2 Objetivos ....................................................................................................................................... 2 Objetivo General ....................................................................................................................... 2 Objetivos Específicos ................................................................................................................ 2 Historia de la minería de datos ..................................................................................................... 3 Etapas de la minería de datos ....................................................................................................... 4

¿Qué es la Minería de Datos?..............................................................................................................3 ¿Qué puede hacer la minería de datos?..............................................................................................4 ¿Cómo funciona la minería de datos?..............................................................................................5 • Clases..........................................................................................................................................5 • Grupos........................................................................................................................................5 • Asociaciones...............................................................................................................................5 • Patrones secuenciales................................................................................................................5 Datos, información y conocimiento..................................................................................................6 Datos.............................................................................................................................................6 Información...................................................................................................................................6 Conocimiento................................................................................................................................6 Almacenes de datos......................................................................................................................6 Niveles de análisis disponibles.............................................................................................................7 • Redes neuronales artificiales.........................................................................................................7 • Algoritmos genéticos.....................................................................................................................7 • Árboles de decisión........................................................................................................................7 • Método del vecino más próximo...................................................................................................8 • Inducción de reglas........................................................................................................................8 • Visualización de datos....................................................................................................................8 ¿Qué infraestructura tecnológica se requiere?....................................................................................8 Usos de la minería de datos.................................................................................................................9 Análisis y gestión del mercado.............................................................................................................9 1

Análisis empresarial y gestión de riesgos.............................................................................................9 Detección de fraude...........................................................................................................................10 Evaluación de patrones de minería de datos.....................................................................................10 Presentación de conocimiento...........................................................................................................10 Ejemplos.............................................................................................................................................10 Conclusión..........................................................................................................................................12 Bibliografía..........................................................................................................................................13

Introducción Tradicionalmente el objetivo de la minería era la obtención de carbón. No obstante, una nueva generación de mineros ha aparecido en el inicio de esta cuarta revolución industrial. Son los mineros o exploradores de datos, que cuales en lugar de buscar carbón intentan descubrir patrones en enormes volúmenes de datos. Los métodos utilizados de estos nuevos profesionales son la inteligencia artificial, el aprendizaje automático, la estadística y sistemas de base de datos. Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras para conocer más acerca de los beneficios y aplicaciones de Data Minning realizamos el presente documento.

Objetivos 2

Objetivo General Conocer la herramienta Data Mining (Minería de Datos) a profundidad y cómo aplicarla a los Sistemas Inteligentes para negocios (BI) Objetivos Específicos •

Aprender el concepto de Data Mining



Conocer cómo se realiza todo el proceso de esta herramienta



Aplicar este concepto a ejemplos de empresas reales

Historia de la minería de datos La minería de datos es algo que empieza por los alrededores de los años sesenta, ya los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data Archaeology con la idea de encontrar correlaciones sin una Definición previa de bases de datos. En los principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los términos de Minería de Datos y KDD. Estas tecnologías han sido una buena herramienta para personas que se desenvuelven en el ámbito de los negocios y académico. La evolución de sus etapas en el transcurso del tiempo puede dividirse en cuatro etapas principales: • Colección de Datos (1960). • Acceso de Datos (1980). • Almacén de Datos y Apoyo a las Decisiones (principios de la década de 1990). • Minería de Datos Inteligente.(de la década de 1990).

¿Qué es la Minería de Datos? La minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos con el objetivo de encontrar patrones que nos puedan aportar 3

información valiosa en la toma de futuras decisiones. Otro concepto acuñe que la minería de datos (a veces se llama descubrimiento de datos o de conocimiento) es el proceso de analizar los datos desde diferentes perspectivas y resumiéndolos en información útil - información que se puede utilizar para aumentar los ingresos, reducir los costos, o ambas cosas. Permite a los usuarios analizar los datos desde muchas dimensiones o ángulos, clasificar, y resumir las relaciones identificadas.

Etapas de la minería de datos El proceso de minería de datos tiene normalmente cuatro etapas principales: Determinación de los objetivos: se trata el tipo de información que el cliente desea extraer de la base de datos. Procesamiento de los datos: es la que requiere más trabajo ya que se tiene de seleccionar, limpiar, enriquecer, reducir y transformar la base de datos que nos ha facilitado el cliente. Una vez la hemos procesado y está lista para implementarle el algoritmo de inteligencia artificial, tenemos que escoger qué algoritmo nos va a dar mejores resultados. Determinación del modelo: La elección del mejor algoritmo para una tarea analítica específica es un gran desafío y depende del problema a resolver. Hay básicamente cinco problemas diferentes en la minería de datos: clasificación, regresión, segmentación, asociación y análisis de secuencias. Para resolver estos problemas hay muchos algoritmos a utilizar, los principales son: los de asociación, los clústeres, los de árbol de decisión, los de regresión lineal, el clasificador Bayesiano ingenuo, los de red neuronal, los clústeres de secuencia y los de serie temporal. Análisis de los resultados: Finalmente, el último paso es el de análisis de los resultados. Actualmente este trabajo se está realizando en muchas áreas de negocio como seguridad de datos, finanzas, salud, marketing, detección de fraude, búsquedas online, procesamiento de lenguaje natural o los nuevos coches inteligentes.

4

¿Qué puede hacer la minería de datos? La minería de datos se utiliza sobre todo hoy en día por las empresas con un enfoque fuerte en los consumidores, comunicaciones, comercio, finanzas, y las organizaciones de comercialización. Esto permite que las empresas determinen las relaciones entre los factores "internos" como el precio, posicionamiento del producto, o las habilidades del personal, y factores "externos", como los indicadores económicos, la competencia, y la demografía de los clientes. Y, les permite determinar el impacto en las ventas, la satisfacción del cliente, y las ganancias corporativas. Por último, les permite "profundizar" en la información resumida para ver datos detallados de las transacciones.

¿Cómo funciona la minería de datos? Si bien la tecnología de información a gran escala ha ido evolucionando por separado las transacciones y sistemas de análisis, la minería de datos proporciona un enlace entre los dos. El software de minería de datos analiza las relaciones y patrones en los datos de transacción almacenados sobre la base de consultas de los usuarios de composición abierta. Existen varios tipos de software de análisis que están disponibles: estadísticos, de aprendizaje automático, y redes neuronales. En general, se buscan cualquiera de estos cuatro tipos de relaciones: Clases Los datos almacenados se utilizan para localizar datos en grupos predeterminados. Por ejemplo, una cadena de restaurantes podría minar datos de compra del cliente para determinar cuando los clientes los visitan y lo que normalmente ordenan. Esta información podría utilizarse para aumentar el tráfico al tener especiales del día. Grupos Los elementos de datos se agrupan de acuerdo a las relaciones lógicas o preferencias de los consumidores. Por ejemplo, los datos pueden ser extraídos para identificar segmentos de mercado o afinidades de los consumidores. Asociaciones Los datos pueden ser minados para identificar asociaciones. El ejemplo de cervezapañal es un ejemplo de minería asociativa. 5

Patrones secuenciales Los datos se minan para anticipar patrones de comportamiento y tendencias. Por ejemplo, un distribuidor especializado en sistemas al aire libre puede predecir la probabilidad de compra de una mochila basado en la compra de un consumidor de sacos de dormir y calzado de senderismo. La minería de datos se compone de cinco elementos principales: •

Extraer, transformar y cargar datos de transacciones en el sistema de almacenamiento de datos.



Almacenar y manejar los datos en un sistema de base de datos multidimensional.



Proporcionar acceso a datos para los analistas de negocios y profesionales de tecnologías de la información.



Analizar los datos por un software de aplicación.



Presentar los datos en un formato útil, como un gráfico o tabla. Datos, información y conocimiento

Datos Los datos son cualquier hecho, número o texto que puede ser procesado por una computadora. Hoy en día, las organizaciones están acumulando grandes cantidades, y cada vez mayores, de datos en diferentes formatos y diferentes bases de datos. Esto incluye: •

Datos operativos o transaccionales, tales como, ventas, costos, inventario, nómina y contabilidad



Datos no operacionales, tales como ventas de la industria, datos del pronóstico del tiempo y datos macro económicos



Meta datos - datos sobre los datos en sí, como el diseño de base de datos lógica o los datos de las definiciones del diccionario

Información Los patrones, asociaciones, o relaciones entre todos estos datos pueden proporcionar información. Por ejemplo, el análisis del punto de venta de datos de transacciones puede dar información sobre qué productos se venden y cuándo.

6

Conocimiento La información puede ser convertida en conocimiento acerca de los patrones históricos y las tendencias futuras. Por ejemplo, la información resumida sobre las ventas de supermercados minoristas puede ser analizada a la luz de los esfuerzos de promoción para facilitar el conocimiento del comportamiento de compra del consumidor. Por lo tanto, un fabricante o distribuidor puede determinar qué elementos son los más susceptibles a los esfuerzos de promoción. Almacenes de datos Los dramáticos avances en la captura de datos, potencia de procesamiento, transmisión de datos y capacidades de almacenamiento están permitiendo a las organizaciones integrar sus diversas bases de datos en almacenes de datos. El almacenamiento de datos se define como un proceso de gestión de datos centralizado y con capacidad de recuperación o consulta. El almacenamiento de datos, como la minería de datos, es un término relativamente nuevo, aunque el concepto en sí ha existido por años. El almacenamiento de datos representa una visión ideal de mantener un repositorio central de todos los datos de la organización. La centralización de los datos es necesaria para maximizar el acceso de los usuarios y el análisis. Los dramáticos avances tecnológicos hacen que esta visión sea una realidad para muchas empresas. Y, los avances igualmente espectaculares en el software de análisis de datos, permite a los usuarios acceder a estos datos libremente. El software de análisis de datos es lo que apoya la minería de datos.

Niveles de análisis disponibles Redes neuronales artificiales Modelos predictivos no lineales que aprenden a través de la formación y se asemejan a redes neuronales biológicas en su estructura. Algoritmos genéticos Técnicas de optimización que usan procesos tales como combinación genética, mutación y selección natural en un diseño basado en los conceptos de evolución natural.

7

Árboles de decisión Estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Árboles de Clasificación y Regresión (CART) y Detección Automática de Interacción (Chi Cuadrado CHAID). CART y CHAID son técnicas de árboles de decisión para la clasificación de un conjunto de datos. Constituyen un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros tendrán un resultado determinado. CART segmenta un conjunto de datos mediante la creación de dos vías dividas, mientras que CHAID segmenta utilizando pruebas de chi cuadrado para crear divisiones en múltiples direcciones. CART normalmente requiere menos preparación de datos que CHAID. Método del vecino más próximo Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de registro(s) k más similares a él en un conjunto de datos históricos (donde k 1). A veces se llama técnica del vecino k-más cercano. Inducción de reglas La extracción de reglas if-then basadas en la significancia estadística. Visualización de datos La interpretación visual de las complejas relaciones de datos multidimensionales. Las herramientas de gráficos se utilizan para ilustrar las relaciones de datos.

¿Qué infraestructura tecnológica se requiere? Hoy en día, las aplicaciones de minería de datos están disponibles en sistemas de todo tamaño, para mainframe, cliente / servidor, y para PC. Los precios de sistemas van desde varios miles de dólares para las aplicaciones más pequeñas hasta 1 millón de dólares por terabyte en los más grandes. Las aplicaciones a nivel de empresa, en general, varían en tamaño desde 10 gigabytes a más de 11 terabytes. Hay dos factores tecnológicos críticos: 8

• Tamaño de la base de datos Entre más datos haya en proceso y siendo mantenidos, más poderoso es el sistema requerido. • Complejidad de consultas Entre más complejas las consultas y mayor el número de consultas en proceso, más poderoso debe ser el sistema requerido. La tecnología de almacenamiento basada en bases de datos relacionales para gestión es adecuada para muchas aplicaciones de minería de datos que manejan menos de 50 gigabytes. Sin embargo, esta infraestructura debe ser significativamente mejorada para soportar aplicaciones de mayor tamaño. Algunos fabricantes han añadido amplias capacidades de indexación para mejorar el rendimiento de sus consultas. Otros utilizan nuevas arquitecturas de hardware, tales como procesadores masivos en paralelo (MPP) para lograr mejoras de magnitud en el tiempo de consulta.

Usos de la minería de datos La minería de datos es muy útil en los siguientes dominios: •

Análisis y gestión del mercado



Análisis empresarial y gestión de riesgos



Detección de fraude

Aparte de estos, la minería de datos también se puede utilizar en las áreas de control de producción, retención de clientes, exploración científica, deportes, astrología y navegación web en Internet.

Análisis y gestión del mercado A continuación, se enumeran los diversos campos del mercado donde se utiliza la minería de datos: Perfil del cliente: la minería de datos ayuda a determinar qué tipo de personas compran qué tipo de productos. 9

Identificación de los requisitos del cliente: la extracción de datos ayuda a identificar los mejores productos para diferentes clientes. Utiliza la predicción para encontrar los factores que pueden atraer nuevos clientes. Análisis de mercado cruzado: la minería de datos realiza asociaciones / correlaciones entre las ventas de productos. Objetivos Marketing: la minería de datos ayuda a encontrar grupos de clientes modelo que comparten las mismas características, como intereses, hábitos de gasto, ingresos, etc. Patrón de compra del cliente: la extracción de datos ayuda a determinar el patrón de compra del cliente.

Análisis empresarial y gestión de riesgos La minería de datos se utiliza en los siguientes campos del Sector Corporativo: •

Planificación financiera y evaluación de activos: involucra análisis y predicción de flujo de efectivo, análisis de reclamos contingentes para evaluar activos.



Planificación de recursos: implica resumir y comparar los recursos y los gastos.



Competencia: Implica el monitoreo de competidores y tendencias del mercado.

Detección de fraude La minería de datos también se utiliza en los campos de servicios de tarjetas de crédit...


Similar Free PDFs