Anomaly detection PDF

Title	Anomaly detection
Author	Daniel RODRIGUEZ DIAZ
Course	realidad virtual
Institution	Universidad Militar Nueva Granada
Pages	4
File Size	340.4 KB
File Type	PDF
Total Downloads	6
Total Views	160

Preview

CLICK TO PREVIEW PDF

Summary

Download Anomaly detection PDF

Description

UNIVERSIDAD MILITAR NUEVA GRANADA RODRIGUEZ, RAMIREZ. PAGE 1

ANOMALY DETECTION Rodríguez Díaz, Daniel Alejandro l.-1802558, Ramírez Gómez, Sebastián 2.-1803083.

Resumen — Por medio del siguiente documento se busca entender los métodos de clasificación de variables basados en la simplificación de enormes datos suministrados por bases de datos, de esta forma se busca realizar el aprendizaje de máquina para obtener procesos de selección.

Detección de valores inusuales por medio de una distribución de valores para un espacio de una sola característica, en este caso se busca determinar las diferencias en las variables para dos campos en donde el comportamiento no es el esperado.

Actividad teórica: Como muchos otros conceptos vistos a lo largo del curso, la detección de anomalías no es un tema nuevo. Sin embargo, ha tenido un nuevo auge en la última década. Tomado como base la literatura obligatoriamente sugerida, y si considera buscar información adicional, lo cual es recomendable, resuelva lo siguiente: ● ¿Qué es anomaly detection y cuál es el objetivo de este tipo de aplicaciones? Proceso en el cual se busca identificar procesos o datos inesperados en un numero de datos, de esta forma los datos inesperados corresponden a errores o anomalías que se producen en datos sin etiquetar, de esta forma las anomalías se pueden conocer en los datos como ruidos, novedades, desviaciones, excepciones o valores atípicos. ● ¿Cómo se relaciona Machine learning y Anomaly detection? Por medio de aplicaciones como el aprendizaje supervisado, este permite realizar un análisis de datos para eliminar anomalías de un numero de datos con el fin de aumentar la precisión dentro de las respuestas de la máquina, dicha precisión se alcanza con base a que el conjunto de datos no se ajusta al comportamiento normal de las respuestas entregadas en la agrupación y clasificación. Como aplicación de ML, en anomaly detection se pueden aplicar estrategias de aprendizaje supervisado, aprendizaje no supervisado y aprendizaje semi-supervisado. De acuerdo con el tipo de aprendizaje aparece aplicaciones específicas. Investigue en la web y en bases de datos artículos y/o reportes científicos donde se traten problemas de anomaly detection ● Identifique los problemas concretos y descríbalos, explique por qué son problemas de anomaly detection

De esta forma se encuentran sesgos en los datos donde se muestran valores que no corresponden precisamente a lo que se busca, a partir de ello se pueden establecer procesos y métodos que permitan delimitar los datos para evitar errores en los datos finales generando resultados mas claros y optimos. ● En los ejemplos que encontró identifique las técnicas de ML aplicadas para realizar anomaly detection, explique cómo funcionan dichas técnicas -

Bosque de aislamiento: Es un algoritmo que se utiliza para detectar anomalías mediante el uso de Isolation Forest el cual busca anomalías entre datos que son pocos y diferentes. Por medio de este algoritmo se realiza una serie de selección de datos al azar en donde se realiza una división en el dato entre el valor mínimo y el valor máximo que representa la característica de los datos seleccionados. De esta forma por medio de código se busca encontrar la región en donde los valores se representan de forma atípica, en la grafica se muestran para un supermercado los datos atípicos en comparación con las ventas:

UNIVERSIDAD MILITAR NUEVA GRANADA RODRIGUEZ, RAMIREZ. PAGE 2

-

Dichos datos que presentan anomalías tienen características que varían significativamente con base a los demás datos

Ejemplo detección de anomalías : para comenzar, se crea un programa en Python que realice detección de anomalías , entonces primero se trabaja con un base de 250 datos Random, de la librería panda que varían entre 3 y -3:

Imagen 1. Puntuación anómala vs ventas De igual manera por medio de la detección de anomalias y utilizando el mismo algoritmo se pueden implementar análisis para determinar y resaltar datos erróneos mediante la implementación de características específicas. Imagen 3. Base de datos aleatorios. Lo primero que se debe hacer es analizar un poco los datos esto se puede lograr con ayuda de un histograma :

Imagen 2. Beneficios en las ventas vs anomalías De esta forma con base a la detección de anomalías se pueden evidenciar problemáticas que pretenden poner en investigación los casos donde las correlaciones no corresponden a lo esperado y por ello la detección de anomalías permite determinar varias aplicaciones de mejora. ● De las técnicas y problemas que identificó, clasifíquelos en los tres tipos de aprendizaje mencionados arriba. Diga las razones y argumente la clasificación que realizó Por medio del algoritmo que se mostro anteriormente se determina que es un proceso de detección de anomalías de manera no supervisada por lo cual dichos datos tienen dos supuestos específicos: -

Dichas anomalías solo ocurren en escenarios muy raros y en cualquier momento.

Imagen 4. Histograma de datos. En la figura 4 se puede observar que la mayor concentración de datos se encuentra cerca del valor cero, y que muy pocos datos abarcan valores superiores a 1. El valor calculado de la desviación estándar es igual a 1.004 es decir que los valores negativo y positivos dentro de ese radio están en lo normal de la desviación estándar, entonces ahora se puede jugar con el valor de la desviación estándar sigma Ω, lo siguiente que se hace es realizar una función ventana , es decir que genere un techo y un suelo en los datos, esto se realiza multiplicando el sigma por el ancho de la ventana que queremos , en este caso , la constante tendría un valor de 2.

UNIVERSIDAD MILITAR NUEVA GRANADA RODRIGUEZ, RAMIREZ. PAGE 3

Imagen 5. Techo y suelo de datos. Imagen 8. Comics de github.

Se puede analizar que el sistema no comienza a generar el margen de techo y suelo hasta que no se halla generado un margen igual a 20 datos , y a partir de estos el margen se comienza adaptar , se puede ver que algunos datos sobrepasan la frontera, estos son reconocidos como anomalías.

Ahora por el mismo método visto anteriormente se establece el método de techo y piso pero ahora teniendo en cuenta que la desviación estándar cambio :

Ahora el paso siguiente es que la maquina tiene que reaccionar por su cuenta a la presencia de una anomalía , entonces el resultado es el siguiente :

Imagen 9. Comics de github techo y suelo.

Ahora solo queda probar el sistema probado: Imagen 6. Anomalías detectadas. se puede observar que la maquina es capaz de detectar por su cuenta la presencia de anomalías ahora se puede trabajar con datos reales: entonces para comenzar a probar se tiene el registro de comics publicado en github por día desde el 2014-2018:

Imagen 10. Comics de github detección de anomalías. Se puede observar que el sistema es capaz de identificar las anomalías presentes que en este caso son el numero de comics vistos o descargados por dia ya que hay días exageradamente buenos o malos el sistema los puede detectar y analizar esto para preparar las ventas.

Imagen 7. Comics de github.

Entonces ahora se plasman los datos en una grafica para observar el comportamiento :

I.

Conclusiones

UNIVERSIDAD MILITAR NUEVA GRANADA RODRIGUEZ, RAMIREZ. PAGE 4

-

-

-

Los métodos de clasificación permiten realizar procedimientos de minimización de información sin perder información crucial en el proceso de manejo de datos. De igual forma son métodos que permiten desprender y determinar datos basados en el seguimiento y validación de patrones. La detección de anomalías no solo su aplicabilidad se limita a casos de fraudes y problemas sino que también se puede usar como un método de predicción de movimientos en la economía y en el tranding. Referencias

II. -

-

https://en.wikipedia.org/wiki/Anomaly_detection https://towardsdatascience.com/anomalydetection-for-dummies15f148e559c1#:~:text=Anomaly%20detection %20is%20the%20process,very%20rarely %20in%20the%20data. https://www.sciencedirect.com/topics/computer -science/anomaly-detection https://www.tdx.cat/handle/10803/405808#pag e=1 https://www.youtube.com/watch? v=6TyepQq9NBc...