5.1 RNA funcion valor para el agente ql2 PDF

Title	5.1 RNA funcion valor para el agente ql2
Course	Inteligencia Artificial Y Redes Neuronales
Institution	Universidad Autónoma de Nuevo León
Pages	7
File Size	418.6 KB
File Type	PDF
Total Downloads	129
Total Views	171

Preview

CLICK TO PREVIEW PDF

Summary

Universidad Autónoma de Nuevo LeónFacultad de Ingeniería Mecánica y EléctricaRedes NeuronalesSemestre Agosto-Diciembre 2021Dr. José Arturo Berrones Santos5 RNA función valor para el agente ql2Matrícula Nombre Carrera Hora Frecuencia 1855901 Guillermo Daniel Cavazos Ayala ITS V4-V6 MARTESSan Nicolás ...

Description

Universidad Autónoma de Nuevo León Facultad de Ingeniería Mecánica y Eléctrica

Redes Neuronales Semestre Agosto-Diciembre 2021 Dr. José Arturo Berrones Santos

5.1 RNA función valor para el agente ql2.py

Matrícula 1855901

Nombre Guillermo Daniel Cavazos Ayala

Carrera ITS

Hora Frecuencia V4-V6 MARTES

San Nicolás de los Garza, Nuevo León. 24 de noviembre del 2021

Instrucción 5.1 - Desarrollar una RNA que aproxime la función de valor para el agente ql2.py Parte 1. - Describir cómo implementaría usted la implementación de la RNA que aproxime Q. Q-Learning es un método de Aprendizaje por Refuerzo el cual permite poder resolver problemas que se traten de decisión secuencial en los cuales la utilidad de una acción depende de una secuencia de decisiones y donde además existe la incertidumbre en cuanto a las dinámicas del ambiente en que está situado el agente. El Q-Learning permite resolver problemas de decisión secuencial en los cuales la utilidad de una acción depende de una secuencia de decisiones y donde además existe incertidumbre en cuanto a las dinámicas del ambiente en que está situado el agente. Para poder obtener el mejor valor que se aproxime a Q, implementaría algunos modelos que permita el entrenamiento de la red neuronal a través de la variable que contiene las distintas ganancias. La cantidad de nivel de capas determina lo tardado que podría hacerse el programa. Asi que considero que el método de proceso de Q-Learning podría ayudar a que la RNA aproxime el valor de Q.

Parte 2. - Escribir ya sea un seudo-código o un diagrama de flujo. // construimos la función de generador de red neuronal Función construir_red_q(dimensión_estado, dimensión_accion) Inputs = capa de input donde se instancia un tensor con las dimensiones del estado Red_neuronal1= capa densa de 50 neuronas de salida con activación de relu Red_neuronal2 = capa densa de 50 neuronas de salida con activación de relu Red_neuronal3= capa densa de 50 neuronas de salida con activación de relu Red_neuronal4= capa densa de 50 neuronas de salida con activación de relu Red_neuronal5 = capa densa de 50 neuronas de salida con activación de relu valores_q = capa de dimensiones red_q = modelo (inputs = Inputs, outputs=valores_q) For 0 in MAX_EPISODES SI estado = environment.rest() estado= [(estado)] recompensa= 0 fin= falso SINO FIN Recompensa = obtener_recompensa(estado, accion) valor_q = valores_q[0, accion] sig_estado = obtener_estado(estado, accion) SI sig_estado == estado terminal: siguiente_valor_q = 0 SINO siguiente_accion = siguiente_valor_q[0] siguiente_valor_q = siguiente_valor_q[0, acción] agente_actualizar = sig_estado

CORRELATION ANALYSIS

Este código es mediante el método de “Correlation Analysis”, los datos son de dos archivos llamados “Boston.csv” y “correlations.csv”, importamos las librerías pandas, numpy y matplotlib. Luego almacenamos los nombres de las variables. Luego procedemos a realizar la graficacion de las correlaciones calculadas y es cuando se genera nuestra figura, que es la siguiente: (morado es negativo y amarillo positivo)

GAUSSIAN ANALYSIS

Este código es mediante el método de “Gaussian Analysis” importamos las librerías de stats de scipy, numpy y matplotlib. Mediante el ciclo for creamos el arreglo de archivos. Al momento de compilarlo podemos observar un conjunto de columnas con el nombre que corresponde de su .txt

TIME SERIES ANALYSIS

Este código es mediante el método de “Correlation Analysis”, los datos son de tres archivos llamados “petroleum.csv”, “electric_cars.csv” y “renewable_energy”. Importamos las librerías pandas de serie, matplotlib, numpy. Ordenamos los archivos en base a cuál queremos ver primero y posteriormente mediante un ciclo for lo corremos.

Bibliografía 1.- Graesser, L., & Keng, W. L. (2019). Foundations of Deep Reinforcement Learning: Theory and Practice in Python (1.a ed.). Addison-Wesley Professional....