4.1 Codigo ql2 - Actividad 4.1 PDF

Title	4.1 Codigo ql2 - Actividad 4.1
Course	Inteligencia Artificial Y Redes Neuronales
Institution	Universidad Autónoma de Nuevo León
Pages	5
File Size	324.4 KB
File Type	PDF
Total Downloads	216
Total Views	1,010

Preview

CLICK TO PREVIEW PDF

Summary

Universidad Autónoma de Nuevo LeónFacultad de Ingeniería Mecánica y EléctricaRedes NeuronalesSemestre Agosto-Diciembre 2021Dr. José Arturo Berrones Santos4 Código ql2Matrícula Nombre Carrera Hora Frecuencia 1855901 Guillermo Daniel Cavazos Ayala ITS V4-V6 MARTESSan Nicolás de los Garza, Nuevo León. ...

Description

Universidad Autónoma de Nuevo León Facultad de Ingeniería Mecánica y Eléctrica

Redes Neuronales Semestre Agosto-Diciembre 2021 Dr. José Arturo Berrones Santos

4.1 Código ql2.py

Matrícula 1855901

Nombre Guillermo Daniel Cavazos Ayala

Carrera ITS

Hora Frecuencia V4-V6 MARTES

San Nicolás de los Garza, Nuevo León. 24 de noviembre del 2021

Instrucción 4.1 - El código ql2.py implementa el Algoritmo 1.1 del Cap. 1 del libro "Foundations of deep reinforcement learning", dado en la sección de recursos. El ejercicio consiste en 1) Explicar cómo se relacionan las funciones de ambos y cómo se logra en sí la implementación de las funciones en pseudo-código del Algoritmo 1.1 en el programa ql2.py 2) Permitir al agente explorar durante 10 pasos cada episodio. Explicar la curva de aprendizaje resultante. •

Código

Código del programa principal

•

Compilado

1) Explicar cómo se relacionan las funciones de ambos y cómo se logra en sí la implementación de las funciones en pseudo-código del Algoritmo 1.1 en el programa ql2.py

•

Métodos utilizados en el código:

agent.action.reset() y env.reset(): Reinicia los estados del ambiente y del agente. En el ciclo for encontramos lo siguiente: state, reward = env.step(state0, action0): Acción que termina en un diferente estado agent.update(state0, action0, reward, state, action): Se actualiza el agente y se logra que el agente aprenda action = agent.act(state): Hace mención del nuevo estado. cur = cur + reward: Se actualiza el valor if env.done(state) == True: Si esta complete el estado se termina el episodio o tambien si se alcanza el máximo tiempo.

Cuenta con un objetivo; conseguir puntos dando patrones de 10 pasos durante 500 episodios. Para ello nos dirigiremos al código main en el apartado de “MAX_TIME” solamente cambiamos el numero 3 por el 10.

El resultado es el siguiente:

permitiéndole explorar más al agente por cada episodio, es entonces cuando la red neuronal se puede dar cuenta que dentro del ambiente el lugar más seguro

Bibliografía 1.- Graesser, L., & Keng, W. L. (2019). Foundations of Deep Reinforcement Learning: Theory and Practice in Python (1.a ed.). Addison-Wesley Professional....