Title | 4.1 Codigo ql2 - Actividad 4.1 |
---|---|
Course | Inteligencia Artificial Y Redes Neuronales |
Institution | Universidad Autónoma de Nuevo León |
Pages | 5 |
File Size | 324.4 KB |
File Type | |
Total Downloads | 216 |
Total Views | 1,010 |
Universidad Autónoma de Nuevo LeónFacultad de Ingeniería Mecánica y EléctricaRedes NeuronalesSemestre Agosto-Diciembre 2021Dr. José Arturo Berrones Santos4 Código ql2Matrícula Nombre Carrera Hora Frecuencia 1855901 Guillermo Daniel Cavazos Ayala ITS V4-V6 MARTESSan Nicolás de los Garza, Nuevo León. ...
Universidad Autónoma de Nuevo León Facultad de Ingeniería Mecánica y Eléctrica
Redes Neuronales Semestre Agosto-Diciembre 2021 Dr. José Arturo Berrones Santos
4.1 Código ql2.py
Matrícula 1855901
Nombre Guillermo Daniel Cavazos Ayala
Carrera ITS
Hora Frecuencia V4-V6 MARTES
San Nicolás de los Garza, Nuevo León. 24 de noviembre del 2021
Instrucción 4.1 - El código ql2.py implementa el Algoritmo 1.1 del Cap. 1 del libro "Foundations of deep reinforcement learning", dado en la sección de recursos. El ejercicio consiste en 1) Explicar cómo se relacionan las funciones de ambos y cómo se logra en sí la implementación de las funciones en pseudo-código del Algoritmo 1.1 en el programa ql2.py 2) Permitir al agente explorar durante 10 pasos cada episodio. Explicar la curva de aprendizaje resultante. •
Código
Código del programa principal
•
Compilado
1) Explicar cómo se relacionan las funciones de ambos y cómo se logra en sí la implementación de las funciones en pseudo-código del Algoritmo 1.1 en el programa ql2.py
•
Métodos utilizados en el código:
agent.action.reset() y env.reset(): Reinicia los estados del ambiente y del agente. En el ciclo for encontramos lo siguiente: state, reward = env.step(state0, action0): Acción que termina en un diferente estado agent.update(state0, action0, reward, state, action): Se actualiza el agente y se logra que el agente aprenda action = agent.act(state): Hace mención del nuevo estado. cur = cur + reward: Se actualiza el valor if env.done(state) == True: Si esta complete el estado se termina el episodio o tambien si se alcanza el máximo tiempo.
Cuenta con un objetivo; conseguir puntos dando patrones de 10 pasos durante 500 episodios. Para ello nos dirigiremos al código main en el apartado de “MAX_TIME” solamente cambiamos el numero 3 por el 10.
El resultado es el siguiente:
permitiéndole explorar más al agente por cada episodio, es entonces cuando la red neuronal se puede dar cuenta que dentro del ambiente el lugar más seguro
Bibliografía 1.- Graesser, L., & Keng, W. L. (2019). Foundations of Deep Reinforcement Learning: Theory and Practice in Python (1.a ed.). Addison-Wesley Professional....