Examen Final-1938528 PDF

Title	Examen Final-1938528
Author	francia paris
Course	Inteligencia Artificial Y Redes Neuronales
Institution	Universidad Autónoma de Nuevo León
Pages	4
File Size	354.6 KB
File Type	PDF
Total Downloads	470
Total Views	664

Preview

CLICK TO PREVIEW PDF

Summary

Download Examen Final-1938528 PDF

Description

UNIVERSIDAD AUTONOMA DE NUEVO LEON FACULTAD DE INGENIERIA MECANICA Y ELECTRICA

REDES NEURONALES Ing. José Arturo Berrones Santos

“Examen Final”

NOMBRE Aleyda Viridiana Serrato Soto Día: Jueves

Hora: N1

MATRICULA 1938528 Gpo:003

CARRERA ITS

Primero se importan las librerías necesarias para el programa, así mismo, se generan las variables que llevarán la lista de funciones, los parámetros y las acciones que se podrán realizar, además de inicializar Q en 0,0 para el inicio de la gráfica.

La primera clase contiene los métodos y estructuras que tendrá la simulación según las tres posibles acciones.

La segunda clase lleva acabo la selección de acciones y la actualización de valores para dichos estados y acciones de acuerdo a las reglas de Q-learning.

La tercera clase genera las clases fundamentales para entrenar al agente y conforme pase la simulación valla tomando decisiones que sean beneficiosos.

La cuarta clase detona el ambiente grafico en el cual se llevará a cabo la simulación.

Por último, la función main del programa toma al agente en este caso “james bond” el cual es el agente que tomara las decisiones según las clases anteriores con las acciones posibles. Así mismo se dan los pasos que dará el agente y las veces que repetirá el proceso tomando las decisiones que más convengan.

Comparación con algoritmo 1.1 del Cap. 1 del libro "Foundations of deep reinforcement learning" : Tanto en el algoritmo como en el programa se busca entrenar un agente, el cual sea capas de tomar decisiones dentro de un ambiente. El agente tiene un comienzo y un numero determinado de acciones posibles, las cuales deben de llevar a un objetivo en el caso del algoritmo es llegar a cierto puntaje y en el programa se propuso 100 episodios. Según las veces que se itera el agente debe ir tomando decisiones que favorezcan o generen un valor positivo. En ambos casos se tienen como entradas un conjunto de estados y acciones, el cual se quiere conocer el valor asociado a ese par. Conociendo la función el agente escogerá a la Q que maximice o contenga el mejor valor.

Curva de aprendizaje:

Podemos denotar que el agente a tomado buenas decisiones ya que se puede denotar que los valores positivos predominan en el aprendizaje. También se da a conocer que entre mas episodios tome el agente podrá aprender cual es la mejor opción para maximizar el valor, sin embargo pude repentinamente visitar la ruta negativa para probar nuevos estados....