Control de aprendizaje por refuerzo con el algoritmo actor crítico de ventaja

Pimentel Vallejo, Miguel Ángel

DSpace Principal
→
Repositorio Institucional de la Universidad Michoacana de San Nicolás de Hidalgo
→
Tesis
→
Maestría
→
Ver ítem

Control de aprendizaje por refuerzo con el algoritmo actor crítico de ventaja

Pimentel Vallejo, Miguel Ángel

URI: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/8444

Fecha: 2022-08

Resumen:

In this thesis the results obtained from implementing a controller based on reinforcement learning are presented, in particular the algorithm of critical actor of advantage is used. The method is trained to control two systems: Direct current motor. Which is only controlled in a simulated way using its linear model. Rotating inverted pendulum. This system is controlled in a simulated way using its non-linear model and in a real way, using a module for experimentation of the Quanser brand. Once trained, controllers are subjected to a series of tests: Tracking a reference that does not change over time. Tracking a reference signal with value changes over time. Tracking a sinusoidal signal. With these tests, the performance of the trained controller is compared with different reward functions, among which the proposal in this thesis is used, in order to show which, one has the best performance. Finally, conclusions and future work are presented.

En esta tesis se presentan los resultados obtenidos de implementar un controlador basado en aprendizaje por refuerzo, en particular se utiliza el algoritmo de actor critico de ventaja. El método es entrenado para controlar dos sistemas: Motor de corriente directa. El cual solamente se controla de manera simulada utilizando su modelo lineal. Péndulo invertido rotatorio. Este sistema se controla de manera simulada usando su modelo no lineal y de manera real, usando un módulo para experimentación de la marca Quanser. Una vez entrenados, los controladores son sometidos a una serie de pruebas: Seguimiento de una referencia que no cambia con el tiempo. Seguimiento de una señal de referencia con cambios de valor a través del tiempo. Seguimiento de una señal senoidal. Con estas pruebas se compara el desempeño del controlador entrenado con distintas funciones de recompensa, entre las cuales se utiliza la propuesta en esta tesis, esto con la finalidad de mostrar cuál tiene el mejor desempeño. Por último, se presentan las conclusiones y los trabajos futuros.