DSpace Repositorium (Manakin basiert)

Control de aprendizaje por refuerzo con el algoritmo actor crítico de ventaja

Zur Kurzanzeige

dc.rights.license http://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisor Tapia Sánchez, Roberto
dc.contributor.author Pimentel Vallejo, Miguel Ángel
dc.date.accessioned 2023-03-24T14:36:48Z
dc.date.available 2023-03-24T14:36:48Z
dc.date.issued 2022-08
dc.identifier.uri http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/8444
dc.description Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica es_MX
dc.description.abstract In this thesis the results obtained from implementing a controller based on reinforcement learning are presented, in particular the algorithm of critical actor of advantage is used. The method is trained to control two systems: Direct current motor. Which is only controlled in a simulated way using its linear model. Rotating inverted pendulum. This system is controlled in a simulated way using its non-linear model and in a real way, using a module for experimentation of the Quanser brand. Once trained, controllers are subjected to a series of tests: Tracking a reference that does not change over time. Tracking a reference signal with value changes over time. Tracking a sinusoidal signal. With these tests, the performance of the trained controller is compared with different reward functions, among which the proposal in this thesis is used, in order to show which, one has the best performance. Finally, conclusions and future work are presented. en
dc.description.abstract En esta tesis se presentan los resultados obtenidos de implementar un controlador basado en aprendizaje por refuerzo, en particular se utiliza el algoritmo de actor critico de ventaja. El método es entrenado para controlar dos sistemas: Motor de corriente directa. El cual solamente se controla de manera simulada utilizando su modelo lineal. Péndulo invertido rotatorio. Este sistema se controla de manera simulada usando su modelo no lineal y de manera real, usando un módulo para experimentación de la marca Quanser. Una vez entrenados, los controladores son sometidos a una serie de pruebas: Seguimiento de una referencia que no cambia con el tiempo. Seguimiento de una señal de referencia con cambios de valor a través del tiempo. Seguimiento de una señal senoidal. Con estas pruebas se compara el desempeño del controlador entrenado con distintas funciones de recompensa, entre las cuales se utiliza la propuesta en esta tesis, esto con la finalidad de mostrar cuál tiene el mejor desempeño. Por último, se presentan las conclusiones y los trabajos futuros. es_MX
dc.language.iso spa spa_MX
dc.publisher Universidad Michoacana de San Nicolás de Hidalgo es_MX
dc.rights info:eu-repo/semantics/openAccess
dc.subject info:eu-repo/classification/cti/7
dc.subject FIE-M-2022-0907 es_MX
dc.subject Rotatorio es_MX
dc.subject Péndulo es_MX
dc.subject Corriente directa es_MX
dc.title Control de aprendizaje por refuerzo con el algoritmo actor crítico de ventaja es_MX
dc.type info:eu-repo/semantics/masterThesis es_MX
dc.creator.id PIVM940827HMNMLG05
dc.advisor.id TASR800117HMNPNB07
dc.advisor.role asesorTesis


Dateien zu dieser Ressource

Das Dokument erscheint in:

Zur Kurzanzeige

DSpace Suche


Erweiterte Suche

Stöbern

Mein Benutzerkonto

Statistik