Алгоритм робастного управления одномерным динамическим объектом на основе табличного Q-метода обучения с подкреплением

В статье представлен обзор в области систем управления динамическими объектами на базе методов машинного обучения с подкреплением. На основе проведенного анализа сделан вывод о актуальности развития методов управления, базирующихся на обучении с подкреплением. В статье предлагается интеллектуальный...

Full description

Saved in:
Bibliographic Details
Main Authors: Mikhail Medvedev, Viacheslav Pshikhopov, Igor Evdokimov
Format: Article
Language:English
Published: Russian Academy of Sciences, St. Petersburg Federal Research Center 2025-06-01
Series:Информатика и автоматизация
Subjects:
Online Access:https://ia.spcras.ru/index.php/sp/article/view/17032
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:В статье представлен обзор в области систем управления динамическими объектами на базе методов машинного обучения с подкреплением. На основе проведенного анализа сделан вывод о актуальности развития методов управления, базирующихся на обучении с подкреплением. В статье предлагается интеллектуальный алгоритм робастного управления устойчивыми динамическими объектами с одним входом и одним выходом, базирующийся на табличном Q-методе обучения нулевого порядка. Алгоритм осуществляет стабилизацию выходной величины объекта управления с заданной погрешностью, если параметры и внешние возмущения объекта являются кусочно-постоянными неизвестными величинами, а вектор состояния является измеряемым. Новизна предложенного алгоритма заключается в новом инкрементальном способе формирования управления, который позволяет, базируясь на множестве из трех возможных действий, стабилизировать объект управления. Предложенный способ формирования множества управляющих воздействий позволяет обеспечить требуемую точность стабилизации выхода объекта, изменяя амплитуду приращения управления. Также элементом новизны является предложенное выражения для расчета вознаграждения, которое позволяет ограничить изменения управления. Предлагаемый алгоритм обладает высокой вычислительной эффективностью. После обучения вычисление управления сводится к вычислению индексов по результатам измерения, чтению данных из памяти по вычисленным индексам и нахождению максимального значения в векторе небольшой размерности. В работе исследованы условия сходимости алгоритма обучения и ограниченности ошибки управления. Разработанный алгоритм демонстрируется на примере синтеза робастного управления двигателем постоянного тока с независимым возбуждением. В ходе численного моделирования исследуется качество замкнутой системы при изменении параметров и задающего воздействия. Анализ результатов позволяет сделать выводы об эффективности синтезированного алгоритма. В статье приводятся результаты экспериментов, которые демонстрируют техническую реализуемость полученного алгоритма. Данный вопрос является важным, так как анализ источников показывает практически полное отсутствие технической реализации систем управления динамическими объектами, синтезированными с использованием методов обучения с подкреплением.
ISSN:2713-3192
2713-3206