Методика верификации функции вознаграждения для обучения политик локомоции четвероногого робота

Authors: А.С. Героев, О.М. Гергет, А.В. Башкирова et al.

Publication: МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Published: May 13, 2026

Source: Crossref

Back to Search View Original Cite This Article

Abstract

<jats:p>В статье предложен подход к моделированию функции вознаграждения путем последовательного тестирования ее функциональных компонент. Некорректные функциональные компоненты могут привести к тому, что максимальное значение результирующей функции перестанет соответствовать желаемому целевому поведению робота. Для решения этой проблемы, а также предварительной оценки самой функции была предложена методика верификации, позволяющая проводить систематическую проверку как отдельных компонент функции вознаграждения, так и их весовых коэффициентов до начала длительного и ресурсоемкого обучения политики. Методика включает в себя формирование набора желательных и нежелательных сценариев поведения робота для последующей оценки изменения функции вознаграждения и ее функциональных компонент. Предложен двухуровневый метод тестирования: на первом уровне тестируются отдельные функциональные компоненты, отвечающие за соблюдение желаемых критериев движения робота, таких как сохранение целевой скорости, сохранение целевой устойчивости корпуса, сохранение целевой высоты корпуса и т. д. на предмет их монотонного убывания в нежелательных состояниях. На втором уровне тестируется результирующая функция взвешенной суммы этих компонент, чтобы убедиться, что дисбаланс весов не приводит к росту награды при потере устойчивости, падении или движению с нежелательной скоростью в нежелательном направлении. Особое внимание уделяется тесту на соответствие желательному состоянию – сценарию идеального прямолинейного движения, который позволяет выявить «некорректные» наборы коэффициентов, при которых штрафующие компоненты доминируют даже в идеальных условиях. Экспериментальная проверка проведена на модели робота Unitree Go1 в среде PyBullet. Результаты подтверждают, что предложенные тесты эффективно выявляют ошибки в реализации компонент и дисбаланс весов, что существенно повышает надежность процесса обучения и сокращает временные затраты на разработку.</jats:p> <jats:p>This article proposes an approach to reward function modeling through sequential testing of its functional components. Incorrect functional components can lead to the maximum value of the resulting function no longer corresponding to the desired robot behavior. To address this issue and to preliminarily evaluate the function itself, a verification method was proposed that allows for the systematic verification of both individual reward function components and their weighting coefficients before beginning time-consuming and resource-intensive policy training. The method involves generating a set of desirable and undesirable robot behavior scenarios for subsequent evaluation of the reward function and its functional components. A two-level testing method is proposed: at the first level, individual functional components responsible for maintaining desired robot motion criteria, such as maintaining target speed, maintaining target body stability, maintaining target body height, etc., are tested for monotonic decrease in undesirable states. At the second level, the resulting function of the weighted sum of these components is tested to ensure that weight imbalances do not lead to increased reward during instability, falls, or movement at an undesirable speed in an undesirable direction. Particular attention is paid to testing for compliance with the desired state – a scenario of ideal linear motion—which helps identify "incorrect" sets of coefficients where penalizing components dominate even under ideal conditions. Experimental validation was conducted on a Unitree Go1 robot model in the PyBullet environment. The results confirm that the proposed tests effectively identify component implementation errors and weight imbalances, significantly increasing the reliability of the training process and reducing development time.</jats:p>

Keywords

components function функции компонент на

Методика верификации функции вознаграждения для обучения политик локомоции четвероногого робота

Abstract

Keywords

Related Articles

The effect of preoperative risk factors on changes in erectile function after urethroplasty

МЕТОДИКА РОЗРОБЛЕННЯ Й ВИКОРИСТАННЯ ОСВІТНЬОГО ЧАТ-БОТА У ФОРМУВАННІ ЕКОЛОГІЧНОГО СВІТОГЛЯДУ УЧНІВСЬКОЇ МОЛОДІ

МЕТОДИКА НАВЧАННЯ МОДЕЛЮВАННЯ ПРОБЛЕМНИХ СИТУАЦІЙ ЗАСОБАМИ НЕЧІТКИХ МНОЖИН ІЗ ВИКОРИСТАННЯМ GNU OCTAVE У ПІДГОТОВЦІ БАКАЛАВРІВ ПРИКЛАДНОЇ МАТЕМАТИКИ

МЕТОДИКА ВИВЧЕННЯ ЗАСТОСУВАНЬ ПОЛІВ ГАЛУА В КОМП’ЮТЕРНИХ НАУКАХ