Нейросетевая аппроксимация функции ценности - Использование нейродинамики для моделирования производственных процессов предприятия

Табличное представление цен действий и состояний задачи имеет естественные ограничения по масштабируемости задачи на большую размерность. В дискретных моделях, имеющихся в литературе, число измерений весьма редко превосходит дюжину. Выход состоит в поиске приближенных аппроксимаций функций задачи.

Имеются два важных условия, влияющих на эффективность выбираемых алгоритмов аппроксимации. Во-первых, алгоритм должен основываться на функциях, обладающих богатыми возможностями по аппроксимации, и во-вторых, для выбранного алгоритма должны существовать масштабируемые алгоритмы выбора параметров аппроксимаций. Эти два требования часто являются противоречащими друг другу - богатый набор аппроксимирующих функций обычно связан с большим числом свободных параметров.

Искусственные нейронные сети являются весьма естественным инструментом для приближенного представления оценок состояний при росте размерности. Однако в стандартной постановке задача аппроксимации нейронной сетью рассматривается, как задача обучения с учителем, т. е. с использованием обучающих пар "вектор аргументов - значение аппроксимируемой функции".

В задаче аппроксимации ценности состояния или "правильные" обучающие значения отсутствуют - они являются решением задачи оптимизации, которую как раз предстоит решить. Это обстоятельство вносит новый, принципиальный уровень сложности в постановку задачи, а именно, оптимальное решение задачи, содержащей приближения в оптимизируемом функционале на классе выбранных аппроксимаций не обязано существовать, а если решение приближенной задачи все-таки существует, оно не обязано приближать собой решение исходной точной задачи.

На практике это приводит к тому, что приходится довольствоваться суб-оптимальными стратегиями, представленными аппроксимациями, и эти стратегии весьма расширительно трактуются, как приближенные решения задачи оптимальной адаптации (управления). Семейство приближенных алгоритмов, основанных на нейросетевых методах аппроксимации функций оценки состояний в многошаговых задачах принято называть нейродинамическим программированием.

Рассмотрим вначале, как может быть построено обучение нейронной сети в случае задачи итерационного вычисления цены состояния. Алгоритм value iteration состоит в поиске неподвижной точки уравнения типа V=g(V) методом простой итерации. Операция присваивания нового итерационного значения в случае нейросетевой аппроксимации не может быть применена непосредственно, и должна быть заменена некоторой операцией изменения весовых коэффициентов нейронной сети.

Простые варианты наталкиваются на методические сложности. Например, операцию присваивания можно было бы заменить одним шагом градиентного уменьшения ошибки:

,

Который приводит к следующим формулам обновления весов нейронной сети с некоторым шагом:

.

Хотя эти соотношения представляются весьма естественными, имеется несколько серьезных контрпримеров, указывающих на отсутствие сходимости такого алгоритма даже в случае простых линейных аппроксимаций. Причина кроется в потере свойства безусловной сжимаемости отображения, в котором используется аппроксимация. Несмотря на то, что в литературе было предложено много практически полезных способов стабилизации итераций, общий вывод таков - локальные методы value iteration с аппроксимацией функции ценности, в общем случае, не сходятся.

Идея решения проблемы со сходимостью состоит в использовании для вычисления функции цены состояния глобальной информации о траектории из состояний, которые "посещались" системой. Семейство алгоритмов, основанных на этом подходе, получило название "методы разностей по времени" (temporal difference methods, TD(л)). В современном виде теория TD(л) сформулирована Sutton и Barto.

В дискретном случае алгоритмы с разностями по времени обходят (частично) также и другое ограничение методов value iteration, а именно, они являются online-алгоритмами и не требуют для новых приближений посещения всех состояний. Обучение происходит отдельными траекториями (эпизодами). В простейшей трактовке, если происходит изменение в оценке некоторого состояния, это изменение отражается и на предыдущих состояниях. Обновление оценки происходит синхронно.

Наиболее просто алгоритм формулируется в случае дискретных состояний. Предполагается, что если оценка текущего состояния после шага уточняется на величину дV, то оценка предыдущего состояния должна быть уточнена на лдV, состояния перед ним - на л2ДV и т. д. Для накопления информации об истории состояний отводится специальная память (eligibility trace).

.

В этом алгоритме используемая стратегия р(s) может быть постоянной, в этом случае вычисляется функция оценки состояний относительно этой стратегии. Альтернативно, стратегия может быть выбрана жадной по отношению к текущей оценке V, в таком случае алгоритм оценивает значение оптимальной стратегии V*. На практике сходящееся решение достигается для е-жадных стратегий, в которых с вероятностью е предпринимается случайное действие, а в остальных случаях - жадное (максимизирующее текущее значение V).

Приведенный алгоритм обобщается на вариант с нейросетевой аппроксимацией функции оценки. Шаги внутреннего цикла имеют вид:

.

Заметим, что вектор "следа памяти" определен здесь для каждого параметра нейросетевой модели, а не для набора состояний (как в дискретном случае). К сожалению, точных результатов о сходимости алгоритмов TD(л) с аппроксимациями известно мало.

Похожие статьи




Нейросетевая аппроксимация функции ценности - Использование нейродинамики для моделирования производственных процессов предприятия

Предыдущая | Следующая