Нейросетевая аппроксимация функции ценности - Использование нейродинамики для моделирования производственных процессов предприятия
Табличное представление цен действий и состояний задачи имеет естественные ограничения по масштабируемости задачи на большую размерность. В дискретных моделях, имеющихся в литературе, число измерений весьма редко превосходит дюжину. Выход состоит в поиске приближенных аппроксимаций функций задачи.
Имеются два важных условия, влияющих на эффективность выбираемых алгоритмов аппроксимации. Во-первых, алгоритм должен основываться на функциях, обладающих богатыми возможностями по аппроксимации, и во-вторых, для выбранного алгоритма должны существовать масштабируемые алгоритмы выбора параметров аппроксимаций. Эти два требования часто являются противоречащими друг другу - богатый набор аппроксимирующих функций обычно связан с большим числом свободных параметров.
Искусственные нейронные сети являются весьма естественным инструментом для приближенного представления оценок состояний при росте размерности. Однако в стандартной постановке задача аппроксимации нейронной сетью рассматривается, как задача обучения с учителем, т. е. с использованием обучающих пар "вектор аргументов - значение аппроксимируемой функции".
В задаче аппроксимации ценности состояния или "правильные" обучающие значения отсутствуют - они являются решением задачи оптимизации, которую как раз предстоит решить. Это обстоятельство вносит новый, принципиальный уровень сложности в постановку задачи, а именно, оптимальное решение задачи, содержащей приближения в оптимизируемом функционале на классе выбранных аппроксимаций не обязано существовать, а если решение приближенной задачи все-таки существует, оно не обязано приближать собой решение исходной точной задачи.
На практике это приводит к тому, что приходится довольствоваться суб-оптимальными стратегиями, представленными аппроксимациями, и эти стратегии весьма расширительно трактуются, как приближенные решения задачи оптимальной адаптации (управления). Семейство приближенных алгоритмов, основанных на нейросетевых методах аппроксимации функций оценки состояний в многошаговых задачах принято называть нейродинамическим программированием.
Рассмотрим вначале, как может быть построено обучение нейронной сети в случае задачи итерационного вычисления цены состояния. Алгоритм value iteration состоит в поиске неподвижной точки уравнения типа V=g(V) методом простой итерации. Операция присваивания нового итерационного значения в случае нейросетевой аппроксимации не может быть применена непосредственно, и должна быть заменена некоторой операцией изменения весовых коэффициентов нейронной сети.
Простые варианты наталкиваются на методические сложности. Например, операцию присваивания можно было бы заменить одним шагом градиентного уменьшения ошибки:
,
Который приводит к следующим формулам обновления весов нейронной сети с некоторым шагом:
.
Хотя эти соотношения представляются весьма естественными, имеется несколько серьезных контрпримеров, указывающих на отсутствие сходимости такого алгоритма даже в случае простых линейных аппроксимаций. Причина кроется в потере свойства безусловной сжимаемости отображения, в котором используется аппроксимация. Несмотря на то, что в литературе было предложено много практически полезных способов стабилизации итераций, общий вывод таков - локальные методы value iteration с аппроксимацией функции ценности, в общем случае, не сходятся.
Идея решения проблемы со сходимостью состоит в использовании для вычисления функции цены состояния глобальной информации о траектории из состояний, которые "посещались" системой. Семейство алгоритмов, основанных на этом подходе, получило название "методы разностей по времени" (temporal difference methods, TD(л)). В современном виде теория TD(л) сформулирована Sutton и Barto.
В дискретном случае алгоритмы с разностями по времени обходят (частично) также и другое ограничение методов value iteration, а именно, они являются online-алгоритмами и не требуют для новых приближений посещения всех состояний. Обучение происходит отдельными траекториями (эпизодами). В простейшей трактовке, если происходит изменение в оценке некоторого состояния, это изменение отражается и на предыдущих состояниях. Обновление оценки происходит синхронно.
Наиболее просто алгоритм формулируется в случае дискретных состояний. Предполагается, что если оценка текущего состояния после шага уточняется на величину дV, то оценка предыдущего состояния должна быть уточнена на лдV, состояния перед ним - на л2ДV и т. д. Для накопления информации об истории состояний отводится специальная память (eligibility trace).
.
В этом алгоритме используемая стратегия р(s) может быть постоянной, в этом случае вычисляется функция оценки состояний относительно этой стратегии. Альтернативно, стратегия может быть выбрана жадной по отношению к текущей оценке V, в таком случае алгоритм оценивает значение оптимальной стратегии V*. На практике сходящееся решение достигается для е-жадных стратегий, в которых с вероятностью е предпринимается случайное действие, а в остальных случаях - жадное (максимизирующее текущее значение V).
Приведенный алгоритм обобщается на вариант с нейросетевой аппроксимацией функции оценки. Шаги внутреннего цикла имеют вид:
.
Заметим, что вектор "следа памяти" определен здесь для каждого параметра нейросетевой модели, а не для набора состояний (как в дискретном случае). К сожалению, точных результатов о сходимости алгоритмов TD(л) с аппроксимациями известно мало.
Похожие статьи
-
Программное управление Относительно просто может быть сформулирована так называемая задача программного управления. В ней предполагается, что управляющие...
-
Выводы - Использование нейродинамики для моделирования производственных процессов предприятия
Исходя из вышеизложенного, можно заключить, что для решения задач прогнозирования наиболее подходит сеть с обратным распространением. Она позволяет...
-
Среди различных конфигураций искусственных нейронных сетей встречаются такие, при классификации которых по принципу обучения, строго говоря, не подходят...
-
Пример успешного использования методов многошагового обучения для задачи управления производством. Рассмотрим простейший вариант, когда производится лишь...
-
Программное управление является приемлемым подходом во многих прикладных ситуациях. На этом принципе основаны, например, простые металлорежущие станки...
-
К числу приближенных методов оптимизации задач календарного планирования относятся: частичный и направленный перебор, метод Монте-Карло,...
-
Математическое моделирование экономических явлений и процессов является, как указывалось выше, важным инструментом экономического анализа. Оно позволяет...
-
Изучив основные вопросы, связанные с календарным планированием, подведем итог. Задачи календарного планирования отражают процесс распределения во времени...
-
Календарный производственный программирование однооперационный Все существующие методы решения задач календарного планирования3 по степени достижения...
-
В результате проведенного финансового анализа предприятия можно сделать вывод, что состояние его удовлетворительное, но имеется ряд недостатков: В...
-
В этом случае лучшим считается вариант, у которого суммарная величина отдельных целевых функций принимает максимальное значение: F Max = = max...
-
Пусть Dl, r() соответственно левые (правые) границы интервалов I, отвечающих на криволинейной трапеции ОИО значениям 0< < 1. Тогда интересующая нас...
-
Завод по изготовлению телевизоров, находясь в состоянии 1, может увеличить спрос путем организации рекламы. Это требует добавочных затрат и уменьшает...
-
Задание. Рассматривается вычислительная система состоящая из n вычислительных машин. Имеется n задач. Задана матрица T определяющая время решения i-й...
-
Как известно, человечество в своем стремительном развитии старается все более расширить сферы своей деятельности, сталкиваясь при этом с множеством новых...
-
Современные инженерные задачи оптимизации многокритериальные. Выделяют класс задач многоцелевой или многокритериальной оптимизации (класс МКО-задач). В...
-
Основные понятия теории экономико-математического моделирования Кибернетический подход к исследованию экономико-математических систем Обычно...
-
Моделирование процессов управления предполагает последовательное осуществление трех этапов исследования. Первый - от исходной практической проблемы до...
-
Заключение - Моделирование систем массового обслуживания с использованием метода Монте-Карло
Метод Монте-Карло можно определить как метод моделирования случайных величин с целью вычисления характеристик их распределений. Возникновение идеи...
-
Выбор математической формы функции при моделировании зависимости выпуска продукции от производственных факторов Постановка проблемы. Одним из важнейших...
-
В 1930 году Дж. Биркгофом и Дж. фон Нейманом была сформулирована и доказана одна из основных эргодических теорем - теорема о предельных вероятностях:...
-
Определим следующие погрешности, которые можно зафиксировать при оценивании и порождении абсолютных и относительных лингвистических оценок. Погрешности в...
-
Используется адаптивная нейро-нечеткая система вывода ANFIS, функционально эквивалентная системе нечеткого вывода Сугено. Вывод осуществляется за два...
-
Имитационная модель для оптимизации конструкции и режима работы вибрационного высевающего аппарата
ИМИТАЦИОННАЯ МОДЕЛЬ ДЛЯ ОПТИМИЗАЦИИ КОНСТРУКЦИИ И РЕЖИМА РАБОТЫ ВИБРАЦИОННОГО ВЫСЕВАЮЩЕГО АППАРАТА В работе рассматриваются высевающие аппараты...
-
Исследование разрешимости второй краевой задачи для уравнения в частных производных с инволютивным отклонением в младших членах Многие математические...
-
Эконометрические методы могут быть применены в моделировании, имитации и прогнозировании рыночных процессов. Достаточно широко в маркетинге используются...
-
Процесс экономико-математического моделирования - Экономико-математические методы
Этот процесс состоит из нескольких взаимосвязанных этапов. Разбиение на этапы и выделение на каждом этапе присущих ему процессов условно: на одном из...
-
Пусть имеется оптимизационная задача вида: (1) (2) (3) - задан(4) Здесь предполагается, что FJ(xJ,yJ)>0 для всех допустимых значений xJ,yJ. В этом случае...
-
В основе метода площадей лежит предположение, что объект может быть описан линейным дифференциальным уравнением с постоянными коэффициентами, а его...
-
Уравнение динамики теплообменника: Передаточные функции объекта получим по его уравнению динамики. Для этого запишем уравнение по заданному каналу. Затем...
-
Введение - Формирование оптимальной производственной программы предприятия
Цель курсовой работы - обеспечение достаточно глубокого усвоения учебного материала по курсу "Планирование на предприятии", а также приобретение...
-
В настоящее время нельзя назвать область человеческой деятельности, в которой в той или иной степени не использовались бы методы моделирования. Особенно...
-
Алгоритмы поиска квази-клики в графе. - Использование квази-клик для анализа графа рынка России
Как и для поиска клик существуют алгоритмы поиска квази-клик в графе. Далее мы рассмотрим некоторые из них. Как было сказано ранее, задача поиска...
-
Ответ: В педагогических исследованиях прикладная направленность математики, понимается как содержательная и методическая связь курса математики с...
-
Для примера рассмотрим вытекающую из общей постановки (3),(4) двухкритериальную () многоэтапную динамическую задачу, с целевыми функциями дохода и потерь...
-
Экономико-математические методы представляют собой совокупность математических методов (математического программирования, теории вероятностей, теории...
-
Метод конечных разностей -- широко известный и простейший метод интерполяции. Его суть заключается в замене дифференциальных коэффициентов уравнения на...
-
В данном случае анализируемые системы характеризуются не одним набором показателей эффективности, а несколькими: (18) Где - группа показателей...
-
Цепи Маркова служат хорошим введением в теорию случайных процессов, т. е. теорию простых последовательностей семейств случайных величин, обычно зависящих...
-
Предметом статьи является обоснование необходимости использования математических методов в процессе внутреннего мониторинга операций организациями с...
Нейросетевая аппроксимация функции ценности - Использование нейродинамики для моделирования производственных процессов предприятия