Алгоритмы детектирования объектов на видео для мобильных платформ, Обучение с учителем и формальная запись задачи классификации - Исследование алгоритмов

Обучение с учителем и формальная запись задачи классификации

Теория машинного обучения решает задачи предсказания будущего поведения сложных систем в том случае, когда отсутствуют точные гипотезы о механизмах, управляющих поведением таких систем. Имеется ряд категорий машинного обучения: контролируемое обучение или обучение с учителем (supervised learning), неконтролируемое обучение (unsupervised learning) (в частности, кластеризация), обучение с подкреплением (reinforcement learning).

В данной работе рассматривается первый тип машинного обучения - контролируемое обучение. Оно берет начало на обучающей выборке, которая представляет собой примеры: пары вида "вход - выход". Целью обучения является восстановление зависимости между элементами этих пар с целью предсказания будущего выхода по заданному входу. В сущности, имеется два основных класса задач: задачи классификации и задачи регрессии. В данном исследовании интерес представляет задача классификации, в которой выход - это метка класса, к которому принадлежит вход [31].

Задача классификации базируется на основных идеях теории PAC-машинного обучения (Probably Approximately Correct-learning), предложенную Валлиантом [38]. В работе предлагается отойти от классической концепции этой теории; вместо этого используется постановка задачи, принятая в современной статистической теории машинного обучения.

Так, предполагается, что каждый пример X, представленный для обучения или проверки, является элементом некоторого множества X (снабженного полем борелевских множеств) и генерируется некоторым неизвестным распределением вероятностей P на X . Предполагается, что каждый пример X имеет метку Y - признак принадлежности к некоторому классу. Метки классов образуют множество D. Пары (x; y) объектов X И их меток Y одинаково и независимо распределены согласно некоторому неизвестному вероятностному распределению P на множестве. В соответствии с этим полагается, что выборка

Генерируется (порождается) некоторым источником, а на множестве задано распределение вероятностей

.

Правило или функция (гипотеза) классификации - это функция типа, которая разбивает элементы на несколько классов. Мы будем также называть функцию K классификатором, или решающим правилом. В дальнейшем будет рассмотрен случай бинарной классификации, а функция будет называться индикаторной.

В этом случае вся выборка S разбивается на две подвыборки:

Положительные примеры (или первый класс) и

- отрицательные примеры (или второй класс). Именно эта информация и подводит к физической, программной реализации алгоритма AdaBoost. Подробнее об этом рассказывается в главе 2, там же можно проследить параллели между положительными и отрицательными подвыборками S И позитивными и негативными наборами изображений для тренировки каскада.

В некоторых случаях индикаторная функция классификации K задается с Помощью некоторой вещественной функции f и числа

:.

Строго говоря, пары (x; y) являются реализациями случайной величины (X;Y), которая имеет распределение вероятностей P. Плотность распределения P будет обозначаться так же, как и P(x; y).

Предсказательная способность произвольной функции классификации K будет оцениваться по ошибке классификации, которая определяется как вероятность неправильной классификации:

,

Где K(X) - функция от случайной величины X, также является случайной величиной, поэтому можно рассматривать вероятность события.

Основная цель при решении задачи классификации - для заданного класса функций классификации K построить оптимальный классификатор, т. е. такую функцию классификации, при которой ошибка классификации является наименьшей в классе K.

Похожие статьи




Алгоритмы детектирования объектов на видео для мобильных платформ, Обучение с учителем и формальная запись задачи классификации - Исследование алгоритмов

Предыдущая | Следующая