Режимы подкрепления - Использование позитивного и негативного подкрепления в практике управления современных организаций

Для Б. Ф. Скиннера подкрепить поведение означает осуществить манипуляцию, меняющую вероятность такого поведения в будущем. Поэтому его особый интерес был сосредоточен в основном на изучении особенностей (реакций и их связей с процентами подкреплений) и интервалами между ними, т. е. на изучении режимов подкрепления.

Как уже отмечалось, суть оперантного научения состоит в том, что подкрепленное поведение стремится повториться, а поведение неподкрепленное или наказуемое имеет тенденцию не повторяться или подавляться.

Поведение становится понятным, если его можно контролировать, внося определенные изменения в условия среды. Понять поведение - значит управлять им. Управление поведением, осуществляется через выбор типа реакции, которую необходимо подкрепить, и определения степени вероятности ее повторного появления. Скорость, с которой оперантное поведение приобретается и сохраняется, зависит от режима применяемого подкрепления.

Режим подкрепления - правило, устанавливающее вероятность, с которой подкрепление будет происходить. Режим подкрепления можно построить, опираясь на два параметра: задавая определенный временной интервал илиопределенный интервал реакций.

Режимы подкрепления изучались Б. Ф. Скиннером в экспериментах на голубях в специально оборудованной камере ("ящике").

Самым простым правилом, относящимся к первому параметру, является предъявление подкрепления каждый раз, когда организм дает желаемую реакцию. Это называется режимом непрерывного подкрепления и обычно используется на начальном этапе любого оперантного научения, когда организм учится производить правильную реакцию.

В большинстве ситуаций повседневной жизни, однако, это либо неосуществимо, либо неэкономично для сохранения желаемой реакции, так как подкрепление поведения бывает не всегда одинаковым и регулярным. В большинстве случаев социальное поведение человека подкрепляется только иногда. Например, ребенок плачет неоднократно, прежде чем добьется внимания матери. Ученый много раз ошибается, прежде чем приходит к правильному решению трудной проблемы. В обоих этих примерах неподкрепленные реакции встречаются до тех пор, пока одна из них не будет подкреплена.

В случае если задается интервал времени или реакций, т. е. определенное соотношение времени и реакций или подкреплений и реакций, подкрепления появляются после того, как прошло какое-то время или выполнено определенное число реакций (например, нажатий на рычаг или на ключ) - режим интервального подкрепления.

Таким образом, подкрепления не обязательно следуют после каждого ответа, а могут подаваться лишь время от времени. Более того, подкрепления могут подаваться в регулярном, или фиксированном, режиме - всегда через определенный интервал времени или всегда после определенного количества реакций, либо их можно подавать в переменномрежиме - то через одну минуту, то через две, то после пары реакций, то после серии реакций. Каждая схема, или режим подкрепления, как правило, стабилизирует поведение по-разному. мотивационный подкрепление скиннер

Б. Ф. Скиннер тщательно изучал, как режим прерывистого, или частичного, подкрепления влияет на оперантное поведение. Хотя возможны многие различные режимы подкрепления, их все можно классифицировать в соответствии с двумя названными основными параметрами:

    1) подкрепление может иметь место только после того, как истек определенный или случайный временной интервал с момента предыдущего подкрепления (так называемый режим временного подкрепления), 2) подкрепление может иметь место только после того, как с момента подкрепления было получено определенное или случайное количество реакций (режим пропорционального подкрепления).

В соответствии с этими двумя параметрами выделяют четыре основных режима подкрепления (Таблица 2).

Таблица 2. Режимы подкрепления

Пропорциональные режимы

Режим с фиксированной пропорцией

Подкрепление дается после определенного количества реакций

Режим с вариативной пропорцией

Подкрепление дается после определенного количества реакций, количество которых непредсказуемо варьируется

Интервальные режимы

Режим с фиксированным интервалом

Подкрепление дается через определенное время, прошедшее после предыдущего подкрепления

Режим с вариативным интервалом

Подкрепление дается через определенное время, прошедшее после предыдущего подкрепления, при этом продолжительность интервалов непредсказуемо варьируется

1. Режим подкрепления с фиксированной пропорцией (ФП). В данном режиме организм подкрепляется по наличию заранее определенного или "постоянного" числа соответствующих реакций. Если это число составляет 5, то это значит, что подкрепление последует по совершении 5 реакций, если оно равно 50, потребуется совершить 50 реакций, и т. д. Было установлено, что, чем выше пропорция, тем с большей частотой организм реагирует, особенно если его первоначально тренировали при относительно низком коэффициенте, а затем непрерывно увеличивали коэффициент до величины 100. Пожалуй, самая примечательная особенность поведения при режиме с ФП состоит в том, что сразу после очередного подкрепления в росте реакций наступает пауза (см. рисунок 1). Трудно начать совершать какие-то действия сразу после того, как сделано их достаточно, чтобы получить вознаграждение.

Режим ФП обычно устанавливает чрезвычайно высокий оперантный уровень, так как чем чаще организм реагирует, тем большее подкрепление он получает. Считается, что этот режим лучший для освоения нового поведения.

режим подкрепления с фиксированной пропорцией

Рисунок 1 - Режим подкрепления с фиксированной пропорцией

2. Режим подкрепления с фиксированным интервалом (ФИ). В режиме подкрепления с постоянным интервалом организм подкрепляется после того, как твердо установленный или "постоянный" временной интервал проходит с момента предыдущего подкрепления. Например, при данном режиме подкрепление дается только по истечении 5 минут после последней подкрепленной реакции; реакции в течение этого пятиминутного интервала проходят без последствий (рисунок 2). Любопытно, что режим ФИ дает низкую скорость реагирования сразу после того, как получено подкрепление - феномен, названный паузой после подкрепления. Это показательно для студентов, испытывающих трудности при обучении в середине семестра (предполагается, что они сдали экзамен хорошо), так как следующий экзамен будет еще нескоро. Они буквально делают перерыв в обучении. Примечательно, что эта пауза, возникающая сразу после подкрепления, может быть даже длиннее, чем пауза при режиме ФП.

Еще одна особенность реагирования при режиме ФИ - это возрастание частоты реакций по мере приближения окончания периода. Например, еженедельная выдача денег ребенку на карманные расходы образует ФИ форму подкрепления. Университеты обычно работают в соответствии с временным режимом ФИ. Экзамены устанавливаются на регулярной основе и отчеты об академической успеваемости издаются в установленные сроки.

режим подкрепления с фиксированным интервалом

Рисунок 2 - Режим подкрепления с фиксированным интервалом

3. Режим подкрепления с вариативной пропорцией (ВП). В этом режиме организм подкрепляется на основе какого-то в среднем предопределенного, но не предсказуемого числа реакций. Этот режим считается наиболее эффективным, если необходимо поддерживать поведение в течении длительного времени. Так, при режиме ВП количество реакций, требуемых для подкрепления, иногда составляет 1, иногда 10, а в среднем 5. В отличие от поведения при режиме с ФП, при режиме с ВП не наблюдается пауз в росте реакций (рисунок 3), предположительно потому, что у организма нет возможности определить, что подкрепление появится нескоро.

режим подкрепления с вариативной пропорцией

Рисунок 3 - Режим подкрепления с вариативной пропорцией

4. Режим подкрепления с вариативным интервалом (ВИ). В этом режиме организм получает подкрепление после того, как проходит неопределенный временной интервал, длительность которого непредсказуема. Подобно режиму ФИ, подкрепление при этом условии зависит от времени. Однако время между подкреплениями по режиму ВИ варьирует вокруг какой-то средней величины, а не является точно установленным. Как правило, скорость реагирования при режиме ВИ является прямой функцией примененной длины интервала: короткие интервалы порождают высокую скорость, а длинные интервалы порождают низкую скорость. Также при подкреплении в режиме ВИ организм стремится установить постоянную скорость реагирования, и при отсутствии подкрепления реакции угасают медленно. В конечном итоге, организм не может точно предвидеть, когда будет следующее подкрепление (рисунок 4).

режим подкрепления с вариативным интервалом

Рисунок 4 - Режим подкрепления с вариативным интервалом

В повседневной жизни режим ВИ встречается нечасто, хотя несколько его вариантов можно наблюдать. В качестве примера режима ПИ в повседневной жизни можно привести дозванивание по занятому номеру. Чтобы получить подкрепление (дозвониться), надо подождать какое-то время после последней реакции (набора номера); сколько придется ждать в целом -- непредсказуемо. Родитель, например, может хвалить поведение ребенка довольно произвольно, рассчитывая, что ребенок будет продолжать вести себя соответствующим образом и в неподкрепленные интервалы времени. Подобно этому, преподаватели, которые дают "неожиданные" контрольные работы, частота которых варьирует от одной в три дня до одной в три недели, в среднем одна в две недели, используют режим ВИ. При этих условиях от студентов можно ожидать сохранения относительно высокого уровня прилежания, так как они никогда не знают, в какой момент будет следующая контрольная работа.

Как правило, режим ВИ порождает более высокую скорость реагирования и большую сопротивляемость угасанию, чем режим ПИ.

Кроме того, в результате экспериментов Б. Ф. Скиннер выявил целый ряд закономерностей:

    - чем короче временной интервал между подкреплениями, тем чаще животное проявляет обусловленную реакцию и, наоборот, по мере того, как увеличивается интервал между подкреплениями, частота реакции снижается; - проявление условной реакции угасает с большей скоростью, если имело место непрерывное подкрепление, которое затем резко было прекращено, чем в том случае, когда подкрепление выдавалось с перерывами (например, некоторые голуби демонстрировали до десяти тысяч реакций без подкрепления, если исходно у них был сформирован условный рефлекс па основе периодичного, прерывистого подкрепления); - животные, получающие поощрение по схеме с фиксированной частотой, реагируют намного интенсивнее, чем те, которые получают подкрепление по схеме с фиксированным интервалом.

По сути, теория оперантного научения представляет собой изощренную формулировку основных принципов дрессировки животных. Сложное поведение формируется через процесс последовательных приближений, т. е. сложные действия вырабатываются благодаря подкреплению тех элементов поведения, которые соответствуют той конечной форме поведения, какую хотят получить.

Одднако вскоре стало очевидным, что стандартная методика оперантного научения плохо подходила для большого числа сложных оперантных реакций, которые могли спонтанно встречаться с вероятностью, равной почти нулю.

В сфере поведения человека, например, сомнительно, что с помощью общей стратегии оперантного научения можно было бы успешно научить пациентов психиатрического отделения приобретать соответствующие навыки межличностного общения.

Для того, чтобы облегчить эту задачу, Б. Ф. Скиннер (1953) придумал методику, при которой психологи могли эффективно и быстро уменьшить время, требуемое для обусловливания почти любого поведения в том наборе, которым располагал человек. Эта методика, названная методом успешного приближения, или формированием поведения, состоит из подкрепления поведения, наиболее близкого к желаемому оперантному поведению. К этому приближаются шаг за шагом, и поэтому одна реакция подкрепляется, а затем подменяется другой, более близкой к желаемому результату.

Похожие статьи




Режимы подкрепления - Использование позитивного и негативного подкрепления в практике управления современных организаций

Предыдущая | Следующая