Методология исследования и анализ данных, Описание моделей - Моделирование спроса на телекоммуникационные услуги

Как уже было сказано в предыдущих частях работы, исследование включает в себя предварительный анализ данных и оценку двух эконометрических моделей. В данной части подробно описаны методология исследования и представлены результаты анализа массива данных.

Описание моделей

Выбранные модели относятся к классу моделей дискретного выбора с множественным откликом. Такие модели подразумевают наличие более двух альтернатив. В данном случае множество альтернатив представляет собой семь тарифных планов. Модели с множественным откликом созданы для описания вероятности каждого из возможных исходов в виде функции от интересующих исследователя параметров. Основная цель состоит в том, чтобы описать эти вероятности ограниченным числом неизвестных параметров.

Модели Mixed и Nested логит относятся к моделям множественного неупорядоченного отклика. Такие модели называют мультиномиальными. В них предполагается, что невозможно логическим способом упорядочить альтернативы. В контексте данной работы действительно сложно представить принцип, по которому можно было бы логически упорядочить тарифные планы. Отправным пунктом для такого типа моделей является случайная структура полезности, в которой полезность каждой альтернативы задается линейной функцией наблюдаемых характеристик и аддитивного остатка, "вбирающего" в себя все ошибки спецификации. Предполагается, что индивиды выбирают ту альтернативу, которая приносит им максимальную полезность. Если задать предположения об общем распределении аддитивных остатков, можно рассчитать выражения для вероятностей модели.

Mixed logit модель

Остановимся на формализации модели. Пусть у N абонентов в каждом месяце существует выбор из M альтернатив (тарифов). Обозначим уровень полезности, который абонент i присваивает каждому тарифу, индексированному как j, в месяце t как UIjt , где j=1, 2, ...M; t=1, 2, ...T. Тогда, руководствуясь принципом максимизации полезности, заложенном в предпосылках, индивид выбирает тот тарифный план, который максимизирует его полезность, то есть если UIjt = max{UI1t , ..., UIMt }. Естественно данные уровни полезности не наблюдаются исследователем и даже самим индивидом. Поэтому введем предположение относительно структуры функции полезности. Пусть полезность абонента от использования услуг сотовой связи выражена следующим образом:

(2)

Где: - нестохастическая функция наблюдаемых переменных и неизвестных параметров;

- ненаблюдаемый случайный остаток.

Тогда вероятность выбора i-м абонентом j-ого тарифа в момент t выражается следующими равенствами:

Для того чтобы оценить вероятность необходимо сделать предположение относительно ее случайной компоненты. Для расчетов удобно предположить, что все взаимно независимы и подчиняются логарифмическому распределению экстремальных значений типа I (так же известное как распределение Гумбеля). Как известно, такое распределение является классическим при использовании мультиномиальных моделей (Вербик, 2008), (Cameron, Trivedi, 2009), (Long, Freese, 2001), (Nevo, 2001), (Ben-Akiva, Lerman, 1985). В этом случае функция распределения каждого имеет вид

(4)

И не включает неизвестные параметры. В таких предположениях можно рассчитать вероятность выбора тарифного плана.

. (5)

Из (5) следует, что каждая вероятность находится в промежутке от 0 до 1, и что сумма всех вероятностей равна единице. Распределение ошибки отражает масштабный параметр полезности, но не параметр локализации. Чтобы решить вопрос локализации необходимо произвести нормировку одного из уровней полезности к нулю. Например, пусть. Тогда мы получаем:

. (6)

Перейдем к анализу второй компоненты функции полезности, нестохастической функции наблюдаемых переменных и неизвестных параметров. Наблюдаемые характеристики могут быть как индивидуальными, то есть описывающими индивида, так и характеристиками специфицированных альтернатив. Например, параметром второго типа является стоимость одной и той же услуги на разных тарифных планах. В нашем случае, в модель необходимо включить как индивидуальные характеристики, так и характеристики альтернатив.

Для объяснения выбора тарифного плана используются следующие параметры тарифов:

Стоимость звонков внутри сети;

Стоимость звонков на номера фиксированной телефонной связи;

Стоимость звонков на номера других сотовых операторов;

Стоимость SMS сообщений внутри сети;

Стоимость SMS сообщений на номера фиксированной телефонной связи;

Стоимость SMS сообщений на номера других сотовых операторов.

Таким образом, в модели используется шесть характеристики специфицированных альтернатив.

Отрицательный коэффициент перед конкретной характеристикой будет означать уменьшение полезности от использования тарифного плана при изменении данного параметра. Например, согласно второй гипотезе, полезность от использования тарифного плана с поминутной тарификацией резко уменьшается при увеличении затрат абонента на звонки внутри сети. Следовательно, если стоимость звонков по одному тарифу уменьшается, при неизменных ценах на других, то эта альтернатива получит более высокую вероятность выбора. Включение данных характеристик в модели позволит ответить на поставленные исследовательские вопросы.

Так же предполагается включение в модель личностных характеристик. Конечно, было бы интересно учесть некоторые демографические показатели, такие как возраст, пол или доход, однако, такие данные для нас недоступны. В основном в силу того факта, что действительный пользователь телефонного номера не всегда совпадает с его юридическим владельцем. К тому же данная информация часто не запрашивается или не верифицируется при регистрации нового абонента. Поэтому единственной индивидуальной характеристикой абонента является интенсивность его территориального передвижения, выраженная представленным выше индексом мобильности.

Оцененный коэффициент перед личностным параметром будет показывать, что, при прочих равных условиях, более мобильные люди склонны выбирать тарифы с абонентской платой, предполагающие большие объемы потребления услуг сотовой связи.

Именно наличием личностной характеристики объясняется выбор Mixed logit. Такая модель была предложена как расширение модели условного логита, в которой невозможен учет характеристик индивидов. Коэффициент мобильности входит в модель не в чистом виде, а как декартово произведение с единичной матрицей альтернатив. Это позволяет интерпретировать коэффициент в сравнительном ключе. То есть оценивать насколько выше вероятность выбора одного тарифа, а не второго при изменении мобильности.

Nested logit модель

Теперь подробно опишем особенности Nested logit модели. Ее главное отличие состоит в множестве альтернатив. Предпосылкой данной модели является тот факт, что индивиды рассматривают альтернативы не как отдельные возможности для выбора. А группируют их по какому-либо принципу.

В данной работе мы предполагаем, что абоненты дифференцируют существующие тарифы по предполагаемому минимальному объему потребления, необходимого для выгодного использования ценовой схемы. То есть подсознательно пользователи делят тарифы на те, которые предназначены для активного использования услуг сотовой связи и нет. Предположить по какому формальному принципу происходит деление довольно сложно, поэтому в нашей работе введена предпосылка о том, что таким формальным признаком является наличие или отсутствие абонентской платы. Это означает, что множество альтернатив теперь представляет собой декартово произведение типов потребления (высоки или низкий) и множества всех тарифов. На рисунке 1 представлена структура множества выбора.

структура множества выбора

Рис. 1. Структура множества выбора

Первый уровень структуры - это определение типа потребления, второй уровень - подмножество тарифов, ассоциированных с выбранным на предыдущем уровне типом.

Таким образом, для данной модели вероятность выбора определенной альтернативы это произведение вероятности определения одной из двух групп тарифов (уровней потребления) и условной вероятности выбора конкретного тарифа из подмножества данной группы. Формально ее можно выразить следующей формулой:

Где: i - конкретная альтернатива;

CN - это все множество альтернатив;

CMn - множество уровней потребления.

Несмотря на привлекательность аналитических выражений обеих логит-моделей, у каждой из них есть существенный недостаток, возникающий из предположения о том, что все случайные ошибки являются независимыми. Это означает, что уровни полезности любых двух альтернатив независимы. Это предположение особенно уязвимо, если альтернативы очень похожи и мало различимы индивидами. Например, если бы существовало два тарифных плана с одинаковыми ценовыми характеристиками, но различавшихся только названиями. Естественно ожидалось бы, что высокая полезность одного тарифа подразумевает высокую полезность другого. Это означало бы, что отношение вероятности двух альтернатив не зависит от характеристик любой из других альтернатив. Тогда отношение вероятности выбора двух разных тарифов (a и b) имеет вид:

(8)

Данное соотношение должно выполняться независимо от того, является ли третий тариф идентичным тарифу a или b, или же представляет собой отличный от них, уникальный тарифный план. Данное свойство мультиномиальных моделей называется "независимостью нерелевантных (несущественных) альтернатив". Ослабление данного свойства приводит к более сложным в концептуальном и вычислительном отношении моделям. Поэтому в прикладной работе очень часто используется мультиномиальная логит-модель.

Метод оценивания обеих моделей классический для логистических регрессий - метод максимального правдоподобия.

Похожие статьи




Методология исследования и анализ данных, Описание моделей - Моделирование спроса на телекоммуникационные услуги

Предыдущая | Следующая