Анализ влияния впечатлений потребителей гостиничных услуг на лояльность, Выбор метода сбора и анализа данных - Управление впечатлениями потребителей в гостиничной индустрии

Выбор метода сбора и анализа данных

В данной главе будет проанализировано, какие впечатления людей об отеле связаны с их желанием рекомендовать его или вернуться туда вновь. Лояльность человека к конкретной гостинице может формироваться под воздействием самых различных факторов и особенностей: от внешнего вида до мельчайших деталей дизайна. Найденные для исследования данные позволяют узнать, какие особенности отелей формируют приверженность к нему. Приверженность будет измеряться двумя способами: желанием человека порекомендовать отель и желанием человека вернуться в отель.

Подходы к анализу данных

Первый метод, который обычно применяется для исследования влияния набора переменных на одну зависимую переменную, это регрессионный анализ. Он наиболее удобен, поскольку позволяет изучить влияние сразу множества переменных, в отличие от методов изучения связи между двумя переменными. Существует множество видов регрессий, в зависимости от переменных, которые исследуются: классическая, бинарная, мультиномиальная, а также регрессии с фиктивными переменными. В данном исследовании зависимая переменная измерена по интервальной шкале, то есть ее значения, могут сопоставляться и с ними могут производиться арифметические операции (вычитание и складывание). Если зависимая переменная интервальная, то применяется классическая регрессия.

Независимые переменные измерены также по интервальной шкале, а это значит, что нет необходимости создавать фиктивные переменные и можно применять классическую линейную регрессию без изменения переменных.

Применение метода регрессии требует ряда проверок модели на ограничения:

Проверка на нормальность распределения регрессионных остатков. Нормальное распределение позволяет нам применять методы статистического анализа. Если распределение не является нормальным, то мы не можем применять метод регрессионного анализа. Нормальность распределения можно проверить графически при построении гистограммы.

Проверка на гомоскедастичность, то есть равную дисперсию остатков. Проверяется при помощи значения R-квадрат.

Проверка на отсутствие мультиколлинеарности, то есть корреляции между независимыми переменными. Корреляция между переменными приводит к смещению результатов.

Второй метод, который можно применить в данной работе - это метод измерения связи через коэффициент корреляции Пирсона. Существует несколько видов коэффициентов корреляции:

Хи-квадрат. Применяется для измерения связи между номинальными переменными. Данный подход помогает лишь определить, есть ли статистическая связь.

Коэффициенты ранговой корреляции Кендела и Спирмена применяются для изучения связи между порядковыми переменными и могут свидетельствовать только о наличии монотонной связи.

Коэффициент корреляции Пирсона применяется для изучения линейной связи между интервальными переменными.

В связи с тем, что в работе используются интервальные переменные, для исследования будет применяться коэффициент корреляции Пирсона.

Существует большое количество способов описания данных. Они делятся на две группы: меры средней тенденции распределения значений признака и меры разброса значений признака.

Меры средней тенденции распределения

Меры центральной тенденции указывают на местоположение среднего, или типичного значения признака, вокруг которого группируются все остальные наблюдения.

Мода -- значение в совокупности случаев, которое встречается чаще всего. Для номинальных переменных мода -- это единственная возможность продемонстрировать наиболее типичное, распространенное значение. Также может считаться для интервальных и порядковых переменных.

Квантиль - значение признака, которое делит диапазон его изменения на две части так, чтобы отношение числа единиц выборки, имеющих значение признака, меньшее q, к числу единиц, имеющих значение признака, большее q, равнялось заранее заданной величине. Наиболее популярными квантилями являются квартили, делящие диапазон изменения признака на 4 равнонаполненные части; децили, делящие на 10 равнонаполненных частей; процентили, которые делят на 100 равных частей. Используется для интервальных переменных.

Медиана -- это значение, которое делит упорядоченную совокупность данных пополам, так что одна половина наблюдений является меньше медианы, а другая -- больше. Иными словами, медиана -- это 50-й процентиль распределения. Обычно используется для порядковых переменных, т. е. таких переменных, значения которых могут быть упорядочены от меньших к большим. Также может считаться и для интервальной переменной.

Среднее арифметическое - представляет собой сумму всех значений, деленную на количество наблюдений. Используется для интервальной шкалы.

Меры разброса значений признака

Данные расчеты используются для того, чтобы продемонстрировать насколько выражены отклонения от типичных значений. В этой работе не использовались показатели разброса, поэтому они будут описаны кратко. Чаще всего используются следующие меры разброса:

Дисперсия. Используется для анализа интервальных шкал.

Квартильный размах. Используется для анализа порядковых переменных.

Мера качественной вариации. Используется для анализа номинальных шкал.

Для описания данных в этой работе использовались следующие показатели: среднее, мода, максимальное и минимальное значение.

Шкалы для измерения данных

Для анализа данных необходимо четко понимать характеристики данных и шкалы, по которым они измерены, поскольку это определяет допустимые статистические методы анализа. Под шкалой измерения понимается правило, которое определяет, как при измерении конкретным объектам приписываются числовые значения. Шкалы могут быть номинальные, порядковые и интервальные.

Номинальные шкалы применяются при качественной классификации данных. Переменные, которые измерены по этой шкале, могут включать только категории или классы сильно отличающиеся друг от друга, которые не могут сравниваться между собой или быть упорядочены. Наиболее часто используются такие номинальные переменные, как: пол, цвет, национальность, город и т. д. Иногда номинальные переменные также называются категориальными. Эта шкала допускает взаимно-однозначные преобразования. В нашем случае номинальные переменные - это отзывы посетителей, которые описывают впечатление от отеля и нельзя сопоставлять их или применять к ним арифметические операции. Можно применять только аналитическое обобщение и контент-анализ.

Порядковые шкалы используются для ранжирования (упорядочивания) объектов, указывая какие из них в той или иной мере обладают характеристиками, выраженными этой переменной. Тем не менее эта шкала не предоставляет возможности делать выводы "на сколько больше" или "на сколько меньше". Порядковые переменные часто называются ординальными. Наиболее часто используются такие порядковые переменные, как: материальное положение семьи, уровень образования или должность в фирме. Например, мы можем сказать, что высшее образование находится по смысловой нагрузке выше среднего образования, тем не менее мы не можем сказать на сколько процентов оно находится выше. Эта шкала допускает монотонно-возрастающие преобразования. В данной работе не используется порядковая шкала.

Интервальная шкала позволяет как упорядочивать объекты измерения, так и выражать их численно и сравнивать их. Наиболее часто используются такие интервальные переменные, как: заработная плата, измеренная в рублях; даты или количество людей. Эта шкала допускает положительные линейные преобразования и ее за это называют шкалой высокого типа, а порядковую и номинальную шкалами низкого типа. В данной работе все отзывы посетителей были оценены по 10-ти балльной шкале в зависимости от характера эмоций (положительные отрицательные) и силы эмоций. Таким образом, используемые переменные измерены по интервальной шкале, поэтому мы имеем право применять довольно широкий спектр методов статистического анализа данных.

Описание базы данных

Перед описанием выборки данного исследования опишем генеральную совокупность в целом. Генеральная совокупность - это совокупность всех возможных социальных объектов, которые подлежат изучению в рамках программы конкретного социологического исследования. В данном исследовании генеральной совокупностью являются все 4-х и 5-ти звездочные отели Москвы. Поскольку сплошные исследования проводятся очень редко и требуют слишком больших материальных и временных затрат, то применяется метод выборки из генеральной совокупности. Выборочное исследование - исследование, в котором обследуется только часть объектов, из всех подлежащих изучению, при этом его результаты распространяются на генеральную совокупность объектов. Выборочный метод применяется при выполнении следующих условий:

Каждый объект совокупности должен иметь ненулевую вероятность, чтобы попасть в выборку;

Для каждого объекта, попавшего в выборку, должна быть известна вероятность, с которой он попал в выборку.

Существует два основных типа выборок: вероятностная и невероятностная и каждая из них включает несколько вариантов построения.

Вероятностная выборка:

Наилучшей моделью отбора элементов считается вероятностная, или случайная, выборка, в ней строго соблюдается принцип равенства шансов попадания в выборку, как для всех единиц исследуемой совокупности, так и для любых последовательностей этих единиц.

Простая случайная выборка.

Процедура построения простой случайной выборки подразумевает следующие шаги: во-первых, нужно иметь полный пронумерованный список элементов генеральной совокупности. Во-вторых, необходимо определить предполагаемый объем выборки, т. е. ожидаемое число опрошенных. В-третьих, нужно определить при помощи таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно быть 200 человек, то из таблицы берется 200 случайных чисел. В-четвертых, нужно отобрать из полученного списка те наблюдения, номера которых соответствуют отобранным случайным числам.

Однако, в случае большого объема генеральной совокупности возникают проблемы с обеспечением равной вероятности попадания элементов в выборку и избегания смещения выборки.

Систематическая выборка.

По качеству часто сходна с простой случайной. Систематическая выборка, так же, как и простая случайная, требует полного списка и заданного упорядочения совокупности. Сначала случайным образом отбирается первая единица, далее отбирается каждый k-й элемент. Число k в при этом называют шагом отбора.

Можно, к примеру, отбирать каждый 10-й или каждый 100-й элемент. Чтобы определить шаг отбора, надо разделить известный объем генеральной совокупности (N) на предполагаемый объем выборки (n). Необходимо отобрать "начальную" единицу полностью случайным образом. Именно на этом шаге возникают трудности в систематическом отборе. Если в способе упорядочения элементов совокупности имеет место цикличность, т. е. систематический паттерн, а случайность в выборе "начальной единицы" должным образом не обеспечена, то выборка, которую мы получим, может также оказаться смещенной (если о систематическом паттерне мы предупреждены заранее, то он не представляет собой угрозы валидности и будет учтен в ходе отбора).

Стратифицированный отбор и соответственно стратифицированная выборка применяются в тех случаях, когда из каких-либо содержательных соображений необходимо обеспечить представительность вероятностной выборки по каким-либо нужным для исследовательских целей характеристикам.

Стратификацией, точнее говоря, называют процедуру, при которой отбор осуществляется как бы из нескольких "параллельных" подсовокупностей, выбранных на одной и той же генеральной совокупности.

Кластерная выборка.

Четвертый тип вероятностной выборки, используемой в научных исследованиях - это кластерная выборка. "Кластеры" - это естественные группы единиц наблюдения. Цель использования данной выборки, таким образом, состоит в повышении эффективности расходов ресурсов на проведение исследования. При ограниченном бюджете и объеме выборки исследователь получает возможность уменьшить расходы на проведение личных интервью, за счет уменьшения транспортных расходов. В общем, кластерная выборка основывается на изначальном отборе группировок (кластеров) и далее -- на изучении всех элементов внутри кластеров.

Невероятностная выборка

По-другому часто называется целевым отбором, поскольку связана с отбором случаев, исходя из целей исследования и основана не на принципах рандомизации, а на следовании личному интересу исследователя. Основной недостаток подобного отбора связан с тем, что нет строгих статистических методов, которые позволяют обобщать результаты, полученные в результате исследования выборки. Оценка точности и валидности полученных результатов остается делом субъективного анализа и умозаключений, опыта, теоретической рамки.

Выделяются следующие виды невероятностой выборки:

Выборка доступных случаев

В социологии данной выборкой чаще всего пользуются при изучении таких специфических популяций, которые практически не поддаются локализации. Данный отбор случаев подразумевает отбор единиц анализа среди наиболее доступных и досягаемых групп, при этом может происходить смещение данных, поскольку мы абсолютно не охватываем труднодоступные единицы, которые могут демонстрировать отличные характеристики.

Отбор "критических случаев" и отбор "типичных случаев"

В обоих вариантах исследователь полагается на определенные теоретические представления или опыт предыдущих исследований, для того чтобы отобрать ограниченное число "симптоматических", характерных наблюдений, которые позволят сделать более широкие обобщения и предсказания.

Метод "снежного кома"

Еще один подход к отбору из "редких" совокупностей. Его смысл заключается в следующем: первоначально определенная небольшая группа членов интересующей исследователя совокупности служит источником информации о других членах этой совокупности, за счет этого выборка постепенно расширяется подобно снежному кому, который катится с горы.

Квотная выборка

Изучаемая совокупность делится на социально-демографические группы, которые исследователь считает важными, исходя из программы исследования. Чаще всего критериями разбивки становятся пол, национальная принадлежность, возраст, место жительства и т. п. Потом, основываясь на уже известных пропорциях данных групп в генеральной совокупности, исследователь составляет задания для интервьюеров, указывая, сколько лиц, относящихся к каждой из групп необходимо опросить. Основная проблема данного отбора состоит в том, что он носит неслучайный характер и реализуется самим интервьюером. Еще один недостаток квотного отбора заключается в том, что обычно трудно даже приблизительно оценить количество людей, отказавшихся принимать участие в опросе.

В настоящем исследовании использовалась невероятностная выборка доступных случаев, а именно отбирались 100 отелей. Однако сайт выбирался при помощи отбора "критических случаев", поскольку является одним из наиболее успешных и популярных сервисов в России.

Данные для настоящего анализа взяты с сайта booking. com. Было отобрано 95 4-х и 5-ти звездочных отелей Москвы. По каждому отелю собирались последние 100 отзывов, в которых респонденты делились своими впечатлениями о пребывании в отеле. Также отмечалось количество отзывов, содержащих следующие фразы: уже был/была, обязательно приеду еще и рекомендую этот отель. Данные фразы характеризуют лояльность и желание рекомендовать отель. Далее всем отзывам была присвоена оценка от 1 до 10 в зависимости от характера эмоций (положительные отрицательные) и силы эмоций. Собранные комментарии дали основу для разделения впечатлений на 7 типов:

Чистота (отзывы постояльцев, в которых содержались фразы: уборка номеров, чистота в отеле и др);

Атмосфера (отзывы постояльцев, в которых содержались фразы: уютная атмосфера, наличие цветов, удобные кровати, интерьеры, шумоизоляция, хороший вид из окна, свежий ремонт и др.);

Месторасположение (отзывы постояльцев, в которых содержались фразы: удобнейшее, прекрасное, отличное месторасположение/расположение);

Инфраструктура (отзывы постояльцев, в которых содержались фразы: отличная сауна, прекрасный спа, хамам, шикарный ресторан, вкусная еда, бассейн, фитнес, джакузи и вкусный и разнообразный завтрак, питание, шведский стол.);

Персонал (отзывы постояльцев, в которых содержались фразы: приветливый отзывчивый персонал, готов выполнить любую просьбу, заботливый, улыбчивый, доброжелательный персонал, хорошее отношение персонала, быстрое оформление, сервис, компетентные работники и др);

Соотношение цены и качества (отзывы постояльцев, в которых содержались фразы: цена/качество, скидки, хорошая цена и др.);

Бесплатный WiFi (отзывы постояльцев, в которых содержались фразы: хороший интернет, хороший трафик интернета и др) .

Количество людей, желающих рекомендовать конкретный отель или вернуться туда оценивалось по тому же количеству комментариев, что и впечатления постояльцев о пребывании в отеле и встречающимся там словам с подобным смысловым содержанием.

Данная база данных не является в полной степени репрезентативной, поскольку на сайте booking. com могут быть предложены не все отели Москвы, 95 отелей отбирались не случайным образом и не могут в полной мере отображать генеральную совокупность. Оценивание желания вернуться и рекомендовать оценивалось по комментариям, которые могли быть исправлены, удалены или быть необъективными.

Подобные особенности базы данных не позволяют с уверенностью распространять данные на всю совокупность московских отелей, однако позволяют нам делать выводы о наличествующей совокупности отелей и с некоторой долей вероятности судить о всех отелях и характеристиках, которые способствуют приверженности.

Выбор метода сбора и анализа данных

Похожие статьи