Множественная регрессия - Эконометрика как наука
Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан. Например, могло бы оказаться, что число спальных комнат является лучшим предсказывающим фактором (предиктором) для цены продажи дома в некотором специфическом районе, чем "привлекательность" дома (субъективная оценка). Могли бы также обнаружиться и "выбросы", т. е. дома, которые могли бы быть проданы дороже, учитывая их расположение и характеристики.
Специалисты по кадрам обычно используют процедуры множественной регрессии для определения вознаграждения адекватного выполненной работе. Можно определить некоторое количество факторов или параметров, таких, как "размер ответственности" (Resp) или "число подчиненных" (No_Super), которые, как ожидается, оказывают влияние на стоимость работы. Кадровый аналитик затем проводит исследование размеров окладов (Salary) среди сравнимых компаний на рынке, записывая размер жалования и соответствующие характеристики (т. е. значения параметров) по различным позициям. Эта информация может быть использована при анализе с помощью множественной регрессии для построения регрессионного уравнения в следующем виде:
Salary = .5*Resp + .8*No_Super
Как только эта так называемая линия регрессии определена, аналитик оказывается в состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.
В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в исследованиях. В общем, множественная регрессия позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, "что является лучшим предиктором для...". Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. А психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида.
Общая вычислительная задача, которую требуется решать при анализе методом множественной регрессии, состоит в подгонке прямой линии к некоторому набору точек. В простейшем случае, когда имеется одна зависимая и одна независимая переменная, это можно увидеть на диаграмме рассеяния.
Метод наименьших квадратов. На диаграмме рассеяния имеется независимая переменная или переменная X и зависимая переменная Y. Эти переменные могут, например, представлять коэффициент IQ (уровень интеллекта, оцененный с помощью теста) и достижения в учебе (средний балл успеваемости - grade point average; GPA) соответственно. Каждая точка на диаграмме представляет данные одного студента, т. е. его соответствующие показатели IQ и GPA. Целью процедур линейной регрессии является подгонка прямой линии по точкам. А именно, программа строит линию регрессии так, чтобы минимизировать квадраты отклонений этой линии от наблюдаемых точек. Поэтому на эту общую процедуру иногда ссылаются как на оценивание по методу наименьших квадратов.
Уравнение регрессии. Прямая линия на плоскости (в пространстве двух измерений) задается уравнением Y=a+b*X; более подробно: переменная Y может быть выражена через константу (a) и угловой коэффициент (b), умноженный на переменную X. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом. Например, значение GPA можно лучше всего предсказать по формуле 1+.02*IQ. Таким образом, зная, что коэффициент IQ у студента равен 130, вы могли бы предсказать его показатель успеваемости GPA, скорее всего, он близок к 3.6 (поскольку 1+.02*130=3.6).
В многомерном случае, когда имеется более одной независимой переменной, линия регрессии не может быть отображена в двумерном пространстве, однако она также может быть легко оценена. Например, если в дополнение к IQ вы имеете другие предикторы успеваемости (например, Мотивация, Самодисциплина), вы можете построить линейное уравнение, содержащее все эти переменные. Тогда, в общем случае, процедуры множественной регрессии будут оценивать параметры линейного уравнения вида:
Y = a + b1*X1 + b2*X2 + ... + bp*Xp
Однозначный прогноз и частная корреляция. Регрессионные коэффициенты (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в предсказание зависимой переменной. Другими словами, переменная X1, к примеру, коррелирует с переменной Y после учета влияния всех других независимых переменных. Этот тип корреляции упоминается также под названием частной корреляции (этот термин был впервые использован в работе Yule, 1907). Вероятно, следующий пример пояснит это понятие. Кто-то мог бы, вероятно, обнаружить значимую отрицательную корреляцию в популяции между длиной волос и ростом (невысокие люди обладают более длинными волосами).
На первый взгляд это может показаться странным; однако, если добавить переменную Пол в уравнение множественной регрессии, эта корреляция, скорее всего, исчезнет. Это произойдет из-за того, что женщины, в среднем, имеют более длинные волосы, чем мужчины; при этом они также в среднем ниже мужчин. Таким образом, после удаления разницы по полу посредством ввода предиктора Пол в уравнение, связь между длиной волос и ростом исчезает, поскольку длина волос не дает какого-либо самостоятельного вклада в предсказание роста помимо того, который она разделяет с переменной Пол. Другими словами, после учета переменной Пол частная корреляция между длиной волос и ростом нулевая. Иными словами, если одна величина коррелирована с другой, то это может быть отражением того факта, что они обе коррелированы с третьей величиной или с совокупностью величин.
Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Однако, природа редко (если вообще когда-нибудь) бывает полностью предсказуемой и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой (как это было показано ранее на диаграмме рассеяния). Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком.
Чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем, очевидно, лучше прогноз. Например, если связь между переменными X и Y отсутствует, то отношение остаточной изменчивости переменной Y к исходной дисперсии равно 1.0. Если X и Y жестко связаны, то остаточная изменчивость отсутствует, и отношение дисперсий будет равно 0.0. В большинстве случаев отношение будет лежать где-то между этими экстремальными значениями, т. е. между 0.0 и 1.0. 1.0 минус это отношение называется R-квадратом или коэффициентом детерминации. Это значение непосредственно интерпретируется следующим образом. Если имеется R-квадрат равный 0.4, то изменчивость значений переменной Y около линии регрессии составляет 1-0.4 от исходной дисперсии; другими словами, 40% от исходной изменчивости могут быть объяснены, а 60% остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости. Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных).
Интерпретация коэффициента множественной корреляции R.
Обычно, степень зависимости двух или более предикторов (независимых переменных или переменных X) с зависимой переменной (Y) выражается с помощью коэффициента множественной корреляции R. По определению он равен корню квадратному из коэффициента детерминации. Это неотрицательная величина, принимающая значения между 0 и 1. Для интерпретации направления связи между переменными смотрят на знаки (плюс или минус) регрессионных коэффициентов или B-коэффициентов.
Прежде всего, как это видно уже из названия множественной линейной регрессии, предполагается, что связь между переменными является линейной. На практике это предположение, в сущности, никогда не может быть подтверждено; к счастью, процедуры множественного регрессионного анализы в незначительной степени подвержены воздействию малых отклонений от этого предположения. Однако всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно рассмотреть или преобразования переменных или явно допустить включение нелинейных членов.
В множественной регрессии предполагается, что остатки (предсказанные значения минус наблюдаемые) распределены нормально (т. е. подчиняются закону нормального распределения). И снова, хотя большинство тестов (в особенности F-тест) довольно робастны (устойчивы) по отношению к отклонениям от этого предположения, всегда, прежде чем сделать окончательные выводы, стоит рассмотреть распределения представляющих интерес переменных. Вы можете построить гистограммы или нормальные вероятностные графики остатков для визуального анализа их распределения.
Выбор числа переменных. Множественная регрессия - предоставляет пользователю "соблазн" включить в качестве предикторов все переменные, какие только можно, в надежде, что некоторые из них окажутся значимыми. Это происходит из-за того, что извлекается выгода из случайностей, возникающих при простом включении возможно большего числа переменных, рассматриваемых в качестве предикторов другой, представляющей интерес переменной. Хотя большинство предположений множественной регрессии нельзя в точности проверить, исследователь может обнаружить отклонения от этих предположений. В частности, выбросы могут вызвать серьезное смещение оценок, "сдвигая" линию регрессии в определенном направлении и тем самым, вызывая смещение регрессионных коэффициентов.
Похожие статьи
-
Множественная регрессия - уравнение связи с несколькими независимыми переменными: где - зависимая переменная (результативный признак); - независимые...
-
Использование в экономических исследованиях методов регрессии и корреляции - Эконометрика как наука
Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Это объясняется простотой исследования...
-
Системы уравнений используемые в экономике - Эконометрика как наука
Объектом статистического изучения в социальных науках являются сложные системы. Измерение тесноты связей между переменными, построение изолированных...
-
Фиктивные переменные во множественной регрессии - Моделирование в эконометрике
До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может...
-
1. Определение параметров модели парной линейной регрессии методом наименьших квадратов 2. Оценка тесноты связи между переменными 3. Оценка качества...
-
Прогнозирование в регрессионных моделях - Эконометрика как наука
Моделирование в научных исследованиях стало применяться еще в глубокой древности и постепенно захватывало все новые области научных знаний: техническое...
-
Применим аппарат. Результаты приведены ниже Таблица 6. индексный анализ Рисунок 4. График сглаженного признака Полиномиальная регрессия Приведем массив...
-
Множественная линейная регрессия
Задание Линейный регрессия переменная детерминация Составить уравнение линейной регрессии, используя МНК, и найти числовые характеристики переменных....
-
Заключение - Эконометрика как наука
В заключении подведем основные итоги курсовой работы. Под моделирование понимается процесс построения, изучения и применения моделей. Оно тесно связано с...
-
Перспективы эконометрики - Эконометрика как наука
Прикладная эконометрика -- это весьма тонкое балансирование между экономической теорией, доступностью данных, предварительными идеями и, конечно,...
-
Временные ряды и прогнозирование - Эконометрика как наука
Временные ряды реализуют широкий набор методов описания, построения моделей, декомпозиции и прогнозирования временных рядов как во временной, так и в...
-
ПАРНАЯ РЕГРЕССИЯ - Многомерный статистический анализ
Это метод установления математической зависимости между одной метрической зависимой (критериальной) переменной и одной метрической независимой переменной...
-
Содержание и классификация динамических эконометрических моделей - Эконометрика как наука
Можно выделить два основных типа динамических эконометрических моделей. К модели первого типа относятся модели авторегрессии и модели с распределенным...
-
Экономический корреляционный регрессионный Парная линейная регрессия Парная регрессия характеризует связь между двумя признаками: результативным и...
-
Тадии парного регрессионного анализа можно представить на следующем рисунке ПОЛЕ КОРРЕЛЯЦИИ Это графическое изображение точек с координатами, которые...
-
Анализ взаимосвязи по временным рядам - Эконометрика как наука
Для того чтобы получить коэффициенты корреляции, характеризующие причинно-следственную связь между изучаемыми рядами, следует избавиться от так...
-
В состав системы эконометрических уравнений входят множество зависимых или эндогенных переменных и множество предопределенных переменных (лаговые и...
-
Нелинейные модели регрессии - Моделирование в эконометрике
Нелинейные модели регрессии и их линеаризация. 1. Типы нелинейных моделей: 2. Нелинейные модели линейные по объясняющим переменным и их линеаризация. 3....
-
Парная линейная регрессия и корреляция
Парная линейная регрессия и корреляция Задание 1 По имеющимся данным (таблица 1) изучите зависимость прибыли от выработки продукции на одного человека,...
-
Множественный регрессионный анализ товарооборота - Статистика розничного товарооборота
Теперь будем строить еще одну регрессию, но множественную. Учтем цепной индекс цен на товары в качестве одного из регрессоров. Построение регрессии Для...
-
Подсчитаем функцию эластичности по формуле В нашем случае или Значение эластичности в средней точке Показывает, что при изменении X на 1% Y меняется на...
-
Введение - Эконометрика как наука
Экономисты используют количественные данные для наблюдения за ходом развития экономики, ее анализа и прогнозов. Набор статистических методов,...
-
Подсчитаем функцию эластичности по формуле В нашем случае Или Значение эластичности в средней точке Показывает, что при изменении X на 1% Y меняется на...
-
Коэффициент детерминации - Математическое описание связи: регрессия, корреляция
Предположим, что экономические предпосылки и анализ расположения точек на корреляционном поле позволил нам выдвинуть гипотезу о том, что зависимость...
-
Множественный коэффициент корреляции - Основы научных исследований
Задача определения интенсивности или, как ее еще называют, тесноты связи между более чем двумя переменными относится к множественному корреляционному...
-
Будем моделировать среднегодовую численность занятого населения с помощью показателей общей численности населения и миграционного прироста Среднегодовая...
-
Эконометрика (задания выполнить в ППП Excel, по каждому пункту сделать выводы) Рассмотреть экономическое явление, в котором участвуют 2 фактора...
-
Эконометрика как наука - Эконометрика как наука
Эконометрика -- это наука, изучающая конкретные количественные и качественные взаимосвязи экономических объектов и процессов с помощью математических и...
-
Построение линейного уравнения парной регрессии
Задача Таблица 1 Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., Среднедневная заработная плата, руб., 1 78 133 2 82...
-
Нелинейный регрессионный анализ, Множественный регрессионный анализ - Основы научных исследований
Линейные по параметрам регрессионные модели можно использовать для аппроксимации нелинейных зависимостей путем их линеаризации с помощью базисных...
-
Принятие решений на основе уравнений регрессии - Основы эконометрики
Интерпретация Моделей регрессии осуществляется методами той отрасли знаний, к которой относится исследуемое явление. Но всякая интерпретация начинается...
-
Парная регрессия на основе метода наименьших квадратов и метода группировок - Основы эконометрики
Парная регрессия Характеризует связь между двумя признаками: результативным и факторным. Аналитически связь между ними описывается уравнениями: Прямой...
-
Задача регрессии. Метод наименьших квадратов Ищу функцию регрессии в виде (1*). Оценки коэффициентов нахожу с помощью Метода Наименьших Квадратов (МКВ),...
-
Для регрессии вида Найдем коэффициенты по формулам Вычислим Тогда Откуда Тогда линейная регрессия будет иметь вид Смысл коэффициента beta заключается в...
-
Множественный регрессионный анализ, Заключение - Система источников данных о населении
Будем моделировать среднегодовую численность занятого населения с помощью показателей общей численности населения и миграционного прироста Среднегодовая...
-
Модель парной линейной регрессии - Математическое описание связи: регрессия, корреляция
Предположим, что у нас есть все основания считать, что два экономических показателя взаимосвязаны. Например, уровень инфляции и уровень безработицы в...
-
Простая линейная регрессия - Моделирование в эконометрике
Простой регрессией называется односторонняя стохастическая зависимость результативной переменной только от одной объясняющей переменной: Простая линейная...
-
Корреляция и регрессия Вспомним, что зависимости называются вероятностными или стохастическими, если каждому набору факторов Х I соответствует множество...
-
Введение - Эконометрика продвинутый уровень
Объектом статистического изучения в социальных науках являются сложные системы. Измерение тесноты связей между переменными, построение изолированных...
-
Возьмем данные об инвестициях в основной капитал (млрд. руб.) Год Квартал Номер квартала Значение 2003 I 1 330 II 2 470,4 III 3 608,8 IV 4 773,7 2004 I 5...
Множественная регрессия - Эконометрика как наука