Подготовка данных для построения модели и статистический отбор объясняющих переменных - Анализ и прогнозирование уровня конкурентоспособности компаний строительного комплекса
Для анализа был выбран временной диапазон с 2004 года по 2014 год. В целях построения прогнозной модели собранные годовые данные были разделены на две выборки: обучающую (2004 - 2013 гг.) и тестовую (2014 год). При построении модели вероятности дефолта компании и дальнейшем тестировании качества полученной модели использовался годовой временной лаг, что соответствует рекомендациям БКБН. В рамках обучающей выборки для анализа были выбраны 1505 строительных непубличных компании, не имеющих пропусков в бухгалтерской и финансовой отчетности (из них 301 компания, допустившая дефолт). Тестовую выборку составляют 805 строительных компаний (из них 161 компания, допустившая дефолт в 2014 году). Для построения logit-модели используются панельные данные. Сразу стоит обратить внимание на вопрос полноты панели, которая заключается в наблюдении одних и тех же объектов в течение одного и того же времени. Так как по ходу анализа исследуемой выборки, каждый год "вылетают" дефолтные организации, то появилась проблема несбалансированности панели. Решение этой проблемы было достигнуто рассмотрением панели с замещением, впервые предложенной Biorn E. (1981). Смысл данного метода заключается в поддержании постоянного размера анализируемой выборки. Выбывающие из дальнейшего анализа из-за дефолта компании на каждом этапе (в каждом году) заменяются таким же количеством соразмерных организаций до этого не участвовавших в анализе. Таким образом, в ходе анализа дополнительно был реализован алгоритм в R, который сразу зарезервировал 301 аналог для дефолтных организаций обучающей выборки и по мере анализа данных каждого последующего года включал в дальнейший анализ ровно то количество компаний, которые допустили дефолт в анализируемом году. Данный подход препятствует истощению выборки (Ратникова, 2006). Так как logit-модель очень чувствительна к мультиколлинерности начнем анализ данных с ее анализа. Определим допустимый уровень парных корреляций (связанности) переменных 0,3 (см. табл.5), такой же, как был предложен в работе по моделированию вероятности дефолта российских банков при помощи логистической модели с панельной структурой данных (Карминский, 2012). Стоит отметить, что в ходе исследования будут построены модели двумя способами. Первый - отбор объясняющих переменных с помощью статистического анализа (отсутствие сильной корреляции между переменными, их сильная разделяющая способность и значимость), второй - включение объясняющих переменных в модель по одной из каждой группы (размер компании, рентабельность, ликвидность, деловая активность, финансовая устойчивость), также учитывая отсутствие сильной корреляции между переменными. Также для каждой из полученных такими подходами моделей будет проведен анализ значимости макроэкономических и институциональных переменных, а также проверка функциональной зависимости включенных переменных (квадратичная форма). Итак, для формирования первых спецификаций моделей по принципу статистического отбора переменных проведем тест на разделяющую способность между двумя группами (в данном случае - дефолтные и устойчивые компании) для каждой финансовой и институциональной переменной, чтобы в дальнейший анализ включать только те, значения которых имеют значимые различия между двумя группами. Для этих целей проведем дисперсионный анализ на разделяющую способность переменных, с помощью ANOVA-теста. Нулевая гипотеза H0: разделяющей способности между показателями нет, если P-value близко к нулю, то гипотеза Н0 отвергается и принимается альтернативная гипотеза о разделительной способности. Перед проведением анализа на разделение классов были отброшены статистические выбросы у относительных переменных не дефолтных компаний. Полученные результаты отражены в таблице 4 и будут использоваться для дальнейшего построения модели.
Таблица 4.
Разделяющая способность отобранных переменных
Переменные |
P-value в ANOVA-test |
Вывод |
Goldrule |
0.000713 *** |
Гипотеза о равенстве средних отвергается |
Ln_Netassets |
<2e-16 *** |
Гипотеза о равенстве средних отвергается |
Ln_rev |
2.71 e-07 *** |
Гипотеза о равенстве средних отвергается |
Liab_assets |
<2e-16 *** |
Гипотеза о равенстве средних отвергается |
Rev_cur_assets |
<2e-16 *** |
Гипотеза о равенстве средних отвергается |
Portion_fix_liab |
0.247 |
Гипотеза о равенстве средних НЕ отвергается |
Turn_assets |
<2e-16 *** |
Гипотеза о равенстве средних отвергается |
Turn_ac_rec |
0.00148 ** |
Гипотеза о равенстве средних отвергается |
Turn_ac_pay |
0.00748 ** |
Гипотеза о равенстве средних отвергается |
ROA |
<2e-16 *** |
Гипотеза о равенстве средних отвергается |
CF_liab |
0.753 |
Гипотеза о равенстве средних НЕ отвергается |
Turn_reserv |
2.82 e-06 *** |
Гипотеза о равенстве средних отвергается |
Ac_rec_assets |
0.392 |
Гипотеза о равенстве средних НЕ отвергается |
Property _status |
<2e-16 *** |
Гипотеза о равенстве средних отвергается |
Capital_product |
3.32 e-07 *** |
Гипотеза о равенстве средних отвергается |
Work_cap_assets |
<2e-16 *** |
Гипотеза о равенстве средних отвергается |
Prevent_bank |
0.00104 ** |
Гипотеза о равенстве средних отвергается |
ROE |
3.99 e-10 *** |
Гипотеза о равенстве средних отвергается |
Abs_liq |
0.699 |
Гипотеза о равенстве средних НЕ отвергается |
Ac_recpay |
0.521 |
Гипотеза о равенстве средних НЕ отвергается |
Cur_liq |
0.777 |
Гипотеза о равенстве средних НЕ отвергается |
Autonomy |
<2e-16 *** |
Гипотеза о равенстве средних отвергается |
ROS |
0.304 |
Гипотеза о равенстве средних НЕ отвергается |
Location |
0.632 |
Гипотеза о равенстве средних НЕ отвергается |
Co-owners |
0.971 |
Гипотеза о равенстве средних НЕ отвергается |
Black_list |
0.209 |
Гипотеза о равенстве средних НЕ отвергается |
Tax_arrears |
0.000457 *** |
Гипотеза о равенстве средних отвергается |
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Таблица 5.
Парные корреляции финансовых и институциональных переменных
Далее опишем примененный алгоритм отбора объясняющих переменных с учетом парных корреляций и разделяющей способности в ходе реализации первого метода построения модели. Исключаем отношение дебиторской задолженности к кредиторской задолженности (Ac_recpay) из-за сильной корреляции с 5 из 26 переменных, в том числе данная переменная не показала сильной разделяющей способности при ANOVA-тесте. Далее осуществляем выбор между коэффициентом автономии (Autonomy) и натуральным логарифмом чистых активов (Ln_Netassets), которые имеют сильную корреляцию с 5 переменными, но Ln_Netassets имеют одну из сильных корреляций с долей долгосрочных обязательств (Portion_fix_liab), которая не показала сильной разделяющей способности, а значит все равно не значима для модели и не будет в нее включена, в свою очередь Autonomy имеет сильные зависимости с переменными с хорошей разделяющей способностью. Значит, исключаем Autonomy. Далее выбираем между Ln_Netassets (4 сильных корреляции - одна из них с плохо разделяющей переменной), коэффициент абсолютной ликвидности (Abs_liq) (3 сильных корреляции), коэффициент текущей ликвидности (Cur_liq) (3 сильных корреляции). При этом Abs_liq и Cur_liq сами по себе обладают слабой разделяющей способностью между дефолтными и состоятельными компаниями и сильно зависимы между собой, включать в модель их не имеет практического смысла. Поэтому на данном шаге последовательно исключаем Abs_liq и Cur_liq. Далее выбираем между Ln_Netassets (4 сильных зависимости - одна из с плохо разделяющей переменной), Liab_assets (3 сильных зависимости), Work_cap_assets (3 сильных зависимости), причем все три довольно сильно зависят друг от друга. Получается, оставить нужно только один, чтобы избежать мультиколлинеарности. Так как отношение рабочего капитала к активам (Work_cap_assets) имеет сильную зависимость с рентабельностью активов (ROA), которая по проведенному нами анализу хорошо разделяет обе группы между собой и в том числе выделяется международными исследователями, как одна из наиболее значимых для предсказания вероятности дефолта компаний, то удаляем именно Work_cap_assets. Между оставшимися переменными Ln_rev и Ln_Netassets, которые сильно зависят друг от друга, было принято решение оставить показатель Ln_Netassets, целесообразность применения которого подтверждается исследованиями отечественных исследователей (Peresetsky et al., 2011).
Итак, если оставляем Ln_Netassets, то остается сделать выбор между Turn_assets и Rev_cur_assets, которые будут включаться поочередно. Таким образом, в этом случае определены две модели для дальнейшего анализа:
Модель 1: Default ~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_Netassets + Rev_cur_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Property_status + Capital_product + Prevent_bank
Модель 2: Default ~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_Netassets + Turn_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Property_status + Capital_product + Prevent_bank
НО если вернуться к выбору между Ln_Netassets и Ln_rev, которые зависят друг от друга, то можно попробовать включить в модель либо Ln_rev и Liab_assets, либо Ln_rev и Property_status. В этом случае также нужно сделать выбор между Turn_assets и Rev_cur_assets, которые сильно зависят друг от друга и только. Получаем следующие модели, полученные также как и первые две на основе статистического отбора переменных (уровня парных корреляций и разделяющей способности переменных):
Модель 3: Default~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_rev + Liab_assets + Rev_cur_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Capital_product + Prevent_bank
Модель 4: Default~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_rev + Liab_assets + Turn_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Capital_product + Prevent_bank
Модель 5: Default~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_rev + Property_status + Rev_cur_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Capital_product + Prevent_bank
Модель 6: Default~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_rev + Property_status + Turn_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Capital_product + Prevent_bank
Макроэкономические переменные также прошли проверку на парную корреляцию, полученные результаты отражены в таблице 6, а возможные комбинации их использования в модели определены следующим образом:
- - Инвестиции и Торговый баланс; - Торговый баланс, Уровень безработицы и Уровень инфляции; - Безработица, кризисная дамми-переменная и пост-кризисная дамми-переменная; - ВВП; - кризисная дамми-переменная и пост-кризисная дамми-переменная.
Таблица 6.
Парные корреляции отобранных макроэкономических переменных
Похожие статьи
-
Отбор и классификация объясняющих переменных Для всесторонней оценки строительной компании в ходе анализа будут использоваться финансовые,...
-
Существует целый ряд классификаций моделей используемых для прогнозирования финансовой несостоятельности заемщиков. В своей работе Григорьева Т. И....
-
Как показывает практика, чтобы любой инструмент стал широко используемым, он должен либо пройти через сито мнений экспертов отрасли, для анализа которой...
-
Итак, будем тестировать модель с наилучшими характеристиками. Прогноз вне выборки проводился на основе тестовой выборки с 805 наблюдениями. В ней...
-
Итак, модели, которые будут дальше анализироваться, и получены с помощью первого метода - проведения теста для выделения наиболее дескриптивных...
-
ВВЕДЕНИЕ - Анализ и прогнозирование уровня конкурентоспособности компаний строительного комплекса
Актуальность темы исследования. Строительная отрасль характеризуется огромным количеством потенциальных исполнителей. Полный цикл возведения любого...
-
При дальнейшем построении модели воспользуемся таким ограничением, как на каждую объясняющую переменную должно приходиться не менее тридцати наблюдений...
-
Перейдем к интерпретации построенной модели для непубличных строительных компаний, так как она представляет не меньший интерес, чем прогнозное качество...
-
Как отмечалось в ходе исследования, logit-модель может характеризоваться сильной зависимостью от обучающей выборки. Поэтому чтобы быть уверенным в...
-
Теперь, когда в рамках данного исследования была получена модель с наилучшими характеристиками для непубличных строительных компаний, полученные...
-
Определение критериев события дефолт Строительная отрасль является одним из главных двигателей экономики. В России количество компаний, работающих на...
-
ЗАКЛЮЧЕНИЕ - Анализ и прогнозирование уровня конкурентоспособности компаний строительного комплекса
В ходе проведенного исследования была построена logit-модель вероятности дефолта для непубличных компаний строительного комплекса. Данная модель поможет...
-
Далее предпримем попытки улучшить качество полученных моделей с помощью поочередного перехода к порядковой шкале и нормированной шкале. Полученные...
-
Предпосылки построения индекса Строительная отрасль России характеризуется очень большим объемом строительных компаний и объемом работ, выполненных по...
-
Для дополнительной наглядности полученных результатов предлагается подготовить рейтинговую шкалу, которая отмечала бы, какие значения вероятности дефолта...
-
Проверим значимость квадратичной формы переменных для двух полученных моделей. Сначала рассмотрим значимость данных преобразований для первой модели...
-
Для целей проверки гипотезы о значимости рассматриваемых нами институциональных показателей (место нахождения, задолженность по уплате налогов), в...
-
Ниже можно ознакомиться с первыми результатами расчета всего "семейства" индексов (см. табл. 33 и рис.7): Таблица 33. Значения ИКСО по федеральным...
-
Сделав критический обзор методологии рейтинга "Doing Business" и введя термин "объективный рейтинг", мы предлагаем рассмотреть используемые для проверки...
-
Особенности стратегического процесса в малом и среднем бизнесе Главная парадигма стратегического менеджмента обосновывается двумя следующими принципами:...
-
В ходе данного исследования был проведен регрессионный анализ M&;A-сделок в фармацевтической отрасли. Целью анализа является выявление факторов, влияющих...
-
Одной из задач была оценка влияния интеллектуального капитала на показатели результатов деятельности транспортных и экспедиционных компаний. Данная...
-
Регрессионный анализ как продуктивный метод исследования статистических данных
РЕГРЕССИОННЫЙ АНАЛИЗ КАК ПРОДУКТИВНЫЙ МЕТОД ИССЛЕДОВАНИЯ СТАТИСТИЧЕСКИХ ДАННЫХ В данной статье рассматривается регрессионный анализ как эффективный метод...
-
2.1 Код для построения модели Кривая производственных возможностей помогает найти оптимальный вариант, при котором альтернативные издержки минимальны, а...
-
На каждом из этапов стратегического процесса за основу берутся определенные подходы. На первых двух стадиях используются такие методы, как PEST-анализ,...
-
Анализ внутренней среды компании ООО "Мелькрук" - Разработка стратегии роста для компании
В связи со спецификой малого и среднего бизнеса при осуществления анализа деятельности компании на основе цепочки ценности Портера, необходимо сузить...
-
Анализ статических моделей панельных данных имеет ряд недостатков. Во-первых, при условии корреляции между лагом зависимой эндогенной зависимой...
-
В данной главе перейдем к анализу модели в-конвергенции по панельным данным. Для начала оценим модель безусловной конвергенции, в основе которой лежит...
-
Анализ мукомольной отрасли в РФ - Разработка стратегии роста для компании
Традиционно главным ценообразующим фактором мукомольной отрасли является стоимость зерна на рынке. Наибольший объем производства пшеницы приходится на...
-
Регрессионные модели В теории пространственной экономики выделяют пространственные связи двух типов: пространственная автокорреляция и пространственная...
-
В настоящее время проектный подход к управлению становится общепризнанным мировым стандартом работы. Эффективность деятельности компании определяется ее...
-
Описание базы данных Главным источником формирования базы статистических данных, используемых в данной работе, выступил сайт Госкомстата. Для анализа...
-
Заключение - Разработка стратегии роста для компании
В ходе проведенного исследования разработана стратегия роста для компании ООО "Мелькрук". Для достижения поставленной цели в ходе работы определены: -...
-
Поглощение одной компании другой является весьма распространенным механизмом корпоративного строительства. Самый сложный процесс -- определение стоимости...
-
Методы анализа политических процессов - Методы анализа национальной экономики
Все методы анализа политических процессов можно разделить на две большие группы: количественные и качественные. К первой относятся статистический и...
-
Построение аналитической группировки по уровню производительности труда работников в отрасли животноводства по хозяйствам Южной лесостепной зоны На этапе...
-
Изучение взаимосвязи между признаками заключается в определении формы и количественной характеристики связи, а также степени тесноты связи. Основная...
-
В виде статистических таблиц оформляются результаты сводки и группировки материалов наблюдения. Статистическая таблица - это особый способ краткой и...
-
Сравнительный анализ нейросетевых и регрессионных моделей прогноза без учета пространственного лага Приведем результаты оценки прогноза за период...
-
При добавлении в панельную модель безусловной в-конвергенции факторов, влияющих на экономический рост, модель преобразуется в "условную". Большинство...
Подготовка данных для построения модели и статистический отбор объясняющих переменных - Анализ и прогнозирование уровня конкурентоспособности компаний строительного комплекса