Построение модели предсказания банкротств на основе логистической регрессии - Влияние значений финансовых коэффициентов на вероятность банкротства компании
На следующем этапе в модель были добавлены дамми-переменные годов и отраслей. Таблицы соотношения переменных и данных приведены ниже. Кроме дамми переменных в модель была добавлена контрольная переменная размера компании (lnta), рассчитанная как натуральный логарифм от совокупных активов компании.
Расшифровка дамми-переменных годов
Год |
Переменная |
2011 |
Базовый случай |
2012 |
Year1 |
2013 |
Year2 |
2014 |
Year3 |
2015 |
Year4 |
Расшифровка дамми-переменных отраслей
Код |
Название отрасли |
Переменная |
B, H, I, N, O, Q, R, S |
Прочие |
Базовый случай |
A |
Сельское хозяйство |
Ind1 |
C |
Производство |
Ind2 |
F |
Строительство |
Ind3 |
G |
Розничная торговля |
Ind4 |
M |
Профессиональная, научная и техническая деятельность |
Ind5 |
В дальнейшем из модели по одной исключались незначимые переменные. Приоритетность исключений определялась значением P-value: исключалась переменная с наибольшим значением в текущей спецификации модели.
Помимо определенных ранее финансовых коэффициентов, значимыми оказались дамми-переменные всех отраслей (переменная розничной торговли на 10% уровне значимости), кроме профессиональной, научной и технической деятельности, а также контрольная переменная размера компании. Дамми-переменные всех лет оказались незначимыми, что, возможно, является следствием экономической однородности рассматриваемого периода, который прошел без резких изменений экономической конъюнктуры.
Большинство полученных коэффициентов согласуется с экономической логикой. Увеличение коэффициента отношения выручки к совокупным активам (sales2as) уменьшает вероятность банкротства. Этот коэффициент отнесен к группе переменных экономической эффективности. Чем выше эффективность компании, тем ниже вероятность ее банкротства. Высокое значение отношения совокупных обязательств к совокупным активам (debt2as) повышает вероятность банкротства. Для обратного показателя финансовой устойчивости, такое влияние вполне ожидаемо. Рентабельность активов (roa) имеет обратную взаимосвязь с вероятностью банкротства, что также не требует дополнительных пояснений.
Влияние показателя быстрой ликвидности (quick2) на вероятность банкротства достаточно неожиданно - увеличение ликвидности приводит к росту вероятности банкротства. Этот показатель рассчитается как отношение суммы денежных средств и краткосрочной кредиторской задолженности к совокупным активам. Стоит отметить, что показатель отношения денежных средств к совокупным активам (cash2as) оказался незначим. Из этого следует, что наибольший вклад в значимость показателя quick2 вносит краткосрочная дебиторская задолженность.
Положительное влияние этого коэффициента можно проинтерпретировать как результат завышения совокупных активов через дебиторскую задолженность. Возможно, компании, которые сталкиваются с финансовыми трудностями, не списывают дебиторскую задолженность в необходимом размере, и доля дебиторской задолженности в активах таких компаний возрастает.
Размер компании ожидаемо негативно влияет на вероятность банкротства. Отраслевая принадлежность компании к сельскому хозяйству, производству, строительству или розничной торговле повышает вероятность банкротства по сравнению с вероятность банкротства компаний из группы "прочее". Скорее всего, это связано с составом группы прочих отраслей. Большинство из них представлены меньшим набором компаний и, в целом, могут трактоваться как менее рискованные, с преобладанием крупных игроков и высокой степенью концентрации рынка.
Для оценки качества получившейся модели необходимо выбрать точку отсечения. Логистическая регрессия позволяет использовать несбалансированную панельную выборку, однако вариант с предсказанием банкротства исходя из точки отсечения в 50% для сильно несбалансированных панелей не подходит. Попытка предсказать банкротства с использованием 50% вероятности приводит к крайне низкому выявлению банкротов, в то время как подавляющее большинство компаний-небанкротов распознаются правильно.
Модель правильно определяет 6 банкротов из 126 и 5 602 небанкрота из 5 722. Общая точность модели оценивается в 97,7%. Подобного рода цифры приводят к мысли, что точка отсечения в 0,5 слишком велика и ее необходимо уменьшить, следуя логике минимизации ошибок модели. Пересчет точки отсечения является часто применимым приемом при исследованиях банкротства (например, Ho et al, 2013). Однако минимизация общей ошибки модели - доли неправильно классифицированных компаний в целом - не является хорошим вариантом, так как вес ошибки не выявления банкротов в общей ошибке модели слишком незначителен.
Для более корректной оптимизации точки отсечения был рассчитан G-mean и F-score. Методика их расчета взята из работы коллектива китайских ученых (Dong et al, 2014).
![](/images/image003-3557.png)
,
Где: ;
![](/images/image004-3226.png)
![](/images/image005-3044.png)
.
TP, FN, TN и FP - показатели из матрицы несоответствия (confusion matrix).
Матрица несоответствия (confusion matrix)
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
True positive (TP) |
False negative (FN) |
Реальный небанкрот |
False positive (FP) |
True negative (TN) |
F-score рассчитывается следующим образом:
![](/images/image006-2842.png)
,
Где: ;
![](/images/image007-2648.png)
![](/images/image008-2487.png)
;
TP, FP и FN - показатели из матрицы несоответствия.
Значения G-mean и F-score для различных точек отсечения (модель логит №1)
Уровень |
Ошибка по небанкротам |
Ошибка по банкротам |
G-mean |
F-score |
0.5 |
0% |
95% |
1.022 |
0.083 |
0.45 |
0% |
95% |
1.022 |
0.081 |
0.4 |
0% |
94% |
1.030 |
0.104 |
0.35 |
0% |
91% |
1.041 |
0.140 |
0.3 |
0% |
90% |
1.048 |
0.160 |
0.25 |
0% |
89% |
1.052 |
0.168 |
0.2 |
1% |
83% |
1.077 |
0.230 |
0.15 |
1% |
77% |
1.104 |
0.265 |
0.1 |
2% |
60% |
1.172 |
0.326 |
0.05 |
8% |
34% |
1.255 |
0.246 |
0.04 |
11% |
29% |
1.263 |
0.213 |
0.03 |
17% |
21% |
1.276 |
0.172 |
0.02 |
26% |
13% |
1.270 |
0.129 |
0.01 |
44% |
4% |
1.235 |
0.090 |
G-mean и F-score указали на разные значения оптимума для точки отсечения, что является ожидаемым результатом исходя из природы этих показателей. G-mean придает одинаковый вес процентам неверных предсказаний в рамках подгрупп банкротов и небанкротов, а F-score осуществляет поправку на абсолютное число неверных предсказаний. В рамках крайне несбалансированной панели, в которой наблюдения по компаниям-банкротам составляют менее 3% выборки, F-score оказывается завышающим значение уровня отсечения. В оптимальной, согласно F-score, точке модель предсказывает правильно лишь 40% банкротов (и 98% небанкротов). В точке же, вычисленной с использованием G-mean, эти доли 79% и 83% соответственно. Для применения к тестовой выборке был выбран уровень, соответствующий оптимуму для G-mean.
Для уточнения оптимального значения уровня отсечения был произведен дополнительный расчет G-mean для области от 0,02 до 0,04.
Уточнение точки отсечения согласно G-mean (модель логит №1)
Уровень |
Ошибка по небанкротам |
Ошибка по банкротам |
G-mean |
0.04 |
11% |
29% |
1.263 |
0.039 |
12% |
28% |
1.267 |
0.038 |
12% |
27% |
1.269 |
0.037 |
12% |
26% |
1.271 |
0.036 |
13% |
25% |
1.276 |
0.035 |
13% |
23% |
1.280 |
0.034 |
14% |
23% |
1.278 |
0.033 |
15% |
21% |
1.280 |
0.032 |
15% |
21% |
1.281 |
0.031 |
16% |
21% |
1.278 |
0.03 |
17% |
21% |
1.276 |
0.029 |
17% |
20% |
1.277 |
0.028 |
18% |
19% |
1.277 |
0.027 |
19% |
18% |
1.277 |
0.026 |
20% |
18% |
1.273 |
0.025 |
21% |
16% |
1.279 |
0.024 |
22% |
14% |
1.280 |
0.023 |
23% |
14% |
1.277 |
0.022 |
24% |
13% |
1.278 |
0.021 |
25% |
13% |
1.274 |
0.02 |
26% |
13% |
1.270 |
Согласно выше приведенным расчетам, оптимальной точкой отсечения является уровень в 0,032, при котором модель правильно предсказывает 79% банкротов и 85% небанкротов. Этот уровень был применен к тестовой выборке для контрольной оценки предсказательной силы модели.
Матрица несоответствия для тестовой выборки (модель логит №1)
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
98 |
27 |
Реальный небанкрот |
856 |
4759 |
В рамках тестовой выборки модель предсказывает верно 78% банкротов и 85% небанкротов и имеет G-mean равный 1,277. Эти показатели крайне близки к данным тренировочной выборки, что означает, что качество предсказаний модели практически не зависит от того использовались ли данные при ее формировании или нет.
Вторая рассмотренная модель на основе логистической регрессии была построена по сбалансированной выборке. Сбалансированная выборка включает все доступные компании-банкроты (251 штук) и случайно подобранные компании-небанкроты в таком же количестве. Получившаяся выборка из 502 наблюдений была разбита на тренировочную и контрольную в пропорции 3 к 1. Пропорции были изменены по сравнению с первой моделью, чтобы лучше соответствовать методу оценки качества, который применяется в модели на основе нейронных сетей.
Процедура выявления наилучшей спецификации модели аналогична процессу формирования первой модели. Итоговая спецификация выглядит следующим образом:
Финансовые коэффициенты и их знаки по сравнению с первой моделью логистической регрессии почти не поменялись. Единственным существенным изменением является падение значимости коэффициента быстрой ликвидности (quick2). Данный коэффициент незначим на 5% уровне (но значим на 10% уровне). Размер компании по-прежнему негативно влияет на вероятность банкротства.
Состав дамми-переменных существенно поменялся. Во второй модели логистической регрессии значима только дамми-переменная отрасли профессиональных, научных и техническим услуг, причем принадлежность к этой отрасли снижает вероятность банкротства. Выпадение большинства дамми-переменных отрасли из модели связано со значительным сокращением выборки, в особенности - количества компаний, которые составляли базовую категорию прочих отраслей.
Для модели, построенной по сбалансированной выборке, релевантны средства проверки на 50% уровне:
На тренировочной выборке модель верно определяет 86% банкротов и 81% небанкротов. G-mean, соответствующий такой точности, равен 1,292. Однако на тестовой выборке предсказательная способность модели намного ниже: она предсказывает верно 54% банкротов и 89% небанкротов с G-mean=1,195.
Результаты модели логит №2 на тестовой выборке
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
34 |
29 |
Реальный небанкрот |
7 |
56 |
Похожие статьи
-
Искусственные нейронные сети (ИНС) рассматриваются исследователями как возможная альтернатива статистическим методам. Исследования, использующие ИНС, как...
-
Построение модели с помощью логистической регрессии Прежде чем строить логистическую регрессию, необходимо выбрать конечный набор финансовых и...
-
Основной целью исследования является сравнение предсказательной силы моделей, построенных на основе различных методов. В условиях несбалансированности...
-
Влияние значений финансовых коэффициентов на вероятность банкротства компании
Детализация расчета точки отсечения через G-mean для модели ИНС №2. Уровень Ошибка по небанкротам Ошибка по банкротам G-mean 0.04 10% 31% 1.262 0.039 10%...
-
Для прогнозирования банкротства, некоторые исследователи создают модели, основанные на использовании искусственных нейронных сетей. Как правило,...
-
Данная работа опирается на исследования, посвященные проблематике предсказания банкротства компаний. Наибольший интерес в работах предшественников...
-
Среди современных исследований на тему предсказания банкротства можно выделить группу работ, которые не ставят своей целью сравнение предсказательной...
-
Описание данных Данные для исследования получены из базы Руслана, предоставляемой компанией Бюро Ван Дайк. Эта база содержит данные финансовой отчетности...
-
Введение - Влияние значений финансовых коэффициентов на вероятность банкротства компании
Моделирование вероятности банкротства является широко применимой практической процедурой, которая необходима любой крупной кредитной организации....
-
В первоначальном выборе объясняющих переменных существует две стратегии. Часть авторов осуществляют подбор переменных, опираясь на собственные...
-
Заключение - Влияние значений финансовых коэффициентов на вероятность банкротства компании
В рамках данного исследования были построены и оценены модели предсказания банкротства на базе логистической регрессии и искусственных нейронных сетей...
-
Большинство современных исследований, посвященных предсказанию банкротства, используют больше одного метода моделирования и делают выводы о сравнительной...
-
Отбор и классификация объясняющих переменных Для всесторонней оценки строительной компании в ходе анализа будут использоваться финансовые,...
-
Постановка гипотез - Влияние значений финансовых коэффициентов на вероятность банкротства компании
Цель данной работы заключается в сравнении предсказательной силы логистической регрессии и искусственных нейронных сетей (ИНС) в рамках моделирования...
-
Существует целый ряд классификаций моделей используемых для прогнозирования финансовой несостоятельности заемщиков. В своей работе Григорьева Т. И....
-
По итогам проведенного исследования можно прийти к выводу о том, что и логит-регрессия и деревья решений позволили построить модели, которые с...
-
Построение модели с помощью метода деревьев решений - Моделирование вероятности банкротства
В отличие от логистической регрессии, при использовании метода деревьев решений ограничения для независимых переменных отсутствуют, поэтому для...
-
Приложения, - Влияние значений финансовых коэффициентов на вероятность банкротства компании
Описательные статистики по финансовым коэффициентам. Переменная Количество наблюдений Среднее Медиана 25 перцентиль 75 перцентиль Стандартное отклонение...
-
Итак, модели, которые будут дальше анализироваться, и получены с помощью Первого метода - проведения теста для выделения наиболее дескриптивных...
-
Описание используемых методов - Моделирование вероятности банкротства
В данной работе было принято решение использовать логистический анализ с помощью пакета STATA, а также алгоритм CART с помощью SPSS Modeler. Бинарная...
-
Нефинансовые факторы, влияющие на вероятность банкротства - Моделирование вероятности банкротства
Как было отмечено выше, важность финансовых показателей для определения вероятности банкротства фирмы была замечена в самых ранних работах. Однако...
-
Интерпретация финальной модели - Уровень конкурентоспособности строительных компаний
Перейдем к интерпретации построенной модели для непубличных строительных компаний, так как она представляет не меньший интерес, чем прогнозное качество...
-
Проблема прогнозирования вероятности банкротства существует уже несколько десятков лет - все началось с работ Ramser, Foster (1931), Fitzpatrick (1932) и...
-
Теперь, когда в рамках данного исследования была получена модель с наилучшими характеристиками для непубличных строительных компаний, полученные...
-
Заключение - Уровень конкурентоспособности строительных компаний
В ходе проведенного исследования была построена logit-модель вероятности дефолта для непубличных компаний строительного комплекса. Данная модель поможет...
-
Методология исследования, Постановка гипотез - Моделирование вероятности банкротства
Постановка гипотез Целью данного исследования является построение модели вероятности банкротства, которая будет обладать надежностью не менее 80%. По...
-
Заключение - Моделирование вероятности банкротства
Целью данного исследования являлось моделирование вероятности банкротства российских нефинансовых компаний на основе наиболее значимых показателей...
-
Построение многофакторной корреляционно-регрессионной модели производительности труда
Построение многофакторной корреляционно-регрессионной модели производительности труда Данная работа направлена на выявление факторов, от которых зависит...
-
Тадии парного регрессионного анализа можно представить на следующем рисунке ПОЛЕ КОРРЕЛЯЦИИ Это графическое изображение точек с координатами, которые...
-
Введение - Моделирование вероятности банкротства
В настоящее время в условиях экономической стагнации и ухудшения финансового состояния бизнеса тема кредитоспособности и оценки устойчивости предприятий...
-
Описание данных - Моделирование вероятности банкротства
Данные для исследования были взяты из базы Ruslana (Bureau van Dijk), содержащей финансовую и некоторую нефинансовую информацию об организациях из...
-
ПОНЯТИЕ ОБ АВТОКОРРЕЛЯЦИИ. ОПРЕДЕЛЕНИЕ СИЛЫ АВТОКОРРЕЛЯЦИИ Парные регрессионные модели отражают специфику взаимодействия некоторого функционального...
-
Предсказательная сила финальной модели - Уровень конкурентоспособности строительных компаний
Итак, будем тестировать модель с наилучшими характеристиками. Прогноз вне выборки проводился на основе тестовой выборки с 805 наблюдениями. В ней...
-
Для анализа был выбран временной диапазон с 2004 года по 2014 год. В целях построения прогнозной модели собранные годовые данные были разделены на две...
-
Основные этапы построения эконометрической модели - Моделирование в эконометрике
Построение эконометрической модели является основой эконометрического исследования. Оно основывается на предположении о реально существующей зависимости...
-
Построение и анализ эконометрической модели - Построение экономических моделей
На основе данных таблицы 1 приложения А построим предварительную регрессионную модель: Модель 1: МНК, использованы наблюдения 2005:01-2007:12 (T = 36)...
-
По данным динамики валют (вариант 14) выявить трендовую, периодическую и случайную составляющие ряда (T, S,E), оценить качество модели, сделать прогноз...
-
Структурная и приведенная формы модели - Основы эконометрики
Система совместных, одновременных уравнений (или структурная форма модели) обычно содержит эндогенные и экзогенные переменные. Эндогенные переменные -...
-
На основе данных таблицы 1 приложения А построим предварительную регрессионную модель: Модель 1: МНК, использованы наблюдения 2005:01-2007:12 (T = 36)....
-
Тест на переобучаемость финальной модели - Уровень конкурентоспособности строительных компаний
Как отмечалось в ходе исследования, logit-модель может характеризоваться сильной зависимостью от обучающей выборки. Поэтому чтобы быть уверенным в...
Построение модели предсказания банкротств на основе логистической регрессии - Влияние значений финансовых коэффициентов на вероятность банкротства компании