Построение модели предсказания банкротств на основе логистической регрессии - Влияние значений финансовых коэффициентов на вероятность банкротства компании

На следующем этапе в модель были добавлены дамми-переменные годов и отраслей. Таблицы соотношения переменных и данных приведены ниже. Кроме дамми переменных в модель была добавлена контрольная переменная размера компании (lnta), рассчитанная как натуральный логарифм от совокупных активов компании.

Расшифровка дамми-переменных годов

Год

Переменная

2011

Базовый случай

2012

Year1

2013

Year2

2014

Year3

2015

Year4

Расшифровка дамми-переменных отраслей

Код

Название отрасли

Переменная

B, H, I, N, O, Q, R, S

Прочие

Базовый случай

A

Сельское хозяйство

Ind1

C

Производство

Ind2

F

Строительство

Ind3

G

Розничная торговля

Ind4

M

Профессиональная, научная и техническая деятельность

Ind5

В дальнейшем из модели по одной исключались незначимые переменные. Приоритетность исключений определялась значением P-value: исключалась переменная с наибольшим значением в текущей спецификации модели.

Помимо определенных ранее финансовых коэффициентов, значимыми оказались дамми-переменные всех отраслей (переменная розничной торговли на 10% уровне значимости), кроме профессиональной, научной и технической деятельности, а также контрольная переменная размера компании. Дамми-переменные всех лет оказались незначимыми, что, возможно, является следствием экономической однородности рассматриваемого периода, который прошел без резких изменений экономической конъюнктуры.

Большинство полученных коэффициентов согласуется с экономической логикой. Увеличение коэффициента отношения выручки к совокупным активам (sales2as) уменьшает вероятность банкротства. Этот коэффициент отнесен к группе переменных экономической эффективности. Чем выше эффективность компании, тем ниже вероятность ее банкротства. Высокое значение отношения совокупных обязательств к совокупным активам (debt2as) повышает вероятность банкротства. Для обратного показателя финансовой устойчивости, такое влияние вполне ожидаемо. Рентабельность активов (roa) имеет обратную взаимосвязь с вероятностью банкротства, что также не требует дополнительных пояснений.

Влияние показателя быстрой ликвидности (quick2) на вероятность банкротства достаточно неожиданно - увеличение ликвидности приводит к росту вероятности банкротства. Этот показатель рассчитается как отношение суммы денежных средств и краткосрочной кредиторской задолженности к совокупным активам. Стоит отметить, что показатель отношения денежных средств к совокупным активам (cash2as) оказался незначим. Из этого следует, что наибольший вклад в значимость показателя quick2 вносит краткосрочная дебиторская задолженность.

Положительное влияние этого коэффициента можно проинтерпретировать как результат завышения совокупных активов через дебиторскую задолженность. Возможно, компании, которые сталкиваются с финансовыми трудностями, не списывают дебиторскую задолженность в необходимом размере, и доля дебиторской задолженности в активах таких компаний возрастает.

Размер компании ожидаемо негативно влияет на вероятность банкротства. Отраслевая принадлежность компании к сельскому хозяйству, производству, строительству или розничной торговле повышает вероятность банкротства по сравнению с вероятность банкротства компаний из группы "прочее". Скорее всего, это связано с составом группы прочих отраслей. Большинство из них представлены меньшим набором компаний и, в целом, могут трактоваться как менее рискованные, с преобладанием крупных игроков и высокой степенью концентрации рынка.

Для оценки качества получившейся модели необходимо выбрать точку отсечения. Логистическая регрессия позволяет использовать несбалансированную панельную выборку, однако вариант с предсказанием банкротства исходя из точки отсечения в 50% для сильно несбалансированных панелей не подходит. Попытка предсказать банкротства с использованием 50% вероятности приводит к крайне низкому выявлению банкротов, в то время как подавляющее большинство компаний-небанкротов распознаются правильно.

Модель правильно определяет 6 банкротов из 126 и 5 602 небанкрота из 5 722. Общая точность модели оценивается в 97,7%. Подобного рода цифры приводят к мысли, что точка отсечения в 0,5 слишком велика и ее необходимо уменьшить, следуя логике минимизации ошибок модели. Пересчет точки отсечения является часто применимым приемом при исследованиях банкротства (например, Ho et al, 2013). Однако минимизация общей ошибки модели - доли неправильно классифицированных компаний в целом - не является хорошим вариантом, так как вес ошибки не выявления банкротов в общей ошибке модели слишком незначителен.

Для более корректной оптимизации точки отсечения был рассчитан G-mean и F-score. Методика их расчета взята из работы коллектива китайских ученых (Dong et al, 2014).

,

Где: ;

.

TP, FN, TN и FP - показатели из матрицы несоответствия (confusion matrix).

Матрица несоответствия (confusion matrix)

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

True positive (TP)

False negative (FN)

Реальный небанкрот

False positive (FP)

True negative (TN)

F-score рассчитывается следующим образом:

,

Где: ;

;

TP, FP и FN - показатели из матрицы несоответствия.

Значения G-mean и F-score для различных точек отсечения (модель логит №1)

Уровень

Ошибка по небанкротам

Ошибка по банкротам

G-mean

F-score

0.5

0%

95%

1.022

0.083

0.45

0%

95%

1.022

0.081

0.4

0%

94%

1.030

0.104

0.35

0%

91%

1.041

0.140

0.3

0%

90%

1.048

0.160

0.25

0%

89%

1.052

0.168

0.2

1%

83%

1.077

0.230

0.15

1%

77%

1.104

0.265

0.1

2%

60%

1.172

0.326

0.05

8%

34%

1.255

0.246

0.04

11%

29%

1.263

0.213

0.03

17%

21%

1.276

0.172

0.02

26%

13%

1.270

0.129

0.01

44%

4%

1.235

0.090

G-mean и F-score указали на разные значения оптимума для точки отсечения, что является ожидаемым результатом исходя из природы этих показателей. G-mean придает одинаковый вес процентам неверных предсказаний в рамках подгрупп банкротов и небанкротов, а F-score осуществляет поправку на абсолютное число неверных предсказаний. В рамках крайне несбалансированной панели, в которой наблюдения по компаниям-банкротам составляют менее 3% выборки, F-score оказывается завышающим значение уровня отсечения. В оптимальной, согласно F-score, точке модель предсказывает правильно лишь 40% банкротов (и 98% небанкротов). В точке же, вычисленной с использованием G-mean, эти доли 79% и 83% соответственно. Для применения к тестовой выборке был выбран уровень, соответствующий оптимуму для G-mean.

Для уточнения оптимального значения уровня отсечения был произведен дополнительный расчет G-mean для области от 0,02 до 0,04.

Уточнение точки отсечения согласно G-mean (модель логит №1)

Уровень

Ошибка по небанкротам

Ошибка по банкротам

G-mean

0.04

11%

29%

1.263

0.039

12%

28%

1.267

0.038

12%

27%

1.269

0.037

12%

26%

1.271

0.036

13%

25%

1.276

0.035

13%

23%

1.280

0.034

14%

23%

1.278

0.033

15%

21%

1.280

0.032

15%

21%

1.281

0.031

16%

21%

1.278

0.03

17%

21%

1.276

0.029

17%

20%

1.277

0.028

18%

19%

1.277

0.027

19%

18%

1.277

0.026

20%

18%

1.273

0.025

21%

16%

1.279

0.024

22%

14%

1.280

0.023

23%

14%

1.277

0.022

24%

13%

1.278

0.021

25%

13%

1.274

0.02

26%

13%

1.270

Согласно выше приведенным расчетам, оптимальной точкой отсечения является уровень в 0,032, при котором модель правильно предсказывает 79% банкротов и 85% небанкротов. Этот уровень был применен к тестовой выборке для контрольной оценки предсказательной силы модели.

Матрица несоответствия для тестовой выборки (модель логит №1)

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

98

27

Реальный небанкрот

856

4759

В рамках тестовой выборки модель предсказывает верно 78% банкротов и 85% небанкротов и имеет G-mean равный 1,277. Эти показатели крайне близки к данным тренировочной выборки, что означает, что качество предсказаний модели практически не зависит от того использовались ли данные при ее формировании или нет.

Вторая рассмотренная модель на основе логистической регрессии была построена по сбалансированной выборке. Сбалансированная выборка включает все доступные компании-банкроты (251 штук) и случайно подобранные компании-небанкроты в таком же количестве. Получившаяся выборка из 502 наблюдений была разбита на тренировочную и контрольную в пропорции 3 к 1. Пропорции были изменены по сравнению с первой моделью, чтобы лучше соответствовать методу оценки качества, который применяется в модели на основе нейронных сетей.

Процедура выявления наилучшей спецификации модели аналогична процессу формирования первой модели. Итоговая спецификация выглядит следующим образом:

Финансовые коэффициенты и их знаки по сравнению с первой моделью логистической регрессии почти не поменялись. Единственным существенным изменением является падение значимости коэффициента быстрой ликвидности (quick2). Данный коэффициент незначим на 5% уровне (но значим на 10% уровне). Размер компании по-прежнему негативно влияет на вероятность банкротства.

Состав дамми-переменных существенно поменялся. Во второй модели логистической регрессии значима только дамми-переменная отрасли профессиональных, научных и техническим услуг, причем принадлежность к этой отрасли снижает вероятность банкротства. Выпадение большинства дамми-переменных отрасли из модели связано со значительным сокращением выборки, в особенности - количества компаний, которые составляли базовую категорию прочих отраслей.

Для модели, построенной по сбалансированной выборке, релевантны средства проверки на 50% уровне:

На тренировочной выборке модель верно определяет 86% банкротов и 81% небанкротов. G-mean, соответствующий такой точности, равен 1,292. Однако на тестовой выборке предсказательная способность модели намного ниже: она предсказывает верно 54% банкротов и 89% небанкротов с G-mean=1,195.

Результаты модели логит №2 на тестовой выборке

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

34

29

Реальный небанкрот

7

56

Похожие статьи




Построение модели предсказания банкротств на основе логистической регрессии - Влияние значений финансовых коэффициентов на вероятность банкротства компании

Предыдущая | Следующая