Построение модели предсказания банкротств c использованием искусственных нейронных сетей - Влияние значений финансовых коэффициентов на вероятность банкротства компании

Искусственные нейронные сети (ИНС) рассматриваются исследователями как возможная альтернатива статистическим методам. Исследования, использующие ИНС, как правило сопоставляют их с другими, более традиционными методами исследования: линейным дискриминантным анализом и логистической регрессией.

Искусственная нейронная сеть представляет собой математическую модель, построенную по принципу организации и функционирования биологических нейронных сетей. Схематически искусственная нейронная сеть состоит из входного слоя, скрытого уровня и выходного слоя (см. рис. 1). ИНС состоит из большого количества обрабатывающих элементов, которые соединены между собой однонаправленными сигнальными каналами. Нейроны входного уровня представляют вводные данные, а нейроны выходного слоя - разделитель между классами.

Схематическое изображения искусственной нейронной сети.

Существует возможность добавления в модель ИНС дополнительных скрытых уровней, которые, теоретически, могут повысить качество предсказаний модели. Однако ряд авторов (Chen et al, 2006; Dong et al, 2014; Hamdi and Mestiri, 2014) указывает на то, что выход за рамки стандартной, состоящей из трех слоев, структуры не привел к увеличению предсказательной силы модели, поэтому в данном исследовании будут рассмотрены ИНС только с тремя слоями.

Первоначальная модель на основе искусственных нейронных сетей строилась по исходной, несбалансированной выборке, которая была поделена на 3 части:

    - тренировочная (training) - 50% от всех наблюдения; эти наблюдения были доступны для обучения сети; - проверочная (validation) - 25% от всех наблюдений; эти наблюдения использовались для избегания эффекта переобучения сети; они не были доступны для сети в режиме обучения; - оценочная (estimation) - 25% от всех наблюдений; на этой подвыборке проводилась оценка предсказательной силы, по которой модели сравнивались между собой.

В качестве набора переменных для первой модели на основе нейронных сетей использовались все доступные переменные, включая дамми-переменные периодов и отраслей.

Ранжировка моделей по качеству производилась по набранным им очкам эксперимента (experiment score), которые автоматически рассчитывались программным обеспечением (NeuroSolutions Infinity). Производитель ПО не предоставляет точной расчетной формулы для этого показателя, однако уточняет, что при его расчете принимаются во внимание такие показатели как: площадь под ROC кривой, процент правильных предсказаний, нормализованный показатель RMSD, нормализованный показатель MAE, а также средний процент правильных предсказаний для каждого класса.

Несмотря на то, что расчетные очки эксперимента включают в себя показатель ошибки модели по классам, используемая выборка оказалась слишком несбалансированной для корректного применения базовых оценочных методов, заложенных в ПО. Итоговая модель, признанная наилучшей по значению очков эксперимента, правильно предсказывает 4 банкрота из 36 и 1 398 небанкротов из 1 399 на оценочной выборке, которая составляла 25% от общей. Модель на основе нейронных сетей обладает тем же недостатком, что и логистическая регрессия при оценке ее на уровне 50%.

Матрица несоответствия для оценочной выборки (базовая оценка) модели ИНС №1

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

4

32

Реальный небанкрот

1

1398

Выходная величина модели, полученной с применением искусственных нейронных сетей, представлена числом от 0 до 1. По умолчанию компания признается банкротом, если эта величина больше 0,5. По аналогии с логистической регрессией, существует возможность оптимизировать этот уровень для достижения максимальной предсказательной силы модели на тренировочной выборке. Оценка модели в данном случае будет проводится с применением выведенного уровня отсечения к тестовой выборке (в тестовую выборку включены как оценочная подвыборка, так и проверочная).

Значение G-mean для различных точек отсечения модели ИНС №1

Уровень

Ошибка по небанкротам

Ошибка по банкротам

G-mean

0.5

0%

97%

1.013

0.45

0%

96%

1.021

0.4

0%

95%

1.023

0.35

0%

94%

1.027

0.3

1%

86%

1.063

0.25

1%

78%

1.102

0.2

1%

71%

1.129

0.15

2%

62%

1.168

0.1

4%

49%

1.212

0.05

10%

29%

1.269

0.04

13%

25%

1.274

0.03

17%

20%

1.277

0.02

22%

16%

1.270

0.01

31%

14%

1.246

Как и для логистической регрессии, оптимальной точкой отсечения оказалось значение, локализованное в районе 0,03. Для уточнения третьего знака после запятой, была проведена детализация в диапазоне от 0,02 до 0,04. Оптимальным значением, с G-mean равным 1,277, оказалась точка отсечения равная 0,03. При таком условии, точность модели на тренировочной выборке составляет 80% для банкротов и 83% для небанкротов.

Уточнение точки отсечения согласно G-mean для модели ИНС №1

Уровень

Ошибка по небанкротам

Ошибка по банкротам

G-mean

0.04

13%

25%

1.274

0.039

13%

25%

1.274

0.038

13%

25%

1.273

0.037

14%

24%

1.273

0.036

14%

23%

1.276

0.035

14%

23%

1.276

0.034

15%

23%

1.275

0.033

15%

22%

1.274

0.032

16%

22%

1.274

0.031

16%

22%

1.274

0.03

17%

20%

1.277

0.029

17%

20%

1.275

0.028

18%

20%

1.275

0.027

18%

20%

1.273

0.026

19%

20%

1.272

0.025

19%

20%

1.270

0.024

20%

20%

1.267

0.023

20%

19%

1.268

0.022

21%

18%

1.269

0.021

22%

17%

1.270

0.02

22%

16%

1.270

Предсказательная сила модели, на тестовой выборке несколько выше, чем на тренировочной: модель предсказывает верно 82% банкротов и 84% небанкротов при G-mean=1,286.

Матрица несоответствия для тестовой выборки модели ИНС №1

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

103

23

Реальный небанкрот

912

4702

Модель на основе искусственных нейронных сетей, полученная выше описанным способом, включает 21 объясняющую переменную. Переменные, чей вес в модели превысил 5%, приведены ниже. Полный список переменных приведен в Приложении №2.

Наиболее значимые переменные в модели ИНС №1

Переменная

Вес

Debt2as

26.0 %

Quick2

8.7 %

Year4

8.2 %

Curas2sales

7.5 %

Ind4

6.8 %

Year1

6.5 %

Ind3

5.5 %

Ind1

5.2 %

В списке наиболее значимых объясняющих переменных присутствуют 3 финансовых коэффициента. Коэффициент отношения совокупного долга к совокупным активам (debt2as) и коэффициент быстрой ликвидности (quick2) встречались уже в модели логистической регрессии. Коэффициент отношения текущих активов к выручке (curas2sales) в предшествующей модели логистической регрессии не встречается. Кроме финансовых коэффициентов значимыми оказались 5 дамми-переменных: 3 из них являются дамми-переменными отраслей и уже встречались в модели лог регрессии; 2 переменные -- это маркеры годов, которые оказались незначимы в проведенной ранее логистической регрессии.

По списку отобранных переменных можно заключить, что несбалансированность выборки оказала негативное влияние на предсказательную силу нейронных сетей.

Следующая модель с использованием нейронных сетей была построена аналогичным образом, за исключением методики отбора переменных. В отличии от первой модели, для анализа использовались не все переменные, а только те, что оказались значимы в логистической регрессии. Такой метод отбора переменных иногда используется в исследованиях банкротства (например, Hamdi and Mestiri, 2014).

Способ построение и отбора оптимальной точки отсечения аналогичен процедуре, проведенной для модели ИНС №1. Оптимальный уровень отсечения для тренировочной выборки - 0,026. При таком уровне модель предсказывает правильно 78% банкротов и 85% небанкротов на тренировочной выборке с G-mean=1,277. Подробные расчеты приведены в Приложении №3 и Приложении №4.

На тестовой выборке точность модели оказалась несколько ниже: 76% для банкротов и 86% для небанкротов (G-mean=1,272).

Матрица несоответствия для тестовой выборки модели ИНС №2

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

96

30

Реальный небанкрот

814

4800

Объясняющие переменные с весами из модели ИНС №2

Переменная

Вес

Quick2

22.9 %

Debt2as

13.8 %

PCA(lnta, ind3,roa, deb..,Outputs=3) #2

13.0 %

Ind3

12.4 %

Lnta

12.4 %

PCA(ind3,roa)

12.3 %

Sales2as

12.1 %

Ind1

0.8 %

Ind2

0.4 %

Как упоминалось выше, в модели ИНС №2 был использован набор переменных, которые оказались значимы в модели логит №1. Три финансовых коэффициента вошли в модель в чистом виде: показатель быстрой ликвидности (quick2), коэффициент отношения совокупных обязательств к совокупным активам (debt2as) и коэффициент отношения выручки к совокупным активам (sales2as). Еще один финансовый коэффициент - рентабельность активов (roa) - вошел в состав двух комплексных переменных. Модель также подтвердила важность размера компании, аппроксимированную через логарифм совокупных активов (lnta).

Из четырех отраслевых дамми-переменных высокую значимость показала только переменная ind3. Она вошла в модель как в чистом виде, так и в составе двух комплексных переменных. Остальные отраслевые переменные оказались малозначимыми для предсказания банкротства.

Третья модель с использованием нейронных сетей была построена на основе сбалансированной выборки. Для ее построения была использована выборка, созданная для второй модели логистической регрессии. В условиях сбалансированности панели становятся релевантными оценки модели на 50% точке отсечения - переопределять этот уровень нет необходимости. В качестве возможных объясняемых переменных были взяты имевшиеся финансовые коэффициенты и дамми-переменные периодов и отраслей. Как и в предыдущих построениях, были применены трехуровневая структура сети и разбиение выборки на тренировочную, проверочную и оценочную в пропорции 50%, 25% и 25% соответственно.

Для тренировочной выборки, в которую входит проверочная, модель правильно предсказывает 70% банкротов и 81% небанкротов с G-mean=1,232. Точность предсказания модели на оценочной выборке составляет 84% для банкротов и 87% для не банкротов с G-mean=1,309.

Матрица несоответствия для тренировочной выборки (75%) для ИНС модели №3

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

132

56

Реальный небанкрот

35

154

Матрица несоответствия для оценочной выборки (25%) для ИНС модели №3

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

53

10

Реальный небанкрот

8

54

В качестве объясняющих переменных в третью ИНС модель вошли 8 переменных. Половина из них является финансовыми коэффициентами: коэффициент соотношения совокупного долга к совокупным активам (debt2as), коэффициент оборачиваемости (turnov1), рентабельность активов (roa) и валовая рентабельность продаж (grossmarg). Остальные переменные представляют различные функции на основе выше перечисленных финансовых коэффициентов. Примечательно, что ни одна дамми-переменная в модель не вошла.

Список объясняющих переменных и их веса для ИНС модели №3

Переменная

Вес

Debt2as

26.8 %

SLTVal(roa, Val=-0,026,Off=0,122)

19.8 %

Turnov1

15.4 %

Sum(roa, grossmarg)

11.7 %

PCA(grossmarg, debt2as)

11.5 %

Roa

10.1 %

Grossmarg

3.3 %

GTVal(roa, Val=-0,026)

1.5 %

Набор объясняющих переменных в модели ИНС №3 отличается от набора переменных для модели логит №2. Единственным сходством являются лишь два финансовых коэффициента: отношение совокупных обязательств к совокупным активам (debt2as) и рентабельность активов (roa). Дамми-переменные и размер компании в ИНС модели незначимы в отличие от логистической регрессии.

Дополнительно для сбалансированной выборки была построена модель на основе искусственных нейронных сетей с использованием коэффициентов, которые оказались значимыми в логистической регрессии по сбалансированной выборке.

На тренировочной выборке точность модели составляет 68% для банкротов и 75% для небанкротов (G-mean=1,192), в то время как для оценочной выборки эти значения составляю 87% и 84% (G-mean=1,308).

Матрица несоответствия для тренировочной выборки модели ИНС №4

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

127

61

Реальный небанкрот

48

141

Матрица несоответствия для оценочной выборки модели ИНС №4

Предсказанный банкрот

Предсказанный небанкрот

Реальный банкрот

55

8

Реальный небанкрот

10

52

Объясняющие переменные модели ИНС №4 с весами

Переменная

Вес

Debt2as

31.1 %

Quick2

31.1 %

Roa

28.4 %

Lnta

9.5 %

Значимыми в рамках модели ИНС №4 оказались три финансовых коэффициента: отношение совокупных обязательства к совокупным активам (debt2as), коэффициент быстрой ликвидности (quick2) и рентабельность активов (roa). Также в модель вошла переменная размера компании (lnta).

Похожие статьи




Построение модели предсказания банкротств c использованием искусственных нейронных сетей - Влияние значений финансовых коэффициентов на вероятность банкротства компании

Предыдущая | Следующая