Построение модели предсказания банкротств c использованием искусственных нейронных сетей - Влияние значений финансовых коэффициентов на вероятность банкротства компании
Искусственные нейронные сети (ИНС) рассматриваются исследователями как возможная альтернатива статистическим методам. Исследования, использующие ИНС, как правило сопоставляют их с другими, более традиционными методами исследования: линейным дискриминантным анализом и логистической регрессией.
Искусственная нейронная сеть представляет собой математическую модель, построенную по принципу организации и функционирования биологических нейронных сетей. Схематически искусственная нейронная сеть состоит из входного слоя, скрытого уровня и выходного слоя (см. рис. 1). ИНС состоит из большого количества обрабатывающих элементов, которые соединены между собой однонаправленными сигнальными каналами. Нейроны входного уровня представляют вводные данные, а нейроны выходного слоя - разделитель между классами.
Схематическое изображения искусственной нейронной сети.
Существует возможность добавления в модель ИНС дополнительных скрытых уровней, которые, теоретически, могут повысить качество предсказаний модели. Однако ряд авторов (Chen et al, 2006; Dong et al, 2014; Hamdi and Mestiri, 2014) указывает на то, что выход за рамки стандартной, состоящей из трех слоев, структуры не привел к увеличению предсказательной силы модели, поэтому в данном исследовании будут рассмотрены ИНС только с тремя слоями.
Первоначальная модель на основе искусственных нейронных сетей строилась по исходной, несбалансированной выборке, которая была поделена на 3 части:
- - тренировочная (training) - 50% от всех наблюдения; эти наблюдения были доступны для обучения сети; - проверочная (validation) - 25% от всех наблюдений; эти наблюдения использовались для избегания эффекта переобучения сети; они не были доступны для сети в режиме обучения; - оценочная (estimation) - 25% от всех наблюдений; на этой подвыборке проводилась оценка предсказательной силы, по которой модели сравнивались между собой.
В качестве набора переменных для первой модели на основе нейронных сетей использовались все доступные переменные, включая дамми-переменные периодов и отраслей.
Ранжировка моделей по качеству производилась по набранным им очкам эксперимента (experiment score), которые автоматически рассчитывались программным обеспечением (NeuroSolutions Infinity). Производитель ПО не предоставляет точной расчетной формулы для этого показателя, однако уточняет, что при его расчете принимаются во внимание такие показатели как: площадь под ROC кривой, процент правильных предсказаний, нормализованный показатель RMSD, нормализованный показатель MAE, а также средний процент правильных предсказаний для каждого класса.
Несмотря на то, что расчетные очки эксперимента включают в себя показатель ошибки модели по классам, используемая выборка оказалась слишком несбалансированной для корректного применения базовых оценочных методов, заложенных в ПО. Итоговая модель, признанная наилучшей по значению очков эксперимента, правильно предсказывает 4 банкрота из 36 и 1 398 небанкротов из 1 399 на оценочной выборке, которая составляла 25% от общей. Модель на основе нейронных сетей обладает тем же недостатком, что и логистическая регрессия при оценке ее на уровне 50%.
Матрица несоответствия для оценочной выборки (базовая оценка) модели ИНС №1
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
4 |
32 |
Реальный небанкрот |
1 |
1398 |
Выходная величина модели, полученной с применением искусственных нейронных сетей, представлена числом от 0 до 1. По умолчанию компания признается банкротом, если эта величина больше 0,5. По аналогии с логистической регрессией, существует возможность оптимизировать этот уровень для достижения максимальной предсказательной силы модели на тренировочной выборке. Оценка модели в данном случае будет проводится с применением выведенного уровня отсечения к тестовой выборке (в тестовую выборку включены как оценочная подвыборка, так и проверочная).
Значение G-mean для различных точек отсечения модели ИНС №1
Уровень |
Ошибка по небанкротам |
Ошибка по банкротам |
G-mean |
0.5 |
0% |
97% |
1.013 |
0.45 |
0% |
96% |
1.021 |
0.4 |
0% |
95% |
1.023 |
0.35 |
0% |
94% |
1.027 |
0.3 |
1% |
86% |
1.063 |
0.25 |
1% |
78% |
1.102 |
0.2 |
1% |
71% |
1.129 |
0.15 |
2% |
62% |
1.168 |
0.1 |
4% |
49% |
1.212 |
0.05 |
10% |
29% |
1.269 |
0.04 |
13% |
25% |
1.274 |
0.03 |
17% |
20% |
1.277 |
0.02 |
22% |
16% |
1.270 |
0.01 |
31% |
14% |
1.246 |
Как и для логистической регрессии, оптимальной точкой отсечения оказалось значение, локализованное в районе 0,03. Для уточнения третьего знака после запятой, была проведена детализация в диапазоне от 0,02 до 0,04. Оптимальным значением, с G-mean равным 1,277, оказалась точка отсечения равная 0,03. При таком условии, точность модели на тренировочной выборке составляет 80% для банкротов и 83% для небанкротов.
Уточнение точки отсечения согласно G-mean для модели ИНС №1
Уровень |
Ошибка по небанкротам |
Ошибка по банкротам |
G-mean |
0.04 |
13% |
25% |
1.274 |
0.039 |
13% |
25% |
1.274 |
0.038 |
13% |
25% |
1.273 |
0.037 |
14% |
24% |
1.273 |
0.036 |
14% |
23% |
1.276 |
0.035 |
14% |
23% |
1.276 |
0.034 |
15% |
23% |
1.275 |
0.033 |
15% |
22% |
1.274 |
0.032 |
16% |
22% |
1.274 |
0.031 |
16% |
22% |
1.274 |
0.03 |
17% |
20% |
1.277 |
0.029 |
17% |
20% |
1.275 |
0.028 |
18% |
20% |
1.275 |
0.027 |
18% |
20% |
1.273 |
0.026 |
19% |
20% |
1.272 |
0.025 |
19% |
20% |
1.270 |
0.024 |
20% |
20% |
1.267 |
0.023 |
20% |
19% |
1.268 |
0.022 |
21% |
18% |
1.269 |
0.021 |
22% |
17% |
1.270 |
0.02 |
22% |
16% |
1.270 |
Предсказательная сила модели, на тестовой выборке несколько выше, чем на тренировочной: модель предсказывает верно 82% банкротов и 84% небанкротов при G-mean=1,286.
Матрица несоответствия для тестовой выборки модели ИНС №1
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
103 |
23 |
Реальный небанкрот |
912 |
4702 |
Модель на основе искусственных нейронных сетей, полученная выше описанным способом, включает 21 объясняющую переменную. Переменные, чей вес в модели превысил 5%, приведены ниже. Полный список переменных приведен в Приложении №2.
Наиболее значимые переменные в модели ИНС №1
Переменная |
Вес |
Debt2as |
26.0 % |
Quick2 |
8.7 % |
Year4 |
8.2 % |
Curas2sales |
7.5 % |
Ind4 |
6.8 % |
Year1 |
6.5 % |
Ind3 |
5.5 % |
Ind1 |
5.2 % |
В списке наиболее значимых объясняющих переменных присутствуют 3 финансовых коэффициента. Коэффициент отношения совокупного долга к совокупным активам (debt2as) и коэффициент быстрой ликвидности (quick2) встречались уже в модели логистической регрессии. Коэффициент отношения текущих активов к выручке (curas2sales) в предшествующей модели логистической регрессии не встречается. Кроме финансовых коэффициентов значимыми оказались 5 дамми-переменных: 3 из них являются дамми-переменными отраслей и уже встречались в модели лог регрессии; 2 переменные -- это маркеры годов, которые оказались незначимы в проведенной ранее логистической регрессии.
По списку отобранных переменных можно заключить, что несбалансированность выборки оказала негативное влияние на предсказательную силу нейронных сетей.
Следующая модель с использованием нейронных сетей была построена аналогичным образом, за исключением методики отбора переменных. В отличии от первой модели, для анализа использовались не все переменные, а только те, что оказались значимы в логистической регрессии. Такой метод отбора переменных иногда используется в исследованиях банкротства (например, Hamdi and Mestiri, 2014).
Способ построение и отбора оптимальной точки отсечения аналогичен процедуре, проведенной для модели ИНС №1. Оптимальный уровень отсечения для тренировочной выборки - 0,026. При таком уровне модель предсказывает правильно 78% банкротов и 85% небанкротов на тренировочной выборке с G-mean=1,277. Подробные расчеты приведены в Приложении №3 и Приложении №4.
На тестовой выборке точность модели оказалась несколько ниже: 76% для банкротов и 86% для небанкротов (G-mean=1,272).
Матрица несоответствия для тестовой выборки модели ИНС №2
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
96 |
30 |
Реальный небанкрот |
814 |
4800 |
Объясняющие переменные с весами из модели ИНС №2
Переменная |
Вес |
Quick2 |
22.9 % |
Debt2as |
13.8 % |
PCA(lnta, ind3,roa, deb..,Outputs=3) #2 |
13.0 % |
Ind3 |
12.4 % |
Lnta |
12.4 % |
PCA(ind3,roa) |
12.3 % |
Sales2as |
12.1 % |
Ind1 |
0.8 % |
Ind2 |
0.4 % |
Как упоминалось выше, в модели ИНС №2 был использован набор переменных, которые оказались значимы в модели логит №1. Три финансовых коэффициента вошли в модель в чистом виде: показатель быстрой ликвидности (quick2), коэффициент отношения совокупных обязательств к совокупным активам (debt2as) и коэффициент отношения выручки к совокупным активам (sales2as). Еще один финансовый коэффициент - рентабельность активов (roa) - вошел в состав двух комплексных переменных. Модель также подтвердила важность размера компании, аппроксимированную через логарифм совокупных активов (lnta).
Из четырех отраслевых дамми-переменных высокую значимость показала только переменная ind3. Она вошла в модель как в чистом виде, так и в составе двух комплексных переменных. Остальные отраслевые переменные оказались малозначимыми для предсказания банкротства.
Третья модель с использованием нейронных сетей была построена на основе сбалансированной выборки. Для ее построения была использована выборка, созданная для второй модели логистической регрессии. В условиях сбалансированности панели становятся релевантными оценки модели на 50% точке отсечения - переопределять этот уровень нет необходимости. В качестве возможных объясняемых переменных были взяты имевшиеся финансовые коэффициенты и дамми-переменные периодов и отраслей. Как и в предыдущих построениях, были применены трехуровневая структура сети и разбиение выборки на тренировочную, проверочную и оценочную в пропорции 50%, 25% и 25% соответственно.
Для тренировочной выборки, в которую входит проверочная, модель правильно предсказывает 70% банкротов и 81% небанкротов с G-mean=1,232. Точность предсказания модели на оценочной выборке составляет 84% для банкротов и 87% для не банкротов с G-mean=1,309.
Матрица несоответствия для тренировочной выборки (75%) для ИНС модели №3
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
132 |
56 |
Реальный небанкрот |
35 |
154 |
Матрица несоответствия для оценочной выборки (25%) для ИНС модели №3
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
53 |
10 |
Реальный небанкрот |
8 |
54 |
В качестве объясняющих переменных в третью ИНС модель вошли 8 переменных. Половина из них является финансовыми коэффициентами: коэффициент соотношения совокупного долга к совокупным активам (debt2as), коэффициент оборачиваемости (turnov1), рентабельность активов (roa) и валовая рентабельность продаж (grossmarg). Остальные переменные представляют различные функции на основе выше перечисленных финансовых коэффициентов. Примечательно, что ни одна дамми-переменная в модель не вошла.
Список объясняющих переменных и их веса для ИНС модели №3
Переменная |
Вес |
Debt2as |
26.8 % |
SLTVal(roa, Val=-0,026,Off=0,122) |
19.8 % |
Turnov1 |
15.4 % |
Sum(roa, grossmarg) |
11.7 % |
PCA(grossmarg, debt2as) |
11.5 % |
Roa |
10.1 % |
Grossmarg |
3.3 % |
GTVal(roa, Val=-0,026) |
1.5 % |
Набор объясняющих переменных в модели ИНС №3 отличается от набора переменных для модели логит №2. Единственным сходством являются лишь два финансовых коэффициента: отношение совокупных обязательств к совокупным активам (debt2as) и рентабельность активов (roa). Дамми-переменные и размер компании в ИНС модели незначимы в отличие от логистической регрессии.
Дополнительно для сбалансированной выборки была построена модель на основе искусственных нейронных сетей с использованием коэффициентов, которые оказались значимыми в логистической регрессии по сбалансированной выборке.
На тренировочной выборке точность модели составляет 68% для банкротов и 75% для небанкротов (G-mean=1,192), в то время как для оценочной выборки эти значения составляю 87% и 84% (G-mean=1,308).
Матрица несоответствия для тренировочной выборки модели ИНС №4
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
127 |
61 |
Реальный небанкрот |
48 |
141 |
Матрица несоответствия для оценочной выборки модели ИНС №4
Предсказанный банкрот |
Предсказанный небанкрот | |
Реальный банкрот |
55 |
8 |
Реальный небанкрот |
10 |
52 |
Объясняющие переменные модели ИНС №4 с весами
Переменная |
Вес |
Debt2as |
31.1 % |
Quick2 |
31.1 % |
Roa |
28.4 % |
Lnta |
9.5 % |
Значимыми в рамках модели ИНС №4 оказались три финансовых коэффициента: отношение совокупных обязательства к совокупным активам (debt2as), коэффициент быстрой ликвидности (quick2) и рентабельность активов (roa). Также в модель вошла переменная размера компании (lnta).
Похожие статьи
-
Основной целью исследования является сравнение предсказательной силы моделей, построенных на основе различных методов. В условиях несбалансированности...
-
На следующем этапе в модель были добавлены дамми-переменные годов и отраслей. Таблицы соотношения переменных и данных приведены ниже. Кроме дамми...
-
Для прогнозирования банкротства, некоторые исследователи создают модели, основанные на использовании искусственных нейронных сетей. Как правило,...
-
В первоначальном выборе объясняющих переменных существует две стратегии. Часть авторов осуществляют подбор переменных, опираясь на собственные...
-
Данная работа опирается на исследования, посвященные проблематике предсказания банкротства компаний. Наибольший интерес в работах предшественников...
-
Заключение - Влияние значений финансовых коэффициентов на вероятность банкротства компании
В рамках данного исследования были построены и оценены модели предсказания банкротства на базе логистической регрессии и искусственных нейронных сетей...
-
Влияние значений финансовых коэффициентов на вероятность банкротства компании
Детализация расчета точки отсечения через G-mean для модели ИНС №2. Уровень Ошибка по небанкротам Ошибка по банкротам G-mean 0.04 10% 31% 1.262 0.039 10%...
-
Среди современных исследований на тему предсказания банкротства можно выделить группу работ, которые не ставят своей целью сравнение предсказательной...
-
Описание данных Данные для исследования получены из базы Руслана, предоставляемой компанией Бюро Ван Дайк. Эта база содержит данные финансовой отчетности...
-
Большинство современных исследований, посвященных предсказанию банкротства, используют больше одного метода моделирования и делают выводы о сравнительной...
-
Введение - Влияние значений финансовых коэффициентов на вероятность банкротства компании
Моделирование вероятности банкротства является широко применимой практической процедурой, которая необходима любой крупной кредитной организации....
-
Построение модели с помощью логистической регрессии Прежде чем строить логистическую регрессию, необходимо выбрать конечный набор финансовых и...
-
Приложения, - Влияние значений финансовых коэффициентов на вероятность банкротства компании
Описательные статистики по финансовым коэффициентам. Переменная Количество наблюдений Среднее Медиана 25 перцентиль 75 перцентиль Стандартное отклонение...
-
Постановка гипотез - Влияние значений финансовых коэффициентов на вероятность банкротства компании
Цель данной работы заключается в сравнении предсказательной силы логистической регрессии и искусственных нейронных сетей (ИНС) в рамках моделирования...
-
Отбор и классификация объясняющих переменных Для всесторонней оценки строительной компании в ходе анализа будут использоваться финансовые,...
-
Построение модели с помощью метода деревьев решений - Моделирование вероятности банкротства
В отличие от логистической регрессии, при использовании метода деревьев решений ограничения для независимых переменных отсутствуют, поэтому для...
-
Описание используемых методов - Моделирование вероятности банкротства
В данной работе было принято решение использовать логистический анализ с помощью пакета STATA, а также алгоритм CART с помощью SPSS Modeler. Бинарная...
-
Итак, модели, которые будут дальше анализироваться, и получены с помощью Первого метода - проведения теста для выделения наиболее дескриптивных...
-
Существует целый ряд классификаций моделей используемых для прогнозирования финансовой несостоятельности заемщиков. В своей работе Григорьева Т. И....
-
Среди различных конфигураций искусственных нейронных сетей встречаются такие, при классификации которых по принципу обучения, строго говоря, не подходят...
-
Для анализа был выбран временной диапазон с 2004 года по 2014 год. В целях построения прогнозной модели собранные годовые данные были разделены на две...
-
Построение многофакторной корреляционно-регрессионной модели производительности труда
Построение многофакторной корреляционно-регрессионной модели производительности труда Данная работа направлена на выявление факторов, от которых зависит...
-
Теперь, когда в рамках данного исследования была получена модель с наилучшими характеристиками для непубличных строительных компаний, полученные...
-
Помимо технических характеристик здания, анализируемых выше, объекты офисной недвижимости характеризуются факторами удобства для арендаторов. К таким...
-
Использование в экономических исследованиях методов регрессии и корреляции - Эконометрика как наука
Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Это объясняется простотой исследования...
-
Проблема прогнозирования вероятности банкротства существует уже несколько десятков лет - все началось с работ Ramser, Foster (1931), Fitzpatrick (1932) и...
-
Интерпретация финальной модели - Уровень конкурентоспособности строительных компаний
Перейдем к интерпретации построенной модели для непубличных строительных компаний, так как она представляет не меньший интерес, чем прогнозное качество...
-
Тест на переобучаемость финальной модели - Уровень конкурентоспособности строительных компаний
Как отмечалось в ходе исследования, logit-модель может характеризоваться сильной зависимостью от обучающей выборки. Поэтому чтобы быть уверенным в...
-
Моделирование временной переменная автокорреляция Главным инструментом эконометрического исследования является модель. Выделяют три основных класса...
-
Выбор переменных - Моделирование вероятности банкротства
Как уже было отмечено выше, единого набора финансовых и нефинансовых показателей, которые необходимо включать в модели, не существует, поэтому было...
-
Построение и анализ эконометрической модели - Построение экономических моделей
На основе данных таблицы 1 приложения А построим предварительную регрессионную модель: Модель 1: МНК, использованы наблюдения 2005:01-2007:12 (T = 36)...
-
Теоретическое обоснование модели - Построение экономических моделей
Гомоскедастичностью называется выполняемость предпосылки о постоянстве дисперсии отклонений. Гетероскедастичностью называется невыполняемость этой самой...
-
На основе данных таблицы 1 приложения А построим предварительную регрессионную модель: Модель 1: МНК, использованы наблюдения 2005:01-2007:12 (T = 36)....
-
Гомоскедастичностью называется выполняемость предпосылки о постоянстве дисперсии отклонений. Гетероскедастичностью называется невыполняемость этой самой...
-
Описание данных - Моделирование вероятности банкротства
Данные для исследования были взяты из базы Ruslana (Bureau van Dijk), содержащей финансовую и некоторую нефинансовую информацию об организациях из...
-
Построение модели на реальных данных - Ранговый метод оценивания параметров регрессионной модели
Для построения линейной регрессионной модели на основе реальных данных при помощи рангового метода оценивания параметров был выбран достаточно известный...
-
Методология исследования, Постановка гипотез - Моделирование вероятности банкротства
Постановка гипотез Целью данного исследования является построение модели вероятности банкротства, которая будет обладать надежностью не менее 80%. По...
-
Нефинансовые факторы, влияющие на вероятность банкротства - Моделирование вероятности банкротства
Как было отмечено выше, важность финансовых показателей для определения вероятности банкротства фирмы была замечена в самых ранних работах. Однако...
-
Применим аппарат. Результаты приведены ниже Таблица 6. индексный анализ Рисунок 4. График сглаженного признака Полиномиальная регрессия Приведем массив...
-
Определение критериев события дефолт Строительная отрасль является одним из главных двигателей экономики. В России количество компаний, работающих на...
Построение модели предсказания банкротств c использованием искусственных нейронных сетей - Влияние значений финансовых коэффициентов на вероятность банкротства компании