Подготовка данных для построения модели и статистический отбор объясняющих переменных - Анализ и прогнозирование уровня конкурентоспособности компаний строительного комплекса

Для анализа был выбран временной диапазон с 2004 года по 2014 год. В целях построения прогнозной модели собранные годовые данные были разделены на две выборки: обучающую (2004 - 2013 гг.) и тестовую (2014 год). При построении модели вероятности дефолта компании и дальнейшем тестировании качества полученной модели использовался годовой временной лаг, что соответствует рекомендациям БКБН. В рамках обучающей выборки для анализа были выбраны 1505 строительных непубличных компании, не имеющих пропусков в бухгалтерской и финансовой отчетности (из них 301 компания, допустившая дефолт). Тестовую выборку составляют 805 строительных компаний (из них 161 компания, допустившая дефолт в 2014 году). Для построения logit-модели используются панельные данные. Сразу стоит обратить внимание на вопрос полноты панели, которая заключается в наблюдении одних и тех же объектов в течение одного и того же времени. Так как по ходу анализа исследуемой выборки, каждый год "вылетают" дефолтные организации, то появилась проблема несбалансированности панели. Решение этой проблемы было достигнуто рассмотрением панели с замещением, впервые предложенной Biorn E. (1981). Смысл данного метода заключается в поддержании постоянного размера анализируемой выборки. Выбывающие из дальнейшего анализа из-за дефолта компании на каждом этапе (в каждом году) заменяются таким же количеством соразмерных организаций до этого не участвовавших в анализе. Таким образом, в ходе анализа дополнительно был реализован алгоритм в R, который сразу зарезервировал 301 аналог для дефолтных организаций обучающей выборки и по мере анализа данных каждого последующего года включал в дальнейший анализ ровно то количество компаний, которые допустили дефолт в анализируемом году. Данный подход препятствует истощению выборки (Ратникова, 2006). Так как logit-модель очень чувствительна к мультиколлинерности начнем анализ данных с ее анализа. Определим допустимый уровень парных корреляций (связанности) переменных 0,3 (см. табл.5), такой же, как был предложен в работе по моделированию вероятности дефолта российских банков при помощи логистической модели с панельной структурой данных (Карминский, 2012). Стоит отметить, что в ходе исследования будут построены модели двумя способами. Первый - отбор объясняющих переменных с помощью статистического анализа (отсутствие сильной корреляции между переменными, их сильная разделяющая способность и значимость), второй - включение объясняющих переменных в модель по одной из каждой группы (размер компании, рентабельность, ликвидность, деловая активность, финансовая устойчивость), также учитывая отсутствие сильной корреляции между переменными. Также для каждой из полученных такими подходами моделей будет проведен анализ значимости макроэкономических и институциональных переменных, а также проверка функциональной зависимости включенных переменных (квадратичная форма). Итак, для формирования первых спецификаций моделей по принципу статистического отбора переменных проведем тест на разделяющую способность между двумя группами (в данном случае - дефолтные и устойчивые компании) для каждой финансовой и институциональной переменной, чтобы в дальнейший анализ включать только те, значения которых имеют значимые различия между двумя группами. Для этих целей проведем дисперсионный анализ на разделяющую способность переменных, с помощью ANOVA-теста. Нулевая гипотеза H0: разделяющей способности между показателями нет, если P-value близко к нулю, то гипотеза Н0 отвергается и принимается альтернативная гипотеза о разделительной способности. Перед проведением анализа на разделение классов были отброшены статистические выбросы у относительных переменных не дефолтных компаний. Полученные результаты отражены в таблице 4 и будут использоваться для дальнейшего построения модели.

Таблица 4.

Разделяющая способность отобранных переменных

Переменные

P-value в ANOVA-test

Вывод

Goldrule

0.000713 ***

Гипотеза о равенстве средних отвергается

Ln_Netassets

<2e-16 ***

Гипотеза о равенстве средних отвергается

Ln_rev

2.71 e-07 ***

Гипотеза о равенстве средних отвергается

Liab_assets

<2e-16 ***

Гипотеза о равенстве средних отвергается

Rev_cur_assets

<2e-16 ***

Гипотеза о равенстве средних отвергается

Portion_fix_liab

0.247

Гипотеза о равенстве средних НЕ отвергается

Turn_assets

<2e-16 ***

Гипотеза о равенстве средних отвергается

Turn_ac_rec

0.00148 **

Гипотеза о равенстве средних отвергается

Turn_ac_pay

0.00748 **

Гипотеза о равенстве средних отвергается

ROA

<2e-16 ***

Гипотеза о равенстве средних отвергается

CF_liab

0.753

Гипотеза о равенстве средних НЕ отвергается

Turn_reserv

2.82 e-06 ***

Гипотеза о равенстве средних отвергается

Ac_rec_assets

0.392

Гипотеза о равенстве средних НЕ отвергается

Property _status

<2e-16 ***

Гипотеза о равенстве средних отвергается

Capital_product

3.32 e-07 ***

Гипотеза о равенстве средних отвергается

Work_cap_assets

<2e-16 ***

Гипотеза о равенстве средних отвергается

Prevent_bank

0.00104 **

Гипотеза о равенстве средних отвергается

ROE

3.99 e-10 ***

Гипотеза о равенстве средних отвергается

Abs_liq

0.699

Гипотеза о равенстве средних НЕ отвергается

Ac_recpay

0.521

Гипотеза о равенстве средних НЕ отвергается

Cur_liq

0.777

Гипотеза о равенстве средних НЕ отвергается

Autonomy

<2e-16 ***

Гипотеза о равенстве средних отвергается

ROS

0.304

Гипотеза о равенстве средних НЕ отвергается

Location

0.632

Гипотеза о равенстве средних НЕ отвергается

Co-owners

0.971

Гипотеза о равенстве средних НЕ отвергается

Black_list

0.209

Гипотеза о равенстве средних НЕ отвергается

Tax_arrears

0.000457 ***

Гипотеза о равенстве средних отвергается

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Таблица 5.

Парные корреляции финансовых и институциональных переменных

Далее опишем примененный алгоритм отбора объясняющих переменных с учетом парных корреляций и разделяющей способности в ходе реализации первого метода построения модели. Исключаем отношение дебиторской задолженности к кредиторской задолженности (Ac_recpay) из-за сильной корреляции с 5 из 26 переменных, в том числе данная переменная не показала сильной разделяющей способности при ANOVA-тесте. Далее осуществляем выбор между коэффициентом автономии (Autonomy) и натуральным логарифмом чистых активов (Ln_Netassets), которые имеют сильную корреляцию с 5 переменными, но Ln_Netassets имеют одну из сильных корреляций с долей долгосрочных обязательств (Portion_fix_liab), которая не показала сильной разделяющей способности, а значит все равно не значима для модели и не будет в нее включена, в свою очередь Autonomy имеет сильные зависимости с переменными с хорошей разделяющей способностью. Значит, исключаем Autonomy. Далее выбираем между Ln_Netassets (4 сильных корреляции - одна из них с плохо разделяющей переменной), коэффициент абсолютной ликвидности (Abs_liq) (3 сильных корреляции), коэффициент текущей ликвидности (Cur_liq) (3 сильных корреляции). При этом Abs_liq и Cur_liq сами по себе обладают слабой разделяющей способностью между дефолтными и состоятельными компаниями и сильно зависимы между собой, включать в модель их не имеет практического смысла. Поэтому на данном шаге последовательно исключаем Abs_liq и Cur_liq. Далее выбираем между Ln_Netassets (4 сильных зависимости - одна из с плохо разделяющей переменной), Liab_assets (3 сильных зависимости), Work_cap_assets (3 сильных зависимости), причем все три довольно сильно зависят друг от друга. Получается, оставить нужно только один, чтобы избежать мультиколлинеарности. Так как отношение рабочего капитала к активам (Work_cap_assets) имеет сильную зависимость с рентабельностью активов (ROA), которая по проведенному нами анализу хорошо разделяет обе группы между собой и в том числе выделяется международными исследователями, как одна из наиболее значимых для предсказания вероятности дефолта компаний, то удаляем именно Work_cap_assets. Между оставшимися переменными Ln_rev и Ln_Netassets, которые сильно зависят друг от друга, было принято решение оставить показатель Ln_Netassets, целесообразность применения которого подтверждается исследованиями отечественных исследователей (Peresetsky et al., 2011).

Итак, если оставляем Ln_Netassets, то остается сделать выбор между Turn_assets и Rev_cur_assets, которые будут включаться поочередно. Таким образом, в этом случае определены две модели для дальнейшего анализа:

Модель 1: Default ~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_Netassets + Rev_cur_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Property_status + Capital_product + Prevent_bank

Модель 2: Default ~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_Netassets + Turn_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Property_status + Capital_product + Prevent_bank

НО если вернуться к выбору между Ln_Netassets и Ln_rev, которые зависят друг от друга, то можно попробовать включить в модель либо Ln_rev и Liab_assets, либо Ln_rev и Property_status. В этом случае также нужно сделать выбор между Turn_assets и Rev_cur_assets, которые сильно зависят друг от друга и только. Получаем следующие модели, полученные также как и первые две на основе статистического отбора переменных (уровня парных корреляций и разделяющей способности переменных):

Модель 3: Default~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_rev + Liab_assets + Rev_cur_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Capital_product + Prevent_bank

Модель 4: Default~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_rev + Liab_assets + Turn_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Capital_product + Prevent_bank

Модель 5: Default~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_rev + Property_status + Rev_cur_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Capital_product + Prevent_bank

Модель 6: Default~ Location +Tax_arrears + ROA + ROE + Goldrule + Ln_rev + Property_status + Turn_assets + Turn_ac_rec + Turn_ac_pay + Turn_reserv + Capital_product + Prevent_bank

Макроэкономические переменные также прошли проверку на парную корреляцию, полученные результаты отражены в таблице 6, а возможные комбинации их использования в модели определены следующим образом:

    - Инвестиции и Торговый баланс; - Торговый баланс, Уровень безработицы и Уровень инфляции; - Безработица, кризисная дамми-переменная и пост-кризисная дамми-переменная; - ВВП; - кризисная дамми-переменная и пост-кризисная дамми-переменная.

Таблица 6.

Парные корреляции отобранных макроэкономических переменных

Похожие статьи




Подготовка данных для построения модели и статистический отбор объясняющих переменных - Анализ и прогнозирование уровня конкурентоспособности компаний строительного комплекса

Предыдущая | Следующая