Статистический анализ влияния загрязнения воды и воздуха на продолжительность жизни и смертность от новообразований и респираторных заболеваний, Методология и данные - Анализ влияния качества окружающей среды на здоровье населения

Методология и данные

Для того чтобы определить влияние загрязнения воды и воздуха на продолжительность жизни и смертность от новобразований и респираторных заболеваний в Российской Федерации будет проведен статистический анализ. Ожидается, что регрессионные уравнения подтвердят гипотезу о том, что загрязнение окружающей среды негативно отражается на здоровье населения.

Источником данных являются публикации Федеральной службы государственной статистики, размещенные на сайте службы, а также статистические материалы Министерства здравоохранения РФ. В работе были взяты показатели по 82 субъектам РФ за 2010 год, которые были максимально доступными. Расчеты проводились средствами Microsoft Excel и эконометрического пакета Statistica.

Пусть зависимые переменные YI в n наблюдениях определяется m объясняющими факторами Х=(Х1, Х2.., ХM), а функциональная зависимость между ними имеет вид:

В качестве зависимых переменных выступили следующие показатели:

Y1 - стандартизованный коэффициент смертности от злокачественных новообразований (для мужчин и женщин);

Y2 - стандартизованный коэффициент смертности от болезней органов дыхания (для мужчин и женщин);

Y3 - ожидаемая продолжительность жизни при рождении (для мужчин и женщин).

Критериями оценки состояния атмосферного воздуха в регионах выступят такие показатели, как выбросы загрязняющих веществ, приходящиеся на единицу территории и на душу населения. А критериями оценки состояния водных ресурсов - объем сброшенной загрязненной воды на душу населения. В качестве контрольных переменных, характеризующих экономическое состояние региона и дополнительные факторы влияния на здоровье, были использованы следующие данные: среднедушевые денежные доходы населения, валовой региональный продукт на душу населения, число лиц с высшем образованием, а также доли занятых на тяжелых работах и работающих в условиях, не отвечающих гигиеническим нормативам условий труда.

Независимые переменные следующие:

X1 - объем выбросов в атмосферу загрязняющих веществ от стационарных источников (с учетом улавливания), тонн на 1 человека;

X2 - плотность загрязнения воздуха, тонн на км2;

X3 - объем сброшенной загрязненной сточной, шахтно-рудничной, карьерной и коллекторно-дренажной воды, тонн на 1 человека;

X4 - среднедушевые денежные доходы населения, рублей;

X5 - ВРП на душу населения, рублей;

X6 - число мужчин и женщины в возрасте старше 15 лет, имеющих высшее образование и более, человек

X7 - доля занятых на рабочих местах с тяжелыми и вредными условиями труда, %

X8 - доля работающих в условиях, не отвечающих гигиеническим нормативам условий труда, %.

Перед тем как преступить непосредственно к анализу зависимости, необходимо исключить из исходных массивов переменных грубые ошибки и проверить данные на нормальность. Однако, ввиду большого количества переменных и неоднородности региональных показателей, достичь нормальности для всех не представляется возможным. В противном случае в выборке не осталось бы данных. Для исключения грубых ошибок был проведен тест Титьена-Мура [12] для зависимых переменных, а так же для контрольных переменных. Результатом проведения теста стало исключение 30 субъектов РФ, в том числе г. Москвы и г. Санкт-Петербурга.

С помощью теста Шапиро-Уилка [12] была проверена гипотеза о нормальности распределения. Все объясняемые переменные подчинены нормальному закону распределения. Результаты теста и гистограммы соответствующих переменных представлены в Приложении 12.

Также необходимо выяснить, какие переменные должны входить в это уравнения регрессии, а какие нет. Поскольку мы имеем довольно много различных параметров и не имеем представления об их поведении между собой, то, прежде чем строить само уравнение регрессии, построим корреляционную матрицу парных коэффициентов корреляции для всех имеющихся переменных. По данной матрице можно определить наличие проблемы мультиколлинеарности, заключающейся в том, что регрессоры могут тесно коррелировать друг с другом, что в свою очередь может привести к сдвигу оценок регрессии в меньшую сторону [12].

Корреляционная матрица выглядит следующим образом:

Таблица 2

Корреляционная матрица исходных данных для регрессии Y1

X1

X2

X3

X4

X5

X6

X7

X8

X1

1,0000

X2

0,6462

1,0000

X3

0,3592

0,1725

1,0000

X4

0,3090

0,1661

0,5991

1,0000

X5

0,4377

0,2527

0,5479

0,7273

1,0000

X6

0,6141

0,2681

0,0332

0,3016

0,2113

1,0000

X7

0,4995

0,3701

0,4713

0,2112

0,3538

0,0549

1,0000

X8

0,3786

0,2911

0,5288

0,4221

0,5468

-0,0986

0,6235

1,0000

Как видно из Таблицы 2, переменные, значение корреляций которых отмечено красным, тесно связаны друг с другом, что свидетельствует о наличии мультиколлинеарности. Для борьбы с возникшей проблемой будет использован метод включения переменных и метод исключения переменных. Поэтому все последующие регрессии будут строиться пошаговым методом.

Процесс построения регрессионных уравнений описывается в следующем параграфе.

Похожие статьи




Статистический анализ влияния загрязнения воды и воздуха на продолжительность жизни и смертность от новообразований и респираторных заболеваний, Методология и данные - Анализ влияния качества окружающей среды на здоровье населения

Предыдущая | Следующая