Поиск данных в различных источниках - Создание модели хранилища данных

Коллекционирование данных является основой любого исследования. В данном исследовании необходима информация, в первую очередь, об объемах входящих и исходящих авиаперевозок в регионах России за 2005-2011 годы. Эта информация не доступна в открытых источниках, следовательно, эти данные будут смоделированы на основе других показателей развития в регионах России. В качестве таких показателей были взяты:

    1. численность населения; 2. валовый региональный продукт (ВРП); 3. уровень экономической активности населения.

Эти данные были собраны для 32 крупнейших городов из 29 различных регионов за период с 2005 по 2011 год. Ниже представлен перечень регионов, по которым собирались данные:

Таблица 3: Рассматриваемые в системе регионы

Московский регион*

Свердловская область

Ленинградский регион*

Ханты-мансийский а. округ (Югра)

Хабаровский край

Тюменская область

Приморский край

Республика Дагестан

Красноярский край

Ростовская область

Ярославская область

Ивановская область

Новосибирская область

Алтайский край

Иркутская область

Пермский край

Камчатский край

Самарская область

Сахалинская область

Республика Башкортостан

Краснодарский край

Нижегородская область

Республика Саха (Якутия)

Республика Татарстан

Магаданская область

Омская область

Челябинская область

Волгоградская область

Воронежская область

* Примечание. Московский регион объединяет в себе федеральные субъекты "Москва" и "Московская область". Аналогично и с ленинградским регионом

Также важно отметить, что некоторые значения коэффициентов и параметров, введенные в данной главе, не являются результатом применения математических моделей. Они предлагаются исходя из разумных предположений. Данное допущение возможно, т. к. в работе предполагается построение системы анализа авиаперевозок, которая в свою очередь не нуждается в высокой достоверности данных, потому что является всего лишь инструментом исследования.

Регионы отбирались по следующему принципу: во-первых, были взяты регионы, на территории которых есть города-миллионники. Во-вторых, брались регионы с максимальным исходящим авиационным грузопотоком в 2011 году по статистике Торговой Клиринговой Палаты (ТКП).

Для каждого из вышеперечисленных регионов были найдены различные экономические показатели за период с 2005 по 2011 год. Чтобы как-то диверсифицировать данные показатели по значимости, были предположено, что каждому показателю соответствует определенный коэффициент. Сумма коэффициентов получается равной единице. Данные коэффициенты не рассчитывались при помощи математических или экономических моделей; они были предложены автором работы из соображений здравого смысла.

Во-первых, была собрана статистика по численности населения за указанный период. Источником послужили базы Федеральной службы государственной статистики (Www. gks. ru) [15]. Численность населения -- это важнейший показатель экономического развития страны. Поэтому данному фактору присвоен коэффициент значимости 0,4 из 1.

Примечание. Коэффициенты значимости будут использоваться при моделировании данных.

Вторым, не менее важным показателем развития в регионах, данные по которому были собраны в рамках исследования, это региональный валовый продукт. Валовой региональный продукт представляет сумму валовой добавленной стоимости, созданной всеми институциональными единицами-резидентами на экономической территории региона (без учета чистых налогов на продукты). Уровень значимости для исследования -- 0,4 из 1. Источник -- www. gks. ru [15].

Третья величина, от которой в некоторой степени зависит развитие региона, - это уровень экономической активности населения. Этот показатель представляет собой процент активного населения от общей численности региона. Например, в 2011 году в Московском регионе этот показатель составил 72,2. Значимость этого показателя не так велика, как значимость предыдущих двух показателей. Поэтому коэффициент значимости был взят равным 0,2 из 1. Источник -- www. gks. ru. [15]

Также была собрана информация о суммарном внутреннем авиатранспортном грузовом обороте за 2005-2011 годы. Источник -- ТКП [16]. В таблице 4 представлены собранные по этому пункту данные:

Таблица 4: Ежегодный объем авиатранспортных потоков в России

2005

2006

2007

2008

2009

2010

2011

197,19

202,94

231,67

245,08

224,01

291,02

306,34

Тыс. тонн

Дополнительно были введены коэффициенты оттока и притока грузов для каждого региона. Они нужны для того, чтобы при моделировании распределить общий грузооборот в регионе на исходящие и входящие грузопотоки. Например, если в регионе за 2005 год общий оборот грузов равняется 10 тыс. тонн, а коэффициент оттока товаров равняется 60%, то исходящий грузопоток получается равным 6 тыс. тонн, а входящий -- 4 тыс. тонн. Эта величина введена на основе приблизительных предположений, и, так как в исследовании не важна высокая точность и правдоподобность данных, ее использование вполне оправдано для получения нужной информации.

Помимо данных, которые необходимы для формирования объемов авиатранспортных потоков, была собрана контекстная информация, которая будет отражена в разрабатываемой системе. В таблице ниже приведен перечень блоков собранных данных с указанием файлов, в которые эти данные были сохранены.

Таблица 5: Соответствие блоков данных файлам

Наименование блока данных

Имя файла

Перечень регионов с указанием регионального центра и федерального округа

Места. csv

Виды авиатранспортных перевозок

DirAndType. xls

Направления авиатранспортных перевозок

DirAndType. xls

Перечень авиакомпаний

Авиакомпании. txt

Особенности использования перечисленной информации будут отражены в последующих главах.

Следующим этапом работы является моделирование необходимых для исследования данных на базе собранных реальных показателей. Смоделированные данные будут записаны в файл Объемы_перевозок. xlsx.

1. Моделирование данных для разрабатываемой системы

Этот этап полностью посвящен моделированию данных о поквартальном объеме входящего и исходящего авиатранспортного грузопотока для 29 регионов России за период с 2005 по 2011 годы.

Весь процесс моделирования можно разбить на 3 этапа: 1 -- вычисление общих коэффициентов для регионов, 2 -- вычисление объемов грузопотоков, 3 -- разбиение данных в зависимости от сезонных (квартальных) особенностей.

(1) Вычисление общих коэффициентов. На данном этапе использовались коэффициенты значимости факторов и значения ранее найденных факторов для регионов. Формула вычисления общего коэффициента выглядит следующим образом:

Коэфф(m, n)=0,4*(доля региона m в общей численности населения за год n)+0,4*(доля региона m в суммарном ВРП за год n)

+0,2*(долевой уровень активности населения в регионе m за год n)

В результате получилась таблица [M x N], где в строках находятся данные по определенному региону за период с 2005 по 2011 год, а в столбцах -- коэффициенты за определенный год относительно всех регионов. В общем счете таблица содержит 203 значения коэффициента. Эта таблица будет использована на 2 этапе моделирования -- вычислении объемов грузопотоков.

(2) Вычисление объемов грузопотоков. Этот этап основан на созданной на предыдущем этапе таблице основных коэффициентов, а также на коэффициентах оттока и притока грузов и на значениях общего внутреннего авиатранспортного грузооборота. Расчет производился по следующей формуле:

Грузооборот(i/o, m, n)=коэффициент oттока/притока(i/o)

    * общий коэффициент для региона m за год n * общий внутренний авиатранспортный грузооборот за год n

В результате получается таблица размером [M x (N*2)], то есть содержащая 406 значений входящего и исходящего авиационного грузового трафика для каждого региона за время в интервале с 2005 по 2011 год.

(3) Разбиение данных в зависимости от квартальных особенностей. На данном этапе данные были преобразованы в более детальную форму. При этом использовались данные о сезонности, взятые из отчета ТКП [16]. Эти данные представлены в таблице 6:

Таблица 6: Сезонные коэффициенты

Сезонность

1 квартал

2 квартал

3 квартал

4 квартал

2005

0,17

0,25

0,36

0,22

2006

0,17

0,25

0,35

0,22

2007

0,17

0,25

0,35

0,23

2008

0,19

0,27

0,34

0,2

2009

0,17

0,25

0,35

0,24

2010

0,18

0,25

0,34

0,23

2011

0,18

0,24

0,34

0,24

С учетом этих значений объем модельных данных вырос в 4 раза и составил 1624 значения.

В итоге процесса моделирования были сформирована ненормализованная таблица со следующими заголовками:

Таблица 7: Макет таблицы для данных

Регион

Федеральный округ

Год (7 столбцов для 2005-2011 годов)

1 квартал

2 квартал

3 квартал

4 квартал

Вход.

Исход.

Вход.

Исход.

Вход.

Исход.

Вход.

Исход.

Данная таблица содержит 2+7*(4*2)=58 столбцов.

Далее вся смоделированная информация обрабатывается и сохраняется в файле Объемы_перевозок. xlsx.

Похожие статьи




Поиск данных в различных источниках - Создание модели хранилища данных

Предыдущая | Следующая