Поиск данных в различных источниках - Создание модели хранилища данных
Коллекционирование данных является основой любого исследования. В данном исследовании необходима информация, в первую очередь, об объемах входящих и исходящих авиаперевозок в регионах России за 2005-2011 годы. Эта информация не доступна в открытых источниках, следовательно, эти данные будут смоделированы на основе других показателей развития в регионах России. В качестве таких показателей были взяты:
- 1. численность населения; 2. валовый региональный продукт (ВРП); 3. уровень экономической активности населения.
Эти данные были собраны для 32 крупнейших городов из 29 различных регионов за период с 2005 по 2011 год. Ниже представлен перечень регионов, по которым собирались данные:
Таблица 3: Рассматриваемые в системе регионы
Московский регион* |
Свердловская область |
Ленинградский регион* |
Ханты-мансийский а. округ (Югра) |
Хабаровский край |
Тюменская область |
Приморский край |
Республика Дагестан |
Красноярский край |
Ростовская область |
Ярославская область |
Ивановская область |
Новосибирская область |
Алтайский край |
Иркутская область |
Пермский край |
Камчатский край |
Самарская область |
Сахалинская область |
Республика Башкортостан |
Краснодарский край |
Нижегородская область |
Республика Саха (Якутия) |
Республика Татарстан |
Магаданская область |
Омская область |
Челябинская область | |
Волгоградская область | |
Воронежская область |
* Примечание. Московский регион объединяет в себе федеральные субъекты "Москва" и "Московская область". Аналогично и с ленинградским регионом
Также важно отметить, что некоторые значения коэффициентов и параметров, введенные в данной главе, не являются результатом применения математических моделей. Они предлагаются исходя из разумных предположений. Данное допущение возможно, т. к. в работе предполагается построение системы анализа авиаперевозок, которая в свою очередь не нуждается в высокой достоверности данных, потому что является всего лишь инструментом исследования.
Регионы отбирались по следующему принципу: во-первых, были взяты регионы, на территории которых есть города-миллионники. Во-вторых, брались регионы с максимальным исходящим авиационным грузопотоком в 2011 году по статистике Торговой Клиринговой Палаты (ТКП).
Для каждого из вышеперечисленных регионов были найдены различные экономические показатели за период с 2005 по 2011 год. Чтобы как-то диверсифицировать данные показатели по значимости, были предположено, что каждому показателю соответствует определенный коэффициент. Сумма коэффициентов получается равной единице. Данные коэффициенты не рассчитывались при помощи математических или экономических моделей; они были предложены автором работы из соображений здравого смысла.
Во-первых, была собрана статистика по численности населения за указанный период. Источником послужили базы Федеральной службы государственной статистики (Www. gks. ru) [15]. Численность населения -- это важнейший показатель экономического развития страны. Поэтому данному фактору присвоен коэффициент значимости 0,4 из 1.
Примечание. Коэффициенты значимости будут использоваться при моделировании данных.
Вторым, не менее важным показателем развития в регионах, данные по которому были собраны в рамках исследования, это региональный валовый продукт. Валовой региональный продукт представляет сумму валовой добавленной стоимости, созданной всеми институциональными единицами-резидентами на экономической территории региона (без учета чистых налогов на продукты). Уровень значимости для исследования -- 0,4 из 1. Источник -- www. gks. ru [15].
Третья величина, от которой в некоторой степени зависит развитие региона, - это уровень экономической активности населения. Этот показатель представляет собой процент активного населения от общей численности региона. Например, в 2011 году в Московском регионе этот показатель составил 72,2. Значимость этого показателя не так велика, как значимость предыдущих двух показателей. Поэтому коэффициент значимости был взят равным 0,2 из 1. Источник -- www. gks. ru. [15]
Также была собрана информация о суммарном внутреннем авиатранспортном грузовом обороте за 2005-2011 годы. Источник -- ТКП [16]. В таблице 4 представлены собранные по этому пункту данные:
Таблица 4: Ежегодный объем авиатранспортных потоков в России
2005 |
2006 |
2007 |
2008 |
2009 |
2010 |
2011 | |
197,19 |
202,94 |
231,67 |
245,08 |
224,01 |
291,02 |
306,34 |
Тыс. тонн |
Дополнительно были введены коэффициенты оттока и притока грузов для каждого региона. Они нужны для того, чтобы при моделировании распределить общий грузооборот в регионе на исходящие и входящие грузопотоки. Например, если в регионе за 2005 год общий оборот грузов равняется 10 тыс. тонн, а коэффициент оттока товаров равняется 60%, то исходящий грузопоток получается равным 6 тыс. тонн, а входящий -- 4 тыс. тонн. Эта величина введена на основе приблизительных предположений, и, так как в исследовании не важна высокая точность и правдоподобность данных, ее использование вполне оправдано для получения нужной информации.
Помимо данных, которые необходимы для формирования объемов авиатранспортных потоков, была собрана контекстная информация, которая будет отражена в разрабатываемой системе. В таблице ниже приведен перечень блоков собранных данных с указанием файлов, в которые эти данные были сохранены.
Таблица 5: Соответствие блоков данных файлам
Наименование блока данных |
Имя файла |
Перечень регионов с указанием регионального центра и федерального округа |
Места. csv |
Виды авиатранспортных перевозок |
DirAndType. xls |
Направления авиатранспортных перевозок |
DirAndType. xls |
Перечень авиакомпаний |
Авиакомпании. txt |
Особенности использования перечисленной информации будут отражены в последующих главах.
Следующим этапом работы является моделирование необходимых для исследования данных на базе собранных реальных показателей. Смоделированные данные будут записаны в файл Объемы_перевозок. xlsx.
1. Моделирование данных для разрабатываемой системы
Этот этап полностью посвящен моделированию данных о поквартальном объеме входящего и исходящего авиатранспортного грузопотока для 29 регионов России за период с 2005 по 2011 годы.
Весь процесс моделирования можно разбить на 3 этапа: 1 -- вычисление общих коэффициентов для регионов, 2 -- вычисление объемов грузопотоков, 3 -- разбиение данных в зависимости от сезонных (квартальных) особенностей.
(1) Вычисление общих коэффициентов. На данном этапе использовались коэффициенты значимости факторов и значения ранее найденных факторов для регионов. Формула вычисления общего коэффициента выглядит следующим образом:
Коэфф(m, n)=0,4*(доля региона m в общей численности населения за год n)+0,4*(доля региона m в суммарном ВРП за год n)
+0,2*(долевой уровень активности населения в регионе m за год n)
В результате получилась таблица [M x N], где в строках находятся данные по определенному региону за период с 2005 по 2011 год, а в столбцах -- коэффициенты за определенный год относительно всех регионов. В общем счете таблица содержит 203 значения коэффициента. Эта таблица будет использована на 2 этапе моделирования -- вычислении объемов грузопотоков.
(2) Вычисление объемов грузопотоков. Этот этап основан на созданной на предыдущем этапе таблице основных коэффициентов, а также на коэффициентах оттока и притока грузов и на значениях общего внутреннего авиатранспортного грузооборота. Расчет производился по следующей формуле:
Грузооборот(i/o, m, n)=коэффициент oттока/притока(i/o)
- * общий коэффициент для региона m за год n * общий внутренний авиатранспортный грузооборот за год n
В результате получается таблица размером [M x (N*2)], то есть содержащая 406 значений входящего и исходящего авиационного грузового трафика для каждого региона за время в интервале с 2005 по 2011 год.
(3) Разбиение данных в зависимости от квартальных особенностей. На данном этапе данные были преобразованы в более детальную форму. При этом использовались данные о сезонности, взятые из отчета ТКП [16]. Эти данные представлены в таблице 6:
Таблица 6: Сезонные коэффициенты
Сезонность | ||||
1 квартал |
2 квартал |
3 квартал |
4 квартал | |
2005 |
0,17 |
0,25 |
0,36 |
0,22 |
2006 |
0,17 |
0,25 |
0,35 |
0,22 |
2007 |
0,17 |
0,25 |
0,35 |
0,23 |
2008 |
0,19 |
0,27 |
0,34 |
0,2 |
2009 |
0,17 |
0,25 |
0,35 |
0,24 |
2010 |
0,18 |
0,25 |
0,34 |
0,23 |
2011 |
0,18 |
0,24 |
0,34 |
0,24 |
С учетом этих значений объем модельных данных вырос в 4 раза и составил 1624 значения.
В итоге процесса моделирования были сформирована ненормализованная таблица со следующими заголовками:
Таблица 7: Макет таблицы для данных
Регион |
Федеральный округ |
Год (7 столбцов для 2005-2011 годов) | |||||
1 квартал |
2 квартал |
3 квартал |
4 квартал | ||||
Вход. |
Исход. |
Вход. |
Исход. |
Вход. |
Исход. |
Вход. |
Исход. |
Данная таблица содержит 2+7*(4*2)=58 столбцов.
Далее вся смоделированная информация обрабатывается и сохраняется в файле Объемы_перевозок. xlsx.
Похожие статьи
-
Введение - Создание модели хранилища данных
Особенностью Российской Федерации является резкое различие уровня развития регионов в зависимости от их территориальной принадлежности. Регионы...
-
Формулировка основных задач работы - Создание модели хранилища данных
В данной работе лишь предпринимается попытка проанализировать авиатранспортную отрасль России в разрезе авиатранспортных потоков при помощи изученных...
-
Хранилище данных, Рассмотрение источников данных - Разработка аналитического приложения
Рассмотрение источников данных Данные для работы были взяты с сайта Международного валютного фонда (МВФ). МВФ - это организация, которая состоит из 189...
-
Для разработки базы данных была выбрана СУБД Access так как, она имеет следующие преимущества перед другими СУБД: - Является реляционной; -...
-
Проектирование модели данных - Создание аналога системной утилиты "Диспетчер задач"
При проектировании модели данных разработаем диаграмму вариантов использования, диаграмму деятельности. Диаграмма вариантов использования представляет...
-
Как мы уже говорили в лекциях, хранилище Windows Azure, помимо прочего, подходит для хранения реляционных данных, для этого используются возможности...
-
Областью применения базы данных является Гостиница. Задачей администратора гостиницы является отслеживание финансовой стороны работы гостиницы. Его...
-
Модели данных ГИС. Их основные характеристики - Геоинформационные системы
Модели данных ГИС описывают цифровое представление и взаимосвязи географических объектов, что является логическим описанием выбранных объектов реального...
-
2.1 Процесс проектирования БД на основе принципов нормализации представляет собой последовательность переходов от неформального словесного описания...
-
Для создания трехмерной реконструкции сцены или объекта необходимо создать его трехмерную модель и вычислить цвет ее вершин. Для геометрической...
-
Каждая СУБД имеет особенности в представлении структуры таблиц, связей, определении типов данных и т. д. которую необходимо учитывать при проектировании....
-
Программный интерфейс для базы данных я разрабатывал в объектно-ориентрованной среде Delphi, с помощью Embarcadero RAD Studio. Конструктор форм Delphi в...
-
Проектирование систем оперативного анализа данных Современные системы поддержки принятия решений и информационные системы руководителей основаны на...
-
Проектирование хранилища данных - Разработка объектов Хранилища
Процесс проектирования любого хранилища, как уже было сказано, делится на следующие составляющие: Выбор бизнеса процесса Выбор таблицы фактов Выбор...
-
Этапы проектирования и создания БД - Система управления базами данных
При разработке БД можно выделить следующие этапы работы. I этап. Постановка задачи. На этом этапе формируется задание по созданию БД. В нем подробно...
-
Ввеедение, Создание базы данных - Создание базы данных
Базы данных - совокупность данных, организованная по определенным правилам, предусматривающая общие принципы описания, хранения, манипулирования данными,...
-
Физическая Модель Данных Физическое проектирование -- создание схемы базы данных для конкретной СУБД. Специфика конкретной СУБД может включать в себя...
-
Прогнозирование оттока клиентов Отделом маркетинга компании ELEMENTAREE было выявлено, что практически все клиенты, у которых отсутствовали заказы в...
-
Два подхода к хранилищам данных - Разработка объектов Хранилища
На сегодняшний день существует два основных подхода к моделям Хранилищ данных. Это так называемая корпоративная информационная фабрика Билла Инмона и...
-
Методика определения модели нарушителя ИБ Типовой перечень и классификация нарушителя. 1. категория - нарушители информационной безопасности, не имеющие...
-
Вычисления в запросах, формах, отчетах. - Технология создания и управления баз данных
В итоговую таблицу запросов можно включить вычисляемые поля (графы), т. е. получить данные, которые отсутствуют в исходной таблице. Новое вычисляемое...
-
Технология создания баз данных в программе Microsoft Access
Введение Базы данных играют особую роль в современном мире. Любой из нас многократно начиная с детства, сталкивался с "базами данных". Это - всевозможные...
-
Разработка концептуальной модели базы данных При проектировании программ выясняются запросы и пожелания клиента и определяется возможный подход к решению...
-
Создание базы данных, Телекоммуникационные экскурсии - Мультимедиа в обучении
Некоторые проекты обмена информацией используют не только сбор информации, но и ее организацию в базу данных, которую участники проекта могут...
-
Описание предметной области ООО ИСК "Волгастройинвест" является официальным представителем ряда отечественных и зарубежных фирм, предлагающих на...
-
Поскольку клиентская часть представляет собой приложение на базе операционной системы Android, то для ее разработки был выбран рекомендуемый...
-
Физические модели БД - Банки и базы данных. Системы управления базами данных
Под физической моделью БД понимается способ размещения данных на устройствах внешней памяти и способ доступа к этим данным. Каждая СУБД по-разному...
-
Создание представлений - Банки и базы данных. Системы управления базами данных
Представлением (View) называется виртуальная таблица, отображающая данные, получаемые из реальных таблиц БД, а также из других представлений....
-
Модели транзакций - Банки и базы данных. Системы управления базами данных
Под транзакциями понимаются действия, производимые над базой данных и переводящие ее из одного согласованного состояния в другое согласованное состояние....
-
ИЕРАРХИЧЕСКАЯ МОДЕЛЬ ДАННЫХ ИМД основана на понятии деревьев, состоящих из вершин и ребер. Вершине дерева ставится в соответствие совокупности атрибутов...
-
Уровни и типы моделей БД - Банки и базы данных. Системы управления базами данных
Любая БД отражает информацию об определенной предметной области. В зависимости от уровня абстракции, на котором представляется предметная область,...
-
Источники информации в информационной системе. Информационные модели объекта правления. Информационные массивы и потоки От решений, которые принимает...
-
Создание базы данных (структура таблиц) База данных предназначена для работников гостиницы. В базе данных должны храниться сведения о проживающих...
-
Система управления базами данных - Модели серверов баз данных
Система управления базами данных (СУБД) - это приложение, посредством которого осуществляется обработка базы данных пользователем или группой...
-
Защита персональных данных регламентируется Федеральным Законом РФ № 152-ФЗ "О персональных данных", принятым 27 июля 2006 года. Целью настоящего...
-
В настоящее время биометрия входит в состав наиболее распространенных технологий и средств защиты информации. Отпечатки пальцев являются самой широко...
-
Объектно-ориентированное программирование (ООП) является парадигмой программирования, которая представляет понятия, как "объекты", которые имеют поля...
-
Создание форм 1. Для создания формы Биатлонисты совершаем следующие действия Таблицы > Биатлонисты > Создание> Форма, как показано на рисунке...
-
Разработка модели "сущность-связь" базы данных - Разработка АИС "Профессиональный футбольный клуб"
Для разработки модели "Сущность - связь" требуется соблюдение следующих этапов проектирования: Выделить сущности и связи между ними. Построить диаграммы...
-
Создание запросов - Разработка системы управления базой данных "Судоходство"
Для дальнейшего формирования отчетов необходимо создать два запроса на выборку это "Кто и где находится" и "Страны где были корабли". Для создания...
Поиск данных в различных источниках - Создание модели хранилища данных