Трансформация данных, Выводы - Разработка аналитического приложения

Процесс трансофрмации в целом соответствует ETL процессу. ETL расшифровывается как "Extract, Transform, Load", что переводится на русский примерно как "Извечь, Преобразовать, Загрузить". ETL подразумевает работу с тремя составляющими:

Источник данных

Временное хранение.

Конечное хранение

Описание источника и конечного храние было рассмотрено выше в пунктах 2.1 и 2.2 соответственно. Когда был произведен анализ источника данных и разработан вид, в котором данные будут храниться в итоге, можно сконцентрироваться на том, как они будут преобразовываться.

Для процесса переноса данных была создана промежуточная таблица для переструктуризации данных. Было необходимо из поля Subject Description (см. табл. 2.1 выше) извлечь строки с нужными показателями и распределить их по полям в хранилище данных. Перенос данных в СУБД был осуществлен с помощью встроенного мастера импорта и экспорта данных. Следующим шагом было составление самого запроса для реструктуризации данных. На рисунке ниже (Рис.2.3.) представлен примерный запрос, использовавшийся для данной цели.

реструктиризация данных

Рис. 2.3 Реструктиризация данных

Данный запрос работает по следующему принципу. Он соединяет целевую таблицу с исходной по странам и наименованиям показателя и его мере измерения за 2000 год. На основе этих результатов можно заполнить промежуточные данные (Рис.2.4).

заполненная таблица промежуточной базы данных

Рис. 2.4 Заполненная таблица промежуточной базы данных

На основе таблицы, показанной на рисунке 2.4 и данных с сайта МВФ были созданы таблицы-словари с информацией, описывающей факты - таблица стран, групп стран и т. д.

В процессе загрузки данных было обнаружено, что формат данных в источнике, а именно цифр показателей, не подходил для заполнения, поскольку в источнике дополнительно к дробям, которые отделялись точкой, запятой отделялись сотни. На рисунке 2.4. продемонстрирован способ убирания запятых при заполнении таблицы. Функция REPLACE заменяет запятые на отсутствие символа. Функция CAST необходима для перевода получившейся записи в формат decimal, поскольку из-за запятых поле по умолчанию установилось как текстовое.

Рис. 2.5

Выводы

В данной главе был описан источник данных и вид, в котором эти данные предоставляются.

Было спроектирована схема хранилища данных макроэкономических показателей стран мира. На основе источника и желаемой формы хранения данных был произведен процесс переноса данных при помощи SQL запросов. Этот процесс влючил в себя:

Загрузка источника в среду разработки

Создание промежуточной базы данных

Создание запросов, трансформирующих данные

Создание запросов, очищающих данные

Создание таблиц - словарей

Создание запросов, заполняющих хранилище на основе временной базы данных

Итогом данного этапа стало готовое заполненное хранилище данных.

Похожие статьи




Трансформация данных, Выводы - Разработка аналитического приложения

Предыдущая | Следующая