Введение - Технологии больших данных: анализ и выбор решения для реализации проекта

В конце 2000х годов были уже сформированы решения класса Business Intelligence, которые являются альтернативой традиционным методам управления базами данных. В связи с существенным многообразием информации и ее непрерывным приростом появился такой термин, как "Big Data" или же "Большие данные", вводимый изначально в академической сфере.

В информационной среде "Big Data" представляется собой комплекс подходов, инструментов и методов обработки структурированных и неструктурированных больших объемов данных, распределение операций по многочисленным узлам вычислительных сетей. В качестве трех основных характеристик выступают: объем обрабатываемых данных (физический), скорость прироста и обработки, а так же вариативность - возможность одновременной обработки различных типов данных.

Феномен Big Data является одним из наиболее обсуждаемых тем в изданиях и публикациях сферы IT в последнее время. Проблема хранения и обработки большого объема данных существует уже много лет, но с каждым годом она становится критичной не только для ряда крупнейших корпораций, информационные системы которых генерируют сотни тысяч строк данных в сутки, но и для гораздо более широкого круга компаний. Высокий уровень роста бизнеса, появление множества стартапов, как следствие - высокая конкуренция в IT-среде, сформировали предпосылки для появления этого феномена и показали значительное отличие от стандартной ситуации недостатка ресурсов. Дополнительно, возросло число источников генерации данных весьма большого объема, а именно социальные сети разных видов, электронные энциклопедии, данные электронной почты. Наряду с этим, большие объемы данных могут генерироваться электронными устройствами различных типов - аппаратура сотовых операторов, телеметрические датчики, информация, полученная с камер видеонаблюдения и т. п. При этом, значительное уменьшение стоимости хранения данных уже привело к тому, что многие компании могут позволить себе хранить накопленные данные, поскольку высока их ценность именно в накопляемом объеме.

Однако проблема количества данных не является единственной, поскольку изменился характер информации. Большую часть объема представляет неструктурированная разнородная информация, что в свою очередь приводит к малоэффективности хранения и обработки в системах на основе реляционных баз данных. Как следствие, реляционные СУБД не являются оптимальным решением для ситуаций подобного рода, что способствовало появлению целого ряда решений.

Если анализировать потребителей технологий больших данных, то в первую очередь это компании, накапливающие большое количество данных о клиентах, на основании анализа которых можно принимать решения, влияющие на эффективность бизнеса. Логично, что инициатором использования технологий больших данных в компании будет бизнес, так как необходимы те знания, которые можно извлечь с помощью новых инструментов и именно тогда проект внедрения инструментария анализа может быть эффективен. Технологии "Big Data" являются всего лишь инструментом для достижения подобных целей.

Если учитывать особенности технологий больших данных, в ближайшей перспективе они будут востребованы и наукой, и бизнесом. Однако анализ предпочтений потенциальных клиентов по данным аналитиков CNews Analytics и Oracle и попытка предугадать их поведение, предлагая наиболее подходящую услугу именно тогда, когда ее готовы купить - одни из задач, которую в современном бизнесе сейчас уже решают, управляя большими данными [1]. Существует множество отраслей, где накапливаются большие данные, и именно в них возникают потребности для анализа, более всего они востребованы среди крупных компаний на рынках B2C с активной конкуренцией, в то время как на рынках B2B их можно встретить очень редко.

Технологии обработки Больших Данных уже получили обширное распространение во многих отраслях бизнеса. Примеры таких областей - здравоохранение, телекоммуникации, торговля и логистика, также в государственном управлении. Касательно розничной торговли, в базах данных розничных магазинов может происходить накопление большого количества информации о клиентах, системе управления складами, поставками товаров. Данная информация может быть полезна во всех сферах деятельности любых магазинов. С помощью накопленной информации облегчается управление поставками товара, всей логистической цепочкой. На основании имеющейся информации можно прогнозировать спрос потребителей на товары. Также система обработки и анализа данных может решить и другие проблемы, например, оптимизировать затраты на логистику или реализовать систему отчетности.

Для обоснования требований и выбора средств реализации проекта с применением технологий Big Data необходим тщательный анализ предметной области и бизнес-процессов предприятия, на базе которого проект будет внедрен. Во многих организациях уже внедрены проекты и применяются методики бюджетирования, однако для максимальной эффективности необходимо использовать их с передовыми инструментами управления и обработки [1]. Каждая компания является уникальной, поэтому процесс разработки и утверждения методологии бюджетирования, выбор инструментов реализации, внедрение и эксплуатация проекта - сложный процесс. Особенное значение имеет масштабность проекта и тип организации. Реализация проекта по бюджетированию в нефтегазовой отрасли на примере группы компаний, которая включает в себя более 80-ти дочерних обществ, требует значительных ресурсов по реализации: и технических (обоснованный выбор средств реализации), и человеческих (команда разработчиков).

Новые технологии работы с большими данными открывают огромные возможности во многих сферах жизни общества: логистика, телеком, ритейл, финансы, энергетика, ЖКХ, нефтегазовый и аэрокосмический секторы. Для крупных организаций (государственных, коммерческих, некоммерческих) все чаще появляется потребность в применении больших данных для быстрого и эффективного решения различных задач. Те организации, которые и первыми начинают применять сервисы, использующие технологии анализа больших данных, получают весомые конкурентные преимущества на своих рынках.

Цель данной выпускной квалификационной работы заключается в обосновании и осуществлении выбора технологии обработки Больших Данных для реализации реального проекта по внедрению системы управления бюджетированием. Объектом исследования являются технологии и инструменты работы с Большими данными: Hadoop, MapReduce, NoSQL, язык программирования R, аппаратные решения SAP HANA, Oracle Exalytics, IBM Watson Foundation. В качестве предметной области выступает российский крупный нефтегазовый холдинг - предметная область - на базе которого планируется внедрение нового проекта (системы бюджетирования на основе обработки Больших Данных).

Актуальность данного исследования заключается в отсутствии единообразного подхода к формированию критериев и выбору средств обработки Больших данных для внедрения корпоративных систем на соответствующих платформах. С управленческой точки зрения, анализ современных технологий, изучение предметной области и формирование критериев выбора должны предоставить полезную и ценную информацию для руководителей компаний и архитекторов проектов, которые смогут получить не только обобщенный анализ, но и прецедентный пример корректного выбора средств реализации проекта бюджетирования на платформе Big Data.

В рамках данной работы будут рассмотрены следующие ключевые задачи:

Проведение подробного анализа, выявление положительных и отрицательных аспектов наиболее популярных технологий работы с Большими данными;

Детальное изучение предметной области реализации проекта бюджетирования, определение бизнес-процессов, требующих автоматизации;

Формирование и определение критериев выбора наиболее подходящей технологии для реализации текущего проекта;

Осуществления выбора технологии Больших данных на основе требований к разрабатываемому проекту бюджетирования.

Опираясь на теоретическое исследование основных методов и аппаратных решений анализа больших данных, будут выявлены плюсы и минусы каждой из технологий Big Data, проведена оценка возможного применения для текущего проекта управления бюджетом. Далее будет проведено подробное изучение предметной области - корпоративные системы управления бюджетированием - на примере группы компаний, занимающейся транспортировкой нефти и нефтепродуктов. А также выявлены бизнес-процессы, которые требуется автоматизировать, сформированы и определены критерии и требования к средствам реализации данного проекта.

Похожие статьи




Введение - Технологии больших данных: анализ и выбор решения для реализации проекта

Предыдущая | Следующая