Технологии Hadoop - Технологии больших данных: анализ и выбор решения для реализации проекта
Продукт Apache Hadoop является свободной Java-платформой на обычном оборудовании. Проект был рожден посредством обработки материалов Google File System и поддерживает выполнение распределенных приложений, работающих на больших кластерах. Данная технология предоставляет приложениям надежность и быстродействие операций с данными. В продукте реализована вычислительная парадигма, известная как MapReduce. Согласно ей приложение разделяется на большое количество небольших заданий, каждое из которых может быть выполнено на любом из узлов. В дополнение, используется распределенная файловая система, использующая для хранения данных вычислительные узлы кластера, это позволяет достичь очень высокой агрегированной пропускной способности кластера. Подобные системы позволяют приложениям легко масштабироваться (использование более 1000 узлов и обработка петабайт данных - 1015).
Проект Hadoop был назван в честь игрушечного слоненка ребенка основателя проекта, Дуга каттинга. Изначально проект разрабатывался как система для поддержки распределенных вычислений для проекта Nutch. Hadoop содержит платформу для распределенных вычислений, которая изначально была частью проекта. Она включает в себя Hadoop Distributed File System и реализацию принципа "Map/Reduce". Примерно с августа 2011 года система Apache Hadoop уже широко применялась для распределенной обработки данных, однако она не заменяет устоявшиеся технологии, а применяется наряду с ними.
Достоинство систем, построенных на технологии Hadoop, заключается в способности разбивать очень большие наборы данных на малые блоки, распределяемые по кластеру на основе стандартного оборудования для ускоренной обработки. Такие компании, как Facebook, Amazon, eBay и Yahoo, одними их первых начали пользоваться данной технологией, была применена технология для анализа петабайтов неструктурированных данных, с которыми реляционные системы управления базами данных справляются с трудом. В большинстве реализаций система анализирует огромные объемы сгенерированной компьютерами информации: протоколы операций в системе, поисковые результата, контент социальных сетей [5]. При этом в 66% организаций Hadoop выполняет ранее недоступные функции анализа. Гораздо реже Hadoop используется для анализа традиционных структурированных данных -- транзакций, сведений о клиентах, данных о звонках. Для этих случаев обычно по-прежнему применяются реляционные базы данных.
Hadoop -- это свободная платформа для создания системы распределенных вычислений, разрабатываемый сообществом Apache Software Foundation на основе технологий MapReduce и Google File System Storage. Технология Hadoop используется в таких крупных веб-проектах, как Facebook, Twitter, Rackspace и eBay, а также в коммерческих программных продуктах IBM, EMC, Dell и Oracle. Крупнейший вклад в развитие проекта вносит поисковая система Yahoo -- в частности, ее дополнительная версия Hortonworks, с которым корпорация Microsoft и заключила соглашение в 2011 году об интеграции платформы в свои продукты.
Корпорация Microsoft не впервые обратила внимание на Hadoop: так, платформа некоторое время использовалась для реализации семантического поиска в Bing, пока не была заменена закрытым аналогом. Более масштабных попыток интеграции компания более не предпринимала, вместо этого концентрируясь на разработке проекта Dryad, закрытого аналога Hadoop на основе собственной технологии Cosmos. В отличие от Hadoop, разрабатываемого на языке программирования Java, этот продукт Microsoft базируется на среды. NET, и его разработка продолжится параллельно с внедрением открытой платформы.
К основным техническим характеристикам платформы Hadoop относят:
Масштабируемость: платформа масштабируется линейно и позволяет хранить и обрабатывать петабайты данных;
Устойчивость к сбоям: все хранящиеся данные избыточны, все прерванные задания по обработке данных перезапускаются;
Кроссплатформенность: библиотеки Hadoop написаны преимущественно на языке Java, и могут выполняться в любой операционной системе, поддерживающей виртуальную машину Java;
Автоматическое распараллеливание выполнения задачи: технология Hadoop создает "прозрачные" абстракции для разработчиков, освобождая от работы по планированию, контролю и агрегации результатов параллельной обработки данных [6].
Бизнес-преимущества от использования Hadoop определяются:
Гибкость: хранение и анализ структурированных и неструктурированных типов данных;
Эффективность: в большинстве случаев более низкая стоимость хранения и обработки терабайта данных по сравнению существующими решениями;
Низкая стоимость создания кластера: для создания Hadoop-кластера не требуется дорогое серверное аппаратное обеспечение.
Сравнительная легкость адаптации: Hadoop имеет широкую и активно развивающуюся экосистему;
Минимальные риски, связанные с некорректной работой ядра платформы: на сегодняшний день платформа Hadoop успешно используется для обработки петабайт информации;
"Open Source" лицензирование: низкая стоимость внедрения и владения платформой Hadoop;
Значительное по количеству сообщество разработчиков.
1 декабря 2014 года аналитики компании Forrester Research озвучили прогноз, согласно которому платформа Hadoop от Apache станет стандартом де-факто для ИТ-инфраструктуры всех крупных компаний в 2015 году. Предполагается, что вырастет число специалистов, а также скорость внедрения систем на платформе Hadoop.
На рынке технологий наблюдается явная тенденция к обязательной интеграции Hadoop, которая должна обеспечивать способность линейного масштабирования как хранения, так и обработки данных. Эта закономерность тесно связана с возможностью дальнейшего активного применения облачных решений на крупных предприятиях.
Одними из ключевых факторов для снижения расхода средств станут: "облачная эластичность", возможность синхронизации вычислительных и сетевых мощностей с хранимыми данными. Эксперты считают, ожидается, что платформа Hadoop будет все более активно применяться в облачных решениях на фоне растущего спроса на специализированную аналитику.
Весьма вероятным видится появление новых проектов Hadoop из аналогов от HP, Oracle, SAP, Software AG и Tibco. Microsoft, и другие поставщики операционных систем. Важный фактор влияния - наличие квалифицированных кадров, способных работать с платформой Hadoop. Благодаря их участию станет возможной быстрая и более эффективная реализация проектов Hadoop.
Похожие статьи
-
Программная модель данных, получившая название "MapReduce", была создана несколько лет назад в компании Google, и там же была осуществлена первая...
-
Введение - Технологии больших данных: анализ и выбор решения для реализации проекта
В конце 2000х годов были уже сформированы решения класса Business Intelligence, которые являются альтернативой традиционным методам управления базами...
-
Заключение - Технологии больших данных: анализ и выбор решения для реализации проекта
На практике при реализации проектов возникает потребность в инструментах обработки больших данных от особенностей бизнеса, которые после накопления...
-
Полное наименование разрабатываемой системы - корпоративная информационная система "Бюджетное планирование и отчетность" группы компаний, занимающейся...
-
Помимо концепции будущей системы бюджетирования, в рамках решения задачи разработки проекта "Бюджетное планирование и отчетность" должен быть разработан...
-
Обоснование выбора средств разработки проекта Для реализации корпоративной информационной системы "Бюджетное планирование и отчетность" в исследуемой...
-
Для осуществления первой задачи данной работы был проведен проведение подробный анализ семи наиболее распространенных технологий работы с Большими...
-
SAP HANA - это гибкий многоцелевой и независимый от источника данных программный комплекс на базе технологии "in-memory", который объединяет компоненты...
-
Описание бизнес-процессов бюджетирования в группе компаний нефтегазового сектора Одна из исследовательских задач данной работы состоит в том, чтобы...
-
Современные технологии обработки Больших данных Большой проект бюджетирование автоматизация С приходом новых технологий, инструментов и средств...
-
Решения компании IBM - Технологии больших данных: анализ и выбор решения для реализации проекта
Технологии анализа больших данных являются прекрасным дополнением к средам хранения больших данных. Множество применений включает в себя, например,...
-
Выбор программного обеспечения для внедрения KPI целиком и полностью упирается в потребности конкретной компании. Благодаря все большей и большей...
-
Комплекс инструментов Oracle Exalytics Комплексное решение Oracle Exalytics создано для обеспечения высокой производительности аналитических систем и...
-
Язык программирования R - Технологии больших данных: анализ и выбор решения для реализации проекта
Язык программирования R является универсальным и разработан для применения в следующих областях: разведочный анализ данных, классические статистические...
-
Для реализации ИИС контроля расхода энергоресурсов проведем анализ характеристик существующих беспроводных технологий передачи данных. Наиболее...
-
Подход NoSQL - Технологии больших данных: анализ и выбор решения для реализации проекта
Понятие NoSQL означает "Не только SQL" или "Не SQL". Термин получил известность, начиная с 2009 год, когда развитие интернет-технологий и социальных...
-
Приложение, которое необходимо разработать, должно производить геометрическую реконструкцию сцены и вычисление цвета вершин модели. Для геометрической...
-
Предлагаемая библиотека хранит все данные в отдельных таблицах, таким образом он не обязан использовать ту же СУБД, что и основное приложение. В качестве...
-
Далее необходимо провести качественную характеристику ПО (табл. 4.1.) для покупки его в отдел продаж для работы Ревенью менеджера. Таблица 4.1 ....
-
На данный момент у TUIO есть 3 версии протокола: 1.0, 1.1 и 2.0. Версия 2.0, вышедшая в 2014, имеет множество изменений и нововведений по сравнению с...
-
Обзор протокола Multi-Touch технологий передачи данных TUIO [7] - основной кроссплатформенный протокол с открытым исходным кодом Multi-Touch передачи...
-
В качестве доступного инструментария были рассмотрены две открытые кроссплатформенные библиотеки для разработки C++ приложений WxWidgets и Boost ,...
-
Для написания АИС использовались следующие языки программирования, программные средства и библиотеки: - Язык программирования PHP 5.4; -...
-
По результатам данного исследования необходимо выявить недостатки и ограничения существующих технологий интеграции. Для проведения исследования...
-
Выбор средств реализации информационной системы Названные в параграфе 1.4. настоящей работы задачи могут быть решены тремя типами средств автоматизации:...
-
Необходимо исследовать зависимость влияния различных факторов на параметр, характеризующий производство. В качестве такого параметра было выбрано...
-
Одним из самых важных начальных этапов при разработке ПО является выбор технологического стека, с помощью которого будет происходить разработка продукта....
-
Стек технологий При выборе стека технологий основное внимание уделялось следующим факторам, в порядке убывания значимости: § Кроссплатформенность; §...
-
Интерфейс Пользовательский интерфейс программного обеспечения является неотъемлемой его частью. Именно через интерфейс конечный пользователь будет...
-
Выбор программ и алгоритмы реализации базы данных - База данных "Кинотеатр"
Microsoft Office Access - мощное приложение Windows. При этом производительность СУБД органично сочетаются со всеми удобствами и преимуществами Windows....
-
Информационная система крупной организации, как правило, представляет собой исторически сложившуюся совокупность отдельно работающих систем, которые...
-
Из заполненной формы 3-информ, утвержденной Приказом Росстата от 06.09.2012 г. № 481 "Об утверждении статистического инструментария для организации...
-
В среде электронного ресурса ИИС "MD_SLAGMELT" (Рис. 6) для доступа к компоненту "моделирование" необходима учетная запись (пара логин/пароль) (Рис.7)....
-
Описание проекта, который является объектом исследования Проект - представляет собой внедрение информационно - аналитической системы управления карьерой...
-
Данная компания является ведущем производителем оборудования и выпуска квалифицированных специалистов в мире. Это одна из самых оцененных компаний в...
-
Корпоративная интеграционная подсистема на базе IBM WebSphere Business Integration Message Broker [28] отвечает за выстраивание корпоративной...
-
Прогнозируемая оценка проекта после реализации единой шины данных как прослойки между всеми компонентами ИТ-ландшафта компании выполняется по методу...
-
В данном пункте представлено описание подключенных систем к общей инфраструктуре ИС компании. В случае IBM SPSS: Вследствие того, что сбор данных с...
-
SPSS Modeler [29] - это программный комплекс, позволяющий строить прогностические модели и применять эту информацию при принятии решений на уровне...
-
Предложенный подход к решению задач исследования Используя в качестве основы присутствующее в наличии программное обеспечение, которое применимо к...
Технологии Hadoop - Технологии больших данных: анализ и выбор решения для реализации проекта