Технологии Hadoop - Технологии больших данных: анализ и выбор решения для реализации проекта

Продукт Apache Hadoop является свободной Java-платформой на обычном оборудовании. Проект был рожден посредством обработки материалов Google File System и поддерживает выполнение распределенных приложений, работающих на больших кластерах. Данная технология предоставляет приложениям надежность и быстродействие операций с данными. В продукте реализована вычислительная парадигма, известная как MapReduce. Согласно ей приложение разделяется на большое количество небольших заданий, каждое из которых может быть выполнено на любом из узлов. В дополнение, используется распределенная файловая система, использующая для хранения данных вычислительные узлы кластера, это позволяет достичь очень высокой агрегированной пропускной способности кластера. Подобные системы позволяют приложениям легко масштабироваться (использование более 1000 узлов и обработка петабайт данных - 1015).

Проект Hadoop был назван в честь игрушечного слоненка ребенка основателя проекта, Дуга каттинга. Изначально проект разрабатывался как система для поддержки распределенных вычислений для проекта Nutch. Hadoop содержит платформу для распределенных вычислений, которая изначально была частью проекта. Она включает в себя Hadoop Distributed File System и реализацию принципа "Map/Reduce". Примерно с августа 2011 года система Apache Hadoop уже широко применялась для распределенной обработки данных, однако она не заменяет устоявшиеся технологии, а применяется наряду с ними.

Достоинство систем, построенных на технологии Hadoop, заключается в способности разбивать очень большие наборы данных на малые блоки, распределяемые по кластеру на основе стандартного оборудования для ускоренной обработки. Такие компании, как Facebook, Amazon, eBay и Yahoo, одними их первых начали пользоваться данной технологией, была применена технология для анализа петабайтов неструктурированных данных, с которыми реляционные системы управления базами данных справляются с трудом. В большинстве реализаций система анализирует огромные объемы сгенерированной компьютерами информации: протоколы операций в системе, поисковые результата, контент социальных сетей [5]. При этом в 66% организаций Hadoop выполняет ранее недоступные функции анализа. Гораздо реже Hadoop используется для анализа традиционных структурированных данных -- транзакций, сведений о клиентах, данных о звонках. Для этих случаев обычно по-прежнему применяются реляционные базы данных.

Hadoop -- это свободная платформа для создания системы распределенных вычислений, разрабатываемый сообществом Apache Software Foundation на основе технологий MapReduce и Google File System Storage. Технология Hadoop используется в таких крупных веб-проектах, как Facebook, Twitter, Rackspace и eBay, а также в коммерческих программных продуктах IBM, EMC, Dell и Oracle. Крупнейший вклад в развитие проекта вносит поисковая система Yahoo -- в частности, ее дополнительная версия Hortonworks, с которым корпорация Microsoft и заключила соглашение в 2011 году об интеграции платформы в свои продукты.

Корпорация Microsoft не впервые обратила внимание на Hadoop: так, платформа некоторое время использовалась для реализации семантического поиска в Bing, пока не была заменена закрытым аналогом. Более масштабных попыток интеграции компания более не предпринимала, вместо этого концентрируясь на разработке проекта Dryad, закрытого аналога Hadoop на основе собственной технологии Cosmos. В отличие от Hadoop, разрабатываемого на языке программирования Java, этот продукт Microsoft базируется на среды. NET, и его разработка продолжится параллельно с внедрением открытой платформы.

К основным техническим характеристикам платформы Hadoop относят:

Масштабируемость: платформа масштабируется линейно и позволяет хранить и обрабатывать петабайты данных;

Устойчивость к сбоям: все хранящиеся данные избыточны, все прерванные задания по обработке данных перезапускаются;

Кроссплатформенность: библиотеки Hadoop написаны преимущественно на языке Java, и могут выполняться в любой операционной системе, поддерживающей виртуальную машину Java;

Автоматическое распараллеливание выполнения задачи: технология Hadoop создает "прозрачные" абстракции для разработчиков, освобождая от работы по планированию, контролю и агрегации результатов параллельной обработки данных [6].

Бизнес-преимущества от использования Hadoop определяются:

Гибкость: хранение и анализ структурированных и неструктурированных типов данных;

Эффективность: в большинстве случаев более низкая стоимость хранения и обработки терабайта данных по сравнению существующими решениями;

Низкая стоимость создания кластера: для создания Hadoop-кластера не требуется дорогое серверное аппаратное обеспечение.

Сравнительная легкость адаптации: Hadoop имеет широкую и активно развивающуюся экосистему;

Минимальные риски, связанные с некорректной работой ядра платформы: на сегодняшний день платформа Hadoop успешно используется для обработки петабайт информации;

"Open Source" лицензирование: низкая стоимость внедрения и владения платформой Hadoop;

Значительное по количеству сообщество разработчиков.

1 декабря 2014 года аналитики компании Forrester Research озвучили прогноз, согласно которому платформа Hadoop от Apache станет стандартом де-факто для ИТ-инфраструктуры всех крупных компаний в 2015 году. Предполагается, что вырастет число специалистов, а также скорость внедрения систем на платформе Hadoop.

На рынке технологий наблюдается явная тенденция к обязательной интеграции Hadoop, которая должна обеспечивать способность линейного масштабирования как хранения, так и обработки данных. Эта закономерность тесно связана с возможностью дальнейшего активного применения облачных решений на крупных предприятиях.

Одними из ключевых факторов для снижения расхода средств станут: "облачная эластичность", возможность синхронизации вычислительных и сетевых мощностей с хранимыми данными. Эксперты считают, ожидается, что платформа Hadoop будет все более активно применяться в облачных решениях на фоне растущего спроса на специализированную аналитику.

Весьма вероятным видится появление новых проектов Hadoop из аналогов от HP, Oracle, SAP, Software AG и Tibco. Microsoft, и другие поставщики операционных систем. Важный фактор влияния - наличие квалифицированных кадров, способных работать с платформой Hadoop. Благодаря их участию станет возможной быстрая и более эффективная реализация проектов Hadoop.

Похожие статьи




Технологии Hadoop - Технологии больших данных: анализ и выбор решения для реализации проекта

Предыдущая | Следующая