Меню
Статья

Поговорим за Hadoop

Для новичков
Язык: Русский

Hadoop — самая популярная файловая системы хранения и обработки больших данных в рамках парадигмы MapReduce. Эта обзорная статья с картинками поможет вам понять его отличия от других систем.

Обратите внимание, в конце статьи есть откомментированный список разнообразной литературы и других источников по Hadoop.

Цитируем:

«Hadoop-кластер состоит из нод трех типов: NameNode, Secondary NameNode, Datanode. Namenode — мозг системы. Как правило, одна нода на кластер (больше в случае Namenode Federation, но мы этот случай оставляем за бортом). Хранит в себе все метаданные системы — непосредственно маппинг между файлами и блоками. Если нода 1 то она же и является Single Point of Failure. Эта проблема решена во второй версии Hadoop с помощью Namenode Federation».

Отзывы о материале

Hadoop может быть совсем не страшным, если к нему зайти с правильной стороны. Во-первых, не стоит даже пытаться ставить его из апачевского дистрибутива. CDH от Cloudera или HDP от Hortonworks превратят знакомство с Hadoop-ом из жёсткого садомазо в лёгкие романтические отношения. Во-вторых, MapReduce медленный (большое время старта, многократная запись на диск и пр.) и очень не гибкий (одна параллельная стадия map и одна централизовання reduce — совсем не густо). Альтернативный рантайм, который обрабатывает данные в памяти — Apache Spark (сейчас на него переходит больше половины проектов из инфраструктуры Хадупа). Если набор данных не помещается в суммарную память кластера, то лучше уж использовать обёртку вокруг MapReduce в виде Scalding/Cascading. Но голый MapReduce — нет, нет и ещё раз нет.