Přeskočit na obsah

Hadoop

Hadoop je open-source framework pro distribuovaná datová úložiště a distribuované zpracování velkých objemů dat za použití algoritmu MapReduce. Hlavním rozdílem ve zpracování dat klasickým clusterem v MetaCentru a clusterem postaveným na Hadoop je, že ve klasickém prostředí musí být nahrána všechna data v jedné dávce ještě před jejich zpracováním, kdežto prostředí Hadoop umožňuje postupné sbírání a ukládání dat, která se poté zpracují.
MetaCentrum poskytuje dvě řešení založená na frameworku Hadoop. Prvním je cluster na platformě Hadoop rozšiřitelný o další virtuální stroje. Druhým je čistě virtualní Hadoop cluster, který může sloužit k ladění a testování uživatelského řešení před nasazením na provozní infrastruktuře.

Jak se připojit

Služba je poskytována pouze pro uživatelům MetaCentra.

  1. Zaregistrujte se do Metacentra (pokud už nejste členem).
  2. Podejte přihlášku pro vstup do Hadoop.
  3. Přihlašte se na čelní uzel hador.ics.muni.cz pomocí ssh.

Uživatelská dokumentace a podpora

Aktuální hardwarové zdroje

  • 27 ⨉ 16 jader
  • 27 ⨉ 128 GB RAM
  • celková kapacita datového úložiště je 1 PB v HDFS

 

Poslední změna: Mon May 18 13:27:21 CEST 2020