Hadoop
Hadoop je open-source framework pro distribuovaná datová úložiště a distribuované zpracování velkých objemů dat za použití algoritmu MapReduce. Hlavním rozdílem ve zpracování dat klasickým clusterem v MetaCentru a clusterem postaveným na Hadoop je, že ve klasickém prostředí musí být nahrána všechna data v jedné dávce ještě před jejich zpracováním, kdežto prostředí Hadoop umožňuje postupné sbírání a ukládání dat, která se poté zpracují.
MetaCentrum poskytuje dvě řešení založená na frameworku Hadoop. Prvním je cluster na platformě Hadoop rozšiřitelný o další virtuální stroje. Druhým je čistě virtualní Hadoop cluster, který může sloužit k ladění a testování uživatelského řešení před nasazením na provozní infrastruktuře.
Jak se připojit
Služba je poskytována pouze pro uživatelům MetaCentra.
- Zaregistrujte se do Metacentra (pokud už nejste členem).
- Podejte přihlášku pro vstup do Hadoop.
- Přihlašte se na čelní uzel hador.ics.muni.cz pomocí ssh.
Uživatelská dokumentace a podpora
- Uživatelský průvodce a tipy najdete na MetaWiki.
- Kontakt na uživatelskou podporu.
Aktuální hardwarové zdroje
- 27 ⨉ 16 jader
- 27 ⨉ 128 GB RAM
- celková kapacita datového úložiště je 1 PB v HDFS