Cloudera-big-data-primeiros-passos Cloudera-big-data-primeiros-passos

Como começar a usar a plataforma da Cloudera

3 minutos para ler

A Cloudera, Inc. é uma empresa de software com sede nos EUA que fornece uma plataforma de software para Engenharia de Dados, Data Warehousing, Aprendizado de Máquina e Análise que é executada na nuvem ou nas instalações.

Existem várias formas de começar a usar, e isso depende muito do uso. Vamos apresentar algumas formas a seguir:

Se você já conhece a plataforma, e gostaria de descobrir as diferenças entras versões, sugerimos que leia o post: cloudera enterprise ou express?

1) Cloudera QuickStarts VMs

As VMs do Cloudera QuickStart (Cluster de nó único) facilitam a implementação rápida do CDH para fins de teste, demonstração e auto-aprendizagem, e incluem o Manager para gerenciar seu cluster. O Cloudera QuickStart VM também inclui um tutorial, dados de amostra e scripts para começar. O download está disponível para Virtual Box, VMWare, KVM e Docker Image. Atualmente a versão instalada do CDH é a 5.13, periodicamente a empresa libera versões atualizadas com a versões mais recentes do CDH. Nessa versão você irá testar com um Cluster de nó único.

Não é recomendado usar as VMs da Cloudera para uso em produção. Mais informações aqui.

2) Baixando o CDH a plataforma 100% OpenSource da Cloudera

A CDH é a distribuição de plataforma 100% de código aberto da Cloudera, incluindo o Apache Hadoop e construída especificamente para atender às demandas da empresa. O CDH oferece tudo o que você precisa para uso empresarial imediatamente. Ao integrar o Hadoop a mais de uma dúzia de outros projetos críticos de código aberto, a Cloudera criou um sistema funcionalmente avançado que ajuda a executar fluxos de trabalho de Big Data de ponta a ponta.

Somente com o CDH, você pode começar a usar os serviços do Hadoop em um cluster pseudo-distribuído, geralmente usado para teste. A empresa disponibiliza o download da versão mais atual aqui, mas pode escolher outras versões antigas disponíveis.

3) Iniciando com o Cloudera Manager

O Manager é uma interface unificada para gerenciar seu hub de dados. Possui 3 versões de instalação:

  1. Cloudera Express
  2. Cloudera Enterprise Edition Trial
  3. Cloudera Enterprise

Enterprise Data Hub Edition é uma versão gratuita para usar durante 60 dias com todos os recursos disponíveis na versão Enterprise paga, após o período de teste ela é automaticamente convertida em Express. O Express é uma versão gratuita com os principais recursos do Manager.

Para iniciar com o Manager é necessário um conjunto de máquinas que serão usadas para a criação do Cluster.

4) Cloudera Altus

A primeira plataforma de nuvem de aprendizado e análise de máquina do setor construída com uma experiência de dados compartilhada.

O Altus permite que engenheiros de dados executem pipelines de dados em exabytes de dados no armazenamento em nuvem. Ele oferece recursos de armazenamento de dados de autoatendimento, para que os analistas possam fornecer insights críticos de volta aos negócios. O SDX para Altus possibilita a persistência e o compartilhamento de contexto de dados, como definições de tabela, segurança de dados e políticas de controle em cargas de trabalho de nuvem de longa duração e transientes.

Mais informações aqui aqui

Posts relacionados

Deixe um comentário