Guia e estratégias de backup e recuperação de desastres do Hadoop HDFS

Home > Blog de Apoio e Recuperação > Guia e estratégias de backup e recuperação de desastres do Hadoop HDFS

Atualizado 22nd dezembro 2023, Rob Morrison

Contents

Definição do Hadoop
HBase
Hadoop e segurança de dados
Conceitos errôneos sobre o Hadoop quando se trata de proteção de dados
O que se espera de uma solução moderna de proteção de dados do Hadoop?
Ferramentas e medidas de backup do Hadoop incorporadas
Metodologia para descobrir a melhor solução de backup do HDFS do Hadoop
Soluções de backup do Hadoop de terceiros
Backups do HDFS do Hadoop e Bacula Enterprise
Conclusão

Definição do Hadoop

O Hadoop foi originalmente criado para trabalhar com conjuntos de dados maciços, algo que é comumente chamado de “big data”. É uma estrutura de software de código aberto capaz de armazenar e processar grandes volumes de dados. Projetado com ampla escalabilidade em mente, o Hadoop oferece alta disponibilidade, tolerância a falhas e a capacidade de gerenciar petabytes de dados.

O Hadoop é composto por quatro componentes principais:

Yet Another Resource Negotiator, ou YARN. É uma estrutura de gerenciamento de recursos que supervisiona a alocação de recursos computacionais (CPU, memória e armazenamento) para aplicativos executados no cluster do Hadoop. Ele simplifica a alocação e o agendamento de recursos, tornando o gerenciamento e o dimensionamento de aplicativos do Hadoop mais gerenciáveis.
MapReduce. É um modelo de programação que facilita o processamento de grandes conjuntos de dados em clusters distribuídos. Os dados em questão são processados por vários nós de cluster ao mesmo tempo, depois de terem sido separados em partes menores. Os resultados do processamento são então combinados para gerar a saída final.
ZooKeeper. É um serviço de coordenação distribuído que fornece um registro centralizado para nomeação, configuração e sincronização entre os nós do cluster do Hadoop. O principal objetivo do ZooKeeper é garantir que o estado do sistema seja consistente em todos os momentos, monitorando cada nó do cluster.
Hadoop Distributed File System, ou HDFS. Como o próprio nome sugere, é um sistema de arquivos projetado especificamente para trabalhar com grandes volumes de dados separados em clusters e nós. Ele particiona os dados em vários nós, replicando blocos de dados para tolerância a falhas.

A escalabilidade e a flexibilidade do Hadoop o tornam uma opção atraente para organizações que lidam com grandes quantidades de dados. Sua capacidade de armazenar, processar e analisar grandes conjuntos de dados com eficiência o tornou a pedra angular da infraestrutura de dados moderna. O Hadoop tem muitos casos de uso em potencial, incluindo, mas não exclusivamente:

Facilitar a criação de data warehouses para armazenamento e análise de grandes volumes de dados em uma estrutura específica.
Oferecer uma capacidade inestimável de receber insights, tendências e padrões a partir da análise desses volumes de dados.
Gerando data lakes – repositórios para grandes quantidades de dados não processados.
Permitindo o treinamento e a implantação de modelos de aprendizado de máquina em grandes conjuntos de dados.
Coleta, análise e armazenamento de grandes volumes de logs de sites, aplicativos e servidores.

HBase

O Hadoop é uma estrutura interessante, mas sua principal finalidade ainda é o armazenamento de dados para fins específicos. A maioria dos usuários recorre ao uso do HBase para interagir com todos esses dados de forma significativa. O Apache HBase é um tipo de banco de dados distribuído com uma base NoSQL que foi criado para trabalhar com conjuntos de dados maciços, assim como o Hadoop. O HBase é uma oferta de código aberto que se integra ao Apache Hadoop e a todo o seu ecossistema. Ele pode funcionar tanto com o EMRFS (variação do MapReduce do Amazon S3) quanto com o HDFS (sistema de arquivos do próprio Hadoop).

O HBase usa o Apache Phoenix para permitir que consultas do tipo SQL sejam aplicadas às tabelas do HBase e, ao mesmo tempo, processar todos os comandos de e para a estrutura do MapReduce. Ele é escalável, rápido e tolerante a muitas falhas com sua estrutura que copia bastante a abordagem do Hadoop – com os dados sendo espalhados por vários hosts em um cluster, de modo que nenhuma falha em um único host possa derrubar todo o sistema.

A introdução ao HBase é importante nesse contexto, pois o Hadoop e o HBase são frequentemente usados em conjunto para muitos casos de uso e tipos de projetos diferentes.

Ao mesmo tempo, os métodos de backup e restauração do HBase são diferentes dos que o Hadoop usa – isso é algo que veremos mais tarde.

Hadoop e segurança de dados

O Hadoop tem passado por uma fase de popularidade bastante espontânea nos últimos anos, especialmente no contexto da introdução de IA e ML na forma de chatbots e LLMs (Large Language Model), como o ChatGPT, que são ensinados usando pools de dados maciços.

Ao mesmo tempo, o tópico da segurança do Hadoop como um todo tem sido bastante problemático há algum tempo. Há vários motivos para esse problema, incluindo o tamanho médio dos dados (principalmente contando petabytes e exabytes), a escalabilidade geral da solução (tornando praticamente impossível implementar algo que funcione para qualquer forma e tamanho de dados), bem como o recurso de replicação de dados incluído.

A replicação de dados é a alternativa original do Hadoop aos backups de dados – ele cria 3 cópias de cada bloco de dados por padrão, o que faz com que alguns usuários pensem que não há necessidade de uma solução de backup em primeiro lugar. O que normalmente falta a essa abordagem é a compreensão de que os recursos do Hadoop só funcionam para pools de dados tradicionais não estruturados em depósitos e similares.

Portanto, quando se trata de modelos de ML, dados de IoT, dados de mídias sociais e outros tipos de dados que diferem dos lagos de dados usuais pelos quais o Hadoop é conhecido, ele pode oferecer pouca proteção para esses dados, criando um enorme problema de segurança para seus usuários.

Há também o problema da acessibilidade: os dados replicados pelo Hadoop não são armazenados separadamente do original, o que os torna tão vulneráveis a problemas e violações de dados quanto o conjunto de dados original. Por isso, há uma demanda por medidas de backup do Hadoop, tanto integradas quanto de terceiros.

No entanto, antes de falarmos especificamente dos backups do Hadoop, é importante falar um pouco mais sobre o Hadoop no contexto da proteção de dados.

Conceitos errôneos sobre o Hadoop quando se trata de proteção de dados

A adoção generalizada do Hadoop nas empresas levou à proliferação de mecanismos básicos de backup e recuperação do Hadoop implementados às pressas. Essas soluções rudimentares, geralmente incluídas nas distribuições do Hadoop ou reunidas por equipes de desenvolvimento internas, podem parecer funcionais à primeira vista, mas apresentam riscos significativos à integridade dos dados e à resiliência organizacional, especialmente à medida que os sistemas aumentam de tamanho e complexidade.

Qualquer tempo de inatividade ou perda de dados resultante de falhas na recuperação durante um desastre pode ter graves repercussões para as empresas, manchando a reputação, aumentando os custos e prejudicando os esforços de colocação no mercado. A maioria das desvantagens dessa abordagem pode ser explicada pela análise de alguns dos maiores equívocos que o Hadoop tem em termos de proteção de dados.

Equívoco nº 1 – O uso de snapshots do HDFS é uma estratégia viável de proteção de dados

O sistema de arquivos distribuídos do Hadoop usa snapshots para gerar cópias pontuais de arquivos individuais ou diretórios inteiros. Há muitas limitações nessa abordagem de proteção de dados:

Recuperar dados de snapshots do HDFS é um processo complicado, que exige localização manual de arquivos, reconstrução de esquemas e recuperação de arquivos de dados.
Os snapshots do HDFS operam no nível do arquivo, o que os torna ineficazes para bancos de dados como Hive e HBase, pois as definições de esquema associadas não são capturadas nos backups.
Embora seja possível executar e armazenar vários snapshots do sistema, cada snapshot aumenta os requisitos gerais do cluster em termos de armazenamento, o que pode se tornar um grande problema no futuro.
Como os instantâneos residem nos mesmos nós que os dados que eles protegem, uma falha no nó ou no disco pode resultar na perda dos instantâneos e dos dados protegidos.

Equívoco nº 2 – As distribuições comerciais do Hadoop oferecem recursos de backup suficientes

As distribuições comerciais do Hadoop geralmente incluem ferramentas de backup integradas. Essas ferramentas, embora ofereçam um nível básico de funcionalidade de backup, podem não estar alinhadas com os RPOs e RTOs rigorosos de uma organização. Essencialmente, essas ferramentas funcionam como uma interface de usuário para instantâneos do HDFS, herdando todas as limitações associadas aos instantâneos do HDFS discutidas anteriormente. Além disso, essas ferramentas geralmente não têm mecanismos de recuperação fáceis de usar, o que torna a recuperação de dados um processo manual e sujeito a erros.

Equívoco nº 3 – As réplicas do sistema de arquivos são uma medida de proteção de dados suficiente para o Hadoop

Embora as réplicas protejam efetivamente os dados contra falhas de hardware, como interrupções de nós ou mau funcionamento da unidade de disco, elas não são suficientes para proteger contra cenários mais comuns que envolvem corrupção de dados. Erros do usuário, como a exclusão acidental de tabelas no Hive, e bugs de aplicativos podem levar à corrupção de dados, tornando as réplicas ineficazes na restauração da integridade dos dados.

Equívoco nº 4 – Os scripts personalizados para o Hadoop são adequados para tarefas de backup e recuperação de longo prazo

As equipes internas de desenvolvimento de muitas organizações recorrem com frequência ao desenvolvimento de scripts personalizados para fazer backup dos bancos de dados Hive e HBase, bem como dos arquivos HDFS. Essa abordagem geralmente envolve a dedicação de vários meses-homem para escrever e testar scripts para garantir sua funcionalidade em todos os cenários.

Infelizmente, essa abordagem como um todo é extremamente difícil de manter, pois os scripts personalizados precisam ser atualizados e revisados regularmente, seja por causa das atualizações do Hadoop ou por qualquer outro motivo. Assim como os snapshots, os scripts se concentram principalmente na replicação de dados e não têm mecanismos de recuperação automatizados. Como resultado, a recuperação de dados continua sendo um processo manual e propenso a erros.

Além disso, a ausência de testes regulares pode levar à perda de dados, especialmente quando a equipe responsável pelo desenvolvimento do script não está mais disponível.

O que se espera de uma solução moderna de proteção de dados do Hadoop?

As estratégias de recuperação de dados são algo em que todo ambiente baseado no Hadoop teria que pensar mais cedo ou mais tarde. Uma estratégia abrangente e bem definida de backup e recuperação do Hadoop é essencial para garantir uma recuperação confiável e rápida dos dados e, ao mesmo tempo, minimizar a carga sobre os recursos de engenharia e desenvolvimento.

Uma solução moderna de proteção de dados do Hadoop deve ser capaz de equilibrar entre scripts personalizados complexos e recursos sofisticados de backup de dados. Ela deve operar de forma autônoma, eliminando a necessidade de recursos dedicados e exigindo o mínimo de conhecimento especializado em Hadoop. Além disso, deve ser excepcionalmente confiável e dimensionável para gerenciar com eficiência petabytes de dados, atendendo a requisitos rigorosos de conformidade interna para objetivos de ponto de recuperação e objetivos de tempo de recuperação.

Além disso, a solução em questão deve oferecer proteção abrangente contra ransomware, garantindo a integridade dos dados diante de ataques mal-intencionados. A integração do armazenamento em nuvem é outro recurso crucial, permitindo a otimização de custos e o armazenamento flexível de dados. A solução também deve preservar várias cópias pontuais de dados para recuperação granular, garantindo a disponibilidade de dados históricos quando necessário.

Além disso, um software moderno de backup e recuperação do Hadoop deve priorizar a eficiência da recuperação, empregando o reconhecimento inteligente dos dados para desduplicar os formatos de big data e simplificar os processos de recuperação. Ao aproveitar as tecnologias avançadas e a automação, essa solução pode proteger os ativos de dados essenciais e minimizar o impacto da perda ou corrupção de dados.

Ferramentas e medidas de backup do Hadoop incorporadas

Como mencionamos anteriormente, o Hadoop não oferece nenhuma maneira de realizar um backup de dados “tradicional”, por vários motivos. Um dos principais motivos para isso é a enorme quantidade de dados com os quais o Hadoop geralmente opera – petabytes e exabytes de informações não estruturadas em uma estrutura muito incomum.

Felizmente, isso não quer dizer que o Hadoop esteja completamente indefeso. Sua própria estrutura de dados com replicação 3x por padrão o torna relativamente seguro contra pequenas partes do cluster que ficam fora de serviço, já que os próprios dados são armazenados em vários locais ao mesmo tempo.

A replicação de dados mencionada acima é um dos principais motivos pelos quais nem todos os usuários do Hadoop se preocupam com medidas de backup em primeiro lugar, esquecendo-se completamente de que a replicação por si só não pode proteger contra a perda do cluster ou outros problemas de grande escala, como desastres naturais.

DistCp

Por falar em replicação de dados, há também uma ferramenta de replicação manual de dados com a qual muitos usuários do Hadoop trabalham: DistCp, ou Distributed Copy. Trata-se de uma ferramenta CLI relativamente simples que oferece a capacidade de replicar dados de um cluster para outro, criando uma espécie de “backup” que funciona como mais uma proteção contra possíveis perdas de dados.

O DistCp pode ser usado para realizar a cópia do cluster com um comando relativamente simples:

bash$ hadoop distcp2 hdfs://fns1:8020/path/loc hdfs://fns2:8020/loc/parth

O comando em questão localiza o nó de nome fns1 com o namespace em /path/loc e o expande em um arquivo temporário. O conteúdo do diretório é então dividido entre um conjunto de tarefas de mapa antes do início do processo de cópia, usando o cluster fns2 e o local /loc/path como destino final.

Deve-se observar que há duas versões comumente usadas do DistCp: a versão original/legada e a “segunda” versão chamada DistCp2. Há duas grandes diferenças entre essas versões de ferramentas:

A versão legada do DistCp não era capaz de criar diretórios raiz vazios na pasta de destino, mas o DistCp2 pode fazer isso perfeitamente.
A versão legada do DistCp não atualizava nenhum atributo dos arquivos que eram ignorados durante o processo de cópia – esse não é o caso do DistCp2, pois ele atualizava todos os valores, como permissões e informações do grupo proprietário, mesmo que o arquivo em questão não fosse copiado.

Snapshots do HDFS

A alternativa à replicação de dados para o Hadoop quando se trata de medidas integradas é o snapshotting. Os instantâneos do HDFS são cópias pontuais de dados com status somente de leitura, que são rápidas e eficientes, mas com suas próprias ressalvas.

A criação de snapshots é instantânea e não afeta as operações regulares do HDFS, pois a ordem cronológica inversa é usada para registrar as modificações de dados. Os próprios snapshots só exigem memória adicional quando há modificações feitas em relação a um snapshot. Além disso, a função Snapshot não copia blocos nos nós de dados – os únicos dados que são registrados são o tamanho do arquivo e a lista de blocos.

Há alguns comandos básicos associados à criação do HDFS Snapshot, incluindo:

Criação de Snapshot do HDFS

hdfs dfs -createSnapshot hdfs://fns1:8020/path/loc

Esse comando específico também oferece suporte à nomeação personalizada opcional para o snapshot em questão – um nome padronizado seria usado para o snapshot em questão se o nome personalizado não tivesse sido detectado.

Exclusão de snapshot do HDFS

hdfs dfs -deleteSnapshot hdfs://fns1:8020/path/loc snapshot2023

Ao contrário do comando anterior, o nome do snapshot é um argumento não opcional nesse caso.

Permitindo a criação de um Snapshot para um diretório

hdfs dfs -allowSnapshot hdfs://fns1:8020/path/loc

Permitir a criação de um Snapshot para um diretório

hdfs dfs -disallowSnapshot hdfs://fns1:8020/path/loc

É claro que existem outras abordagens que podem ser usadas para proteger os dados do Hadoop de uma forma ou de outra, como o carregamento duplo – a abordagem de gerenciamento de dados que carrega todas as informações em dois clusters diferentes ao mesmo tempo. No entanto, essas abordagens costumam ter muitas nuances e exigem amplo conhecimento sobre o assunto (além de muitos recursos) para serem executadas adequadamente.

Deve-se observar também que as operações de backup e restauração do HBase não são idênticas às medidas de backup do Hadoop mencionadas neste artigo, embora o próprio HBase esteja sendo executado sobre o HDFS (parte do Hadoop). As operações de backup e restauração do HBase são completamente diferentes das medidas de backup e recuperação do Hadoop, com comandos CLI diferentes, abordagem diferente para a criação de backup e muito mais.

Metodologia para descobrir a melhor solução de backup do HDFS do Hadoop

Os provedores de soluções de backup de terceiros podem oferecer muito em termos de backup de dados do Hadoop. Existem várias soluções de backup diferentes que, de uma forma ou de outra, oferecem suporte ao backup do HDFS, mas a escolha de uma solução pode ser bastante complicada. Felizmente, podemos oferecer vários fatores diferentes que escolhemos para mostrar cada uma das soluções em comparação com as demais.

Classificações dos clientes

As classificações dos clientes existem para representar a opinião média sobre o assunto em questão – uma solução de backup, no nosso caso. Usamos sites como Capterra, TrustRadius e G2 para receber esse tipo de informação.

Capterra é uma plataforma agregadora de avaliações que faz verificações minuciosas em todos os seus clientes para garantir a autenticidade das avaliações. Ela não permite que os fornecedores removam as avaliações dos clientes de forma alguma. O número total de avaliações da Capterra já ultrapassa 2 milhões, com quase mil categorias diferentes para escolher.

A TrustRadius é uma plataforma de avaliação que utiliza processos extensivos de várias etapas para garantir que cada avaliação seja autêntica e real, e há também uma equipe interna de pesquisa separada para analisar as avaliações, para que sejam detalhadas e completas. A plataforma não permite nenhum tipo de adulteração das avaliações dos usuários por parte do fornecedor.

A G2 é uma plataforma de avaliação notável com mais de 2,4 milhões de avaliações até o momento. Ela tem uma biblioteca de mais de 100.000 fornecedores para escolher e seu próprio sistema de validação de avaliações para garantir que cada avaliação seja real e genuína. O G2 também tem vários outros serviços à sua escolha, incluindo rastreamento, investimento, marketing e muito mais.

Principais recursos e vantagens/desvantagens

Essa é uma categoria bastante complexa, que inclui tanto os recursos quanto as vantagens/desvantagens da solução. De certa forma, eles são relativamente semelhantes, sendo que alguns dos principais recursos mais proeminentes de um backup HDFS do Hadoop médio são:

Extensa escalabilidade devido ao grande volume de dados com que as implementações do Hadoop estão lidando.
Alto desempenho das operações de backup/restauração para garantir backups rápidos e recuperações rápidas, quando necessário.
Flexibilidade em termos de tipos de dados que podem ser copiados, sejam eles Namespaces, Deployments, Pods, Apps etc.
A consistência do snapshot deve estar sempre presente em uma solução do Hadoop para garantir um risco mínimo de perda de dados e operações de recuperação mais fáceis no futuro.
As análises detalhadas são recomendadas, pois podem simplificar muito a tarefa geral de gerenciamento de backup, fornecendo insights úteis e outros tipos de dados.

Preços

O preço é um dos fatores mais importantes de uma solução de backup – ou de qualquer tipo de produto ou serviço. Quando se trata especificamente de soluções de backup (especialmente soluções de backup do Hadoop HDFS), o preço pode facilmente ser o fator decisivo para várias empresas. O resultado depende muito das necessidades atuais de um cliente, bem como de muitos outros fatores internos. É altamente recomendável sempre comparar o preço da solução com seu conjunto de recursos para garantir a melhor relação custo-benefício para sua empresa.

Uma opinião pessoal do autor

Uma parte completamente subjetiva da metodologia – a opinião do autor sobre o tópico (backups do Hadoop HDFS). Essa categoria pode incluir praticamente qualquer coisa, desde a opinião pessoal do autor sobre o assunto em questão até algumas informações que podem não ter sido adequadas para serem mencionadas em outras partes da metodologia.

Soluções de backup do Hadoop de terceiros

Há várias opções possíveis de backup de terceiros para o usuário do Hadoop, incluindo soluções de backup populares e menos conhecidas.

Commvault

A Commvault tenta mudar completamente o campo atual do gerenciamento de dados ao não exigir nenhuma forma de administração no local para controlar todo o sistema de proteção de dados. Ela opera como uma plataforma centralizada com backups físicos e virtuais, oferecendo a capacidade de gerenciar todos os aspectos do sistema a partir de um único local. Todos os recursos da Commvault estão reunidos em uma interface acessível e fácil de usar, sem nenhuma complexidade desnecessária.

O suporte para backups de dados Hadoop é um dos muitos recursos diferentes que a Commvault pode oferecer. Os recursos de backup e restauração de HDFS e HBase estão incluídos no pacote geral – com três tipos diferentes de backup (incremental, completo, completo sintético), recursos de agendamento de backup, restauração granular de dados, vários destinos de restauração e assim por diante.

Classificações dos clientes:

Capterra – 4,8/5 pontos com 11 revisões de clientes
TrustRadius – 8,0/10 pontos com 217 revisões de clientes
G2 – 4,2/5 pontos com 112 revisões de clientes

Vantagens:

A Commvault prioriza a conveniência do usuário, garantindo que as tarefas de configuração de rotina sejam fáceis de executar. Essa abordagem intuitiva minimiza os requisitos de treinamento e maximiza a produtividade, promovendo uma experiência de usuário tranquila.
A escalabilidade da Commvault vai além do crescimento vertical; ela é perfeitamente dimensionada horizontalmente para atender às demandas em evolução, aproveitando diversas integrações e oferecendo suporte a uma ampla gama de tipos de armazenamento.
A escalabilidade da Commvault é razoavelmente boa; ela se adapta bem a algumas infraestruturas de TI complexas e avançadas, fornecendo proteção de dados abrangente para organizações de todos os tamanhos. Ele pode trabalhar com algumas estruturas de big data, como o Hadoop.

Observações:

Os relatórios detalhados parecem ser um desafio bastante comum para muitas soluções de backup de dados corporativos, incluindo a Commvault. Apesar de integrações específicas oferecerem relatórios aprimorados, as deficiências gerais de relatórios são evidentes em todos os setores.
Apesar de a Commvault se orgulhar de oferecer amplo suporte a contêineres, hipervisores e bancos de dados, é fundamental reconhecer que a compatibilidade universal continua difícil de ser alcançada. Uma avaliação abrangente dos sistemas compatíveis é recomendada antes da adoção.
As considerações de custo são particularmente pertinentes para pequenas e médias empresas, já que os preços da Commvault geralmente excedem as médias do mercado, o que pode sobrecarregar os orçamentos. Uma avaliação cuidadosa das implicações financeiras é essencial antes de investir na Commvault.

Preços (no momento da redação):

Não há informações oficiais sobre preços que possam ser encontradas no site da Commvault.
No entanto, há também a informação não oficial que oferece o preço de US$ 3.400 a US$ 8.781 por mês para um único appliance de hardware.

Minha opinião pessoal sobre a Commvault:

A versatilidade da Commvault se destaca, com seu suporte a uma gama diversificada de soluções de armazenamento, abrangendo ambientes físicos e de nuvem. Independentemente de seus dados residirem na infraestrutura tradicional no local ou nas extensões elásticas da nuvem, a Commvault garante proteção e acessibilidade. Sua versatilidade é impressionante, com a capacidade de criar backups do HDFS de várias maneiras, o que o torna um grande concorrente para esta lista de soluções de backup e recuperação do Hadoop.

NetApp

O alcance global da NetApp, que abrange mais de 150 escritórios em todo o mundo, garante um suporte local prontamente acessível, fornecendo assistência imediata quando e onde for necessário. Essa ampla rede de centros de suporte ressalta o compromisso da NetApp com a satisfação do cliente. Uma interface centralizada serve como o centro nervoso da proeza de proteção de dados da NetApp, fornecendo uma plataforma unificada para monitorar, programar e registrar suas operações de backup e recuperação.

A versatilidade da NetApp se reflete em seu suporte a um amplo espectro de tipos de dados, abrangendo aplicativos, bancos de dados, servidores MS Exchange, máquinas virtuais e até mesmo estruturas de gerenciamento de dados, como o Hadoop. A NetApp trabalha com o já mencionado DistCp para receber dados de backup – já que a NetApp usa o MapReduce para definir seu próprio compartilhamento NFS como um local de destino de backup para o DistCp, agindo de forma semelhante a um driver NFS.

Classificações dos clientes:

Capterra – 4,5/5 pontos com 8 revisões
TrustRadius – 9,2/10 pontos com 2 revisões
G2 – 3,8/5 pontos com 2 revisões

Vantagens:

Uma parte substancial do processo de clonagem é automatizada, tornando-o notavelmente fácil de usar, com o mínimo de configurações complexas ou menus para navegar – e o mesmo pode ser dito para o resto da solução, também.
Os recursos de backup remoto da solução são particularmente notáveis, possibilitando potencialmente uma estratégia de proteção de dados perfeita.
O suporte para tarefas de backup e restauração do HDFS é realizado por meio da integração com o DistCp – configurando um Network File System da NetApp como destino para uma tarefa de backup do DistCp.

Observações:

Apesar de seus pontos fortes, a solução pode ser prejudicada por um número notável de bugs que podem prejudicar seu desempenho geral.
A solução não tem recursos de restauração remota para servidores Linux, o que é uma desvantagem significativa para alguns usuários.
Além disso, o suporte ao cliente é um pouco limitado, fazendo com que os usuários dependam mais dos recursos de autoatendimento.

Preços (no momento da redação):

As soluções da NetApp tendem a variar drasticamente em termos de preço e recursos.
Para obter qualquer tipo de informação sobre preços, os clientes em potencial devem entrar em contato diretamente com a NetApp para iniciar uma avaliação ou demonstração gratuita.
Fontes não oficiais sugerem que a taxa de assinatura anual do NetApp SnapCenter começa em US$ 1.410.

Minha opinião pessoal sobre a NetApp:.

A NetApp pode oferecer gerenciamento centralizado de backup, várias opções de agendamento, amplos recursos orientados a backup e a capacidade de trabalhar com vários tipos de storage. Os backups gerados com a solução são prontamente acessíveis a partir de praticamente qualquer dispositivo equipado com um navegador da Web, incluindo laptops e telefones celulares. A NetApp se destaca entre seus concorrentes por oferecer uma rede global de escritórios, o que provavelmente ajudará no suporte localizado para empresas em regiões específicas. É importante reconhecer que não houve uma solução única escolhida como descrição para os recursos de backup do Hadoop da NetApp, já que esse recurso específico utiliza várias tecnologias da NetApp que não estão todas vinculadas a uma única solução.

Veritas NetBackup

A Veritas é uma entidade venerável com um rico legado no setor de backup e recuperação. A Veritas pode oferecer governança de informações, gerenciamento de dados em várias nuvens, soluções de backup e recuperação e muito mais. Além disso, seu modelo de implementação flexível permite que os clientes personalizem suas estratégias de proteção de dados de acordo com seus requisitos exclusivos. A Veritas pode oferecer uma opção entre um appliance de hardware para uma integração perfeita ou um software implantável no próprio hardware do cliente para obter o máximo de flexibilidade e controle.

O Veritas NetBackup também pode oferecer operações de backup do Hadoop com seu plug-in sem agente, que pode oferecer vários recursos. Esse plug-in oferece backups completos e incrementais, permitindo a criação de cópias de dados pontuais a qualquer momento. Há pouquíssimas limitações quando se trata de restaurar esses dados – um administrador pode escolher o local de restauração, e o plug-in também oferece suporte à restauração granular, se necessário.

Classificações dos clientes:

Capterra – 4.1/5 pontos com 8 revisões
TrustRadius – 6,3/10 pontos com 159 revisões
G2 – 4.1/5 pontos com 234 revisões

Vantagens:

O número geral de recursos que a Veritas pode oferecer é grande em comparação com outros fornecedores no mercado de backup e recuperação.
Os usuários elogiam a interface amigável da solução, que apresenta de forma eficaz seu abrangente conjunto de recursos sem prejudicar a acessibilidade.
O serviço de suporte ao cliente da Veritas se sai razoavelmente bem em termos de eficiência e capacidade de resposta.
A versatilidade geral da solução é outro argumento digno de elogios, com o software sendo capaz de trabalhar com todos os tipos de ambiente, incluindo o Hadoop (por meio de um plug-in separado para o NetBackup).

Observações:

Apesar de ser uma solução de classe empresarial, a Veritas fica aquém em determinadas áreas em relação aos recursos de automação.
Além disso, seu preço pode ser considerado caro em comparação com alguns de seus concorrentes.
Não há como salvar relatórios de backup em um local personalizado, e a capacidade geral de geração de relatórios da Veritas é bastante rígida.
A integração dos recursos da biblioteca de fitas é prejudicada por problemas não resolvidos.

Preços (no momento da redação):

A Veritas omite intencionalmente informações específicas sobre preços em seu site oficial, optando por uma abordagem personalizada.
Os clientes em potencial devem se envolver diretamente com a Veritas para obter detalhes de preços que se alinhem com seus requisitos específicos e necessidades de implantação.
Essa estratégia individualizada permite que a Veritas selecione cuidadosamente suas ofertas, garantindo um ajuste perfeito para as circunstâncias e preferências exclusivas de cada cliente.

Minha opinião pessoal sobre a Veritas:

A Veritas é uma potência venerável e confiável no campo das soluções de gerenciamento de dados e backup. Com um histórico comprovado que se estende por várias décadas, a Veritas foi amplamente aclamada como fornecedor preferencial de backup, especialmente entre os setores que valorizam muito a rica história e o portfólio abrangente de uma empresa. Reconhecida por seu desempenho, a Veritas oferece uma gama diversificada de soluções e recursos de backup, complementada por uma interface de usuário que atende a um amplo espectro de usuários. Ele pode até mesmo suportar estruturas complexas, como o Hadoop, incluindo suporte a SSL e autenticação Kerberos.

Dell PowerProtect DD

O PowerProtect DD é uma solução abrangente de proteção e armazenamento de dados, que engloba recursos de backup, recuperação de desastres e desduplicação de dados. Seu design modular atende a organizações de todos os tamanhos, tornando-o uma solução adequada para uma ampla variedade de casos de uso. Há equipamentos disponíveis para todos os tipos de negócios, desde empresas de nível básico até grandes empresas, com até 150 Petabytes de capacidade lógica e um throughput de aproximadamente 68 Terabytes por hora.

O PowerProtect DD se integra perfeitamente aos ambientes Hadoop por meio de um driver dedicado, o DDHCFS, oferecendo proteção de dados abrangente e uma série de outras vantagens. A solução em si requer pouca ou nenhuma configuração prévia e usa uma combinação de sua própria tecnologia (DD Boost, para uma transferência de dados mais rápida) e os recursos de replicação de dados/snapshotting do Hadoop para criar e transferir backups a serem armazenados no equipamento PowerProtect DD.

Classificações dos clientes:

TrustRadius – 8,0/10 pontos com 44 revisões de clientes

Vantagens:

Alguns clientes elogiam a confiabilidade do appliance que pode operar 24 horas por dia, 7 dias por semana e estar acessível o tempo todo.
O processo de instalação pela primeira vez parece ser relativamente simples.
Há muitos frameworks e tipos de armazenamento diferentes que são suportados – alguns até têm drivers dedicados, como o Hadoop, oferecendo muitos recursos para escolher, combinados com uma configuração sem esforço.

Observações:

A maioria das ofertas parece ser bastante cara quando comparada a um preço médio de mercado.
A velocidade de restauração de dados de um dispositivo real parece ser relativamente lenta. Isso pode se tornar insustentável para grandes conjuntos de dados.
Embora a solução de gerenciamento de hardware opere dentro de limites aceitáveis, ela parece ser um pouco simplista em sua estrutura.

Preços:

Não há informações oficiais sobre preços para a maioria dos produtos da Dell EMC no site oficial, e os equipamentos PowerProtect DD não são exceção.

Minha opinião pessoal sobre a Dell:

O PowerProtect DD é um pouco diferente do restante das opções de terceiros, principalmente porque é uma peça física de hardware em vez de um software ou plataforma virtual. É uma solução abrangente de proteção e armazenamento de dados que engloba recursos de backup, recuperação de desastres e desduplicação de dados. Ele pode trabalhar tanto com grandes empresas quanto com pequenas empresas, se necessário. Ele ainda tem um driver dedicado para tarefas de recuperação de desastres do Hadoop chamado DDHCFS – DD Hadoop Compatible File System, que oferece proteção abrangente de dados, além de muitas outras vantagens.

Cloudera

A Cloudera é uma empresa americana de software especializada em gerenciamento e análise de dados corporativos. Sua principal plataforma é a única plataforma nativa da nuvem projetada especificamente para operar sem problemas em todos os principais provedores de nuvem pública e ambientes de nuvem privada no local. A plataforma da Cloudera foi criada para empresas que estão procurando maneiras diferentes de gerenciar seus enormes pools de dados, gerar insights e tomar decisões informadas posteriormente.

Essa plataforma de gerenciamento não é, de forma alguma, focada em backup e recuperação, nem oferece uma solução de backup tradicional. No entanto, o Hadoop é a estrutura central da Cloudera como um todo, e é por isso que ela pode oferecer alguns recursos de recuperação de desastres do HDFS, fornecendo os meios de replicar dados de um cluster para outro. Os recursos de backup do Cloudera não são particularmente abrangentes por si só, mas oferecem vários recursos úteis além dos recursos básicos do tipo DistCp – como agendamento, verificação de dados e assim por diante. É um processo bastante complexo por si só, mas a Cloudera oferece um guia passo a passo sobre esse tópico exato, tornando-o muito mais fácil de executar.

Classificações dos clientes:

G2 – 4,0/5 pontos com 38 revisões de clientes

Vantagens:

O suporte ao cliente é rápido e eficiente, oferecendo amplo conhecimento sobre os recursos da solução.
Uma comunidade considerável em torno da solução facilita a busca de respostas para várias perguntas on-line, incluindo alguns dos recursos mais não convencionais do software.
A solução pode ser dimensionada extremamente bem, o que a torna aplicável a empresas de pequeno porte, grandes empresas e tudo o que estiver entre elas.

Observações:

O custo geral da solução é bastante alto, e a oferta mais barata possível ainda é considerada bastante cara para a maioria das pequenas empresas.
A documentação da solução é bastante fraca, deixando muitos tópicos e funções sem explicação para o usuário comum.
A interface de usuário da solução não recebe muitos elogios, muitos usuários a consideram rígida e sem resposta.

Preços:

Não há informações oficiais sobre preços disponíveis no site da Cloudera.
Informações de contato e formulário de solicitação de demonstração são as únicas coisas que podem ser adquiridas publicamente.

Minha opinião pessoal sobre a Cloudera:

Tecnicamente falando, a Cloudera não é uma solução de backup em si – é uma plataforma de gerenciamento de dados corporativos. No entanto, a plataforma em questão está usando o Hadoop como sua estrutura principal, e há recursos de retenção de dados incluídos no pacote, embora eles copiem principalmente os recursos do DistCp. Felizmente, o Cloudera pode criar programações de replicação de dados e até mesmo programações de restauração de dados para eventos relacionados a dados potencialmente problemáticos no futuro. -No entanto, por si só, ele carece de muitos recursos que tornariam as verdadeiras operações de backup e recuperação limitadas, na melhor das hipóteses, levando a possíveis dificuldades de continuidade dos negócios, conformidade e operação eficiente em algumas organizações.

Backups do HDFS do Hadoop e Bacula Enterprise

O Bacula Enterprise é uma solução de backup altamente segura e escalável que oferece seus recursos flexíveis por meio de um sistema de módulos. Há um módulo de backup HDFS separado que oferece um eficiente backup e restauração de cluster HDFS com vários tipos de backup (incremental, diferencial, completo) e gerenciamento automático de snapshot.

O módulo é capaz de filtrar os dados com base na data de criação, o que torna o trabalho extremamente conveniente para o usuário final. Há também muitas outras funcionalidades de backup, bem como liberdade quase total quando se trata de escolher o diretório de restauração para backups do HDFS.

A maneira como esse módulo funciona também é simples – uma operação de backup solicita uma conexão entre um Hadoop FS e um módulo Hadoop para gerar um instantâneo do sistema antes de enviá-lo para o Bacula File Daemon. O backup completo não precisa acessar os snapshots anteriores, enquanto os backups diferenciais e incrementais precisam fazê-lo para tomar nota de quaisquer diferenças entre o último snapshot e o atual.

Há também o fato de que o Bacula Enterprise é distribuído usando um modelo de licenciamento de assinatura vantajoso, sem limites de volume de dados. Essa é uma grande vantagem no contexto do Hadoop, uma vez que a maioria das implantações do Hadoop são grandes pools de dados, e o backup desses tipos de implantações aumenta bastante o preço em outras soluções – mas não com o Bacula.

Muitos outros recursos de classe empresarial do Bacula também são aplicáveis aos dados de backup do Hadoop. O Bacula Enterprise é uma solução excepcional e versátil, adequada para muitos casos de uso diferentes, incluindo HPC que frequentemente utilizam HDFS,

Toda a arquitetura do Bacula é modular e personalizável, o que facilita a adaptação da solução a vários ambientes de TI, independentemente do seu tamanho. O suporte para infraestruturas distribuídas com balanceamento de carga por meio de vários servidores Bacula Director ajuda a evitar sobrecargas durante períodos de carga pesada. De modo geral, o Bacula tem um histórico de trabalho com grandes armazenamentos de dados com pouco ou nenhum problema – uma qualidade excepcionalmente útil que contribui para sua eficiência nas implantações do Hadoop. O Bacula também é capaz de fazer parte de uma estratégia abrangente de recuperação de desastres. Esses são apenas alguns dos motivos pelos quais ele é usado pelas maiores organizações militares e de defesa do mundo, por bancos, pela NASA e pelos Laboratórios Nacionais dos EUA.

Conclusão

O Hadoop é uma estrutura importante, especialmente com tantas empresas que dependem de grandes pools de dados para realizar tarefas de ML e IA, entre muitas outras. O uso de “big data” cresceu e os aplicativos para seu uso amadureceram em soluções comerciais sofisticadas e de alto valor. Da mesma forma, a demanda por estruturas que o complementam está se desenvolvendo no mesmo ritmo.

Entretanto, com novas estruturas de dados e frameworks, também surgem novos problemas, pois os protocolos e as medidas de segurança de dados existentes nem sempre são compatíveis com os sistemas Hadoop. Felizmente, o Hadoop tem seus próprios recursos de replicação de dados e snapshotting, e também há várias soluções e plataformas de backup de terceiros que podem oferecer recursos de backup do Hadoop.

Soluções como Bacula ou Veritas seriam ótimas para empresas que buscam uma solução “tudo em um” que possa cobrir as implementações do Hadoop e, ao mesmo tempo, proteger uma ampla gama de diferentes tipos de dados e aplicativos dentro da mesma infraestrutura para obter uma proteção de painel único. O Cloudera ou até mesmo alguns dos métodos incorporados podem funcionar para algumas organizações com necessidades simples de backup e recuperação, pois oferecem uma solução um pouco focada em um problema restrito, mas com recursos muito limitados fora da cobertura do HDFS e do HBase.

Os dados do HDFS e do HBase podem ser protegidos até certo ponto com diferentes métodos e abordagens em soluções de gerenciamento como a Cloudera. Porém, se for necessário fazer backup e recuperação em qualquer nível de sofisticação, serão necessárias soluções especializadas, como o Bacula, para oferecer o nível de serviço necessário.

Sobre o autor

Rob Morrison é o diretor de marketing da Bacula Systems. Ele começou sua carreira de marketing de TI na Silicon Graphics, na Suíça, e desempenhou intensamente várias funções de administração de marketing por quase 10 anos. Nos 10 anos seguintes, Rob também ocupou vários cargos de administração de marketing na JBoss, Red Hat e Pentaho, assegurando o crescimento da participação no mercado dessas empresas reconhecidas. Ele é formado pela Universidade de Plymouth e tem um diploma de honras em mídia digital e comunicação, além de ter feito um programa de estudos no exterior.