Jornada de pesquisa do Hadoop ao Bare Metal

Neste episódio, pretendo focar no POC que fizemos para decidir se devemos reconstruir o cluster de Pesquisa internamente ou migrá-lo para a nuvem.

O POC

Como tínhamos muitas perguntas em aberto sobre a migração para a nuvem, decidimos fazer um POC de aprendizado, concentrando-se em três perguntas principais:

Entenda a curva de aprendizado que será exigida dos usuários
Compatibilidade com nossos clusters Hadoop on-line internos
Estimar o custo para executar o cluster de Pesquisa na nuvem

No entanto, antes de pular na água do POC, tínhamos algum trabalho preliminar a ser feito.

Mapeando Cargas de Trabalho

Como o cluster de Pesquisa já estava em execução há mais de 6 anos, havia muitos casos de uso diferentes em execução. Alguns deles são bem conhecidos e familiares para os usuários, mas outros são dívidas antigas de tecnologia que ninguém sabia se era necessário ou não e qual era o seu valor.

Começamos com o mapeamento de todos os fluxos e casos de uso em execução no cluster, mapeados usuários e proprietários designados para os diferentes fluxos de trabalho.

Também criamos distinção entre consultas ad-hoc e processamento em lote.

Tecnologias de mapeamento

Mapeamos todas as tecnologias necessárias para oferecer suporte no cluster de Pesquisa, a fim de garantir total compatibilidade com nossos clusters on-line e o ambiente interno.

Após coletar todas as informações necessárias sobre os casos de uso e mapear as tecnologias, selecionamos fluxos de trabalho e usuários representativos para participar do POC e participar ativamente dele, coletando seus comentários sobre a curva de aprendizado e a facilidade de uso. Essa abordagem também nos servirá bem mais tarde, se decidirmos avançar com a migração, tendo embaixadores internos.

Depois de mapearmos todas as nossas necessidades, também foi mais fácil obter da estimativa de custos de alto nível dos diferentes fornecedores de nuvem, para nos dar uma indicação geral, se faz sentido continuarmos investindo tempo e recursos na realização do POC.

Queríamos concluir o POC em um mês, por um lado, ele será executado o tempo suficiente para cobrir todos os tipos de trabalhos, mas, por outro, não será prolongado.

Para o ambiente POC, criamos o cluster Hadoop, com base em tecnologias padrão.

Decidimos não alavancar neste momento tecnologias especiais de fornecedor proprietário, pois queríamos reduzir a curva de aprendizado e tomamos o cuidado de não entrar no bloqueio do fornecedor.

Além disso, decidimos iniciar o POC apenas com um fornecedor e não executá-lo em vários fornecedores de nuvem.

A razão por trás disso foi nossa atenção aos nossos recursos internos e restrições de tempo.

Fizemos uma avaliação teórica do roteiro e do custo da tecnologia para vários fornecedores de nuvem e optamos por usar a opção GCP, buscando também aproveitar o BigQuery no futuro (depois que todos os nossos dados forem migrados).

A execução

Depois que decidimos o fornecedor, as tecnologias e os casos de uso, estávamos prontos.

Para a finalidade do POC, migramos 500 TB de nossos dados, construímos o cluster Hadoop com base no Data Proc e construímos as máquinas de terminal necessárias.

Escusado será dizer que, já nesta fase, tivemos que criar a infraestrutura de rede para dar suporte ao trabalho seguro do ambiente híbrido entre o GCP e nossos datacenters internos.

Agora que tudo estava pronto, iniciamos o POC real da perspectiva dos usuários. Por um período de um mês, os usuários participantes executarão seus casos de uso duas vezes. Uma vez no cluster de Pesquisa interno (o ambiente de produção) e a segunda vez no cluster de Pesquisa baseado no GCP (o ambiente POC). Os usuários foram solicitados a registrar sua experiência, que foi medida de acordo com os critérios de fluxo:

Compatibilidade (o teste foi executado sem problemas, foram necessárias modificações no código e consultas, etc.)
Desempenho (tempo de execução, quantidade de recursos utilizados)
Fácil de usar

Durante o mês do POC, trabalhamos em estreita colaboração com os usuários, reunimos sua experiência e resultados gerais.

Além disso, documentamos a energia de computação necessária para executar essas tarefas, o que nos permitiu fazer uma melhor estimativa de custo de quanto custaria para executar todo o cluster de pesquisa na nuvem.

O POC foi bem sucedido

Os usuários tiveram uma boa experiência e nossa análise de custos provou que, ao alavancar a elasticidade da nuvem, que nesse cenário era muito significativa, a opção na nuvem teria um ROI positivo em comparação com o investimento necessário para construir o ambiente internamente. (sem entrar nos números exatos - mais de 40% mais barato, o que é um bom incentivo!)