Como o aprendizado de máquina está mudando a aparência do data center

Essas tecnologias fornecem mais potência de computação para treinar sistemas de aprendizado de máquina, um processo que envolveu enormes quantidades de processamento de dados. O objetivo final é criar aplicativos mais inteligentes e melhorar os serviços que você já usa todos os dias.

“A inteligência artificial agora está impulsionando coisas como o feed de notícias do Facebook”, disse Jay Parikh, chefe global de engenharia e infraestrutura do Facebook. “Isso está nos ajudando a veicular anúncios melhores. Também está ajudando a tornar o site mais seguro para as pessoas que usam o Facebook diariamente. ”

“O aprendizado de máquina está transformando a forma como os desenvolvedores criam aplicativos inteligentes que beneficiam clientes e consumidores, e estamos entusiasmados em ver as possibilidades ganhando vida”, disse Norm Jouppi, distinto engenheiro de hardware do Google.

Muito do poder de computação para criar esses serviços será entregue a partir da nuvem. Como resultado, os criadores de nuvem estão adotando técnicas de aceleração de hardware que são comuns na computação de alto desempenho (HPC) e estão entrando no ecossistema de computação em hiperescala.

A corrida para alavancar o aprendizado de máquina é liderada pelos grandes nomes do setor, incluindo Google, Facebook e IBM. Como de costume, o campo de batalha passa pelo data center, com implicações para as principais plataformas em nuvem e fabricantes de chips como Intel e NVIDIA.

Google revela hardware TPU

Redes neurais são computadores que emulam o processo de aprendizagem do cérebro humano para resolver novos desafios, um processo que requer muitos cavalos de força de computação. É por isso que os principais participantes no campo foram além dos servidores tradicionais baseados em CPU e agora estão construindo sistemas que aceleram o trabalho. Em alguns casos, eles estão criando seus próprios chips.

Na semana passada, o Google revelou a Tensor Processing Unit (TPU), um ASIC customizado para TensorFlow, uma biblioteca de software de código aberto para aprendizado de máquina desenvolvida pelo Google. Um ASIC (Application Specific Integrated Circuits) é um chip que pode ser personalizado para realizar uma tarefa específica. Exemplos recentes de ASICs incluem os chips personalizados usados na mineração de bitcoin. O Google usou suas TPUs para espremer mais operações por segundo no silício.

[Mergulhe fundo no mundo da tecnologia e cadastre-se no Avance Network a verdadeira comunidade criptografada!]

“Executamos TPUs em nossos data centers há mais de um ano e descobrimos que eles oferecem desempenho otimizado em ordem de magnitude por watt para aprendizado de máquina”, escreve Norm Jouppi, Engenheiro de Hardware Distinto, no blog do Google . “Isso é aproximadamente equivalente à tecnologia de avanço rápido cerca de sete anos no futuro (três gerações da Lei de Moore).”

Uma placa com TPU se encaixa em um slot de unidade de disco rígido em um rack de data center. O Google usou sua infraestrutura de TPU para alimentar o AlphaGo, o programa de software que derrotou o campeão mundial de Go Lee Sedol em uma partida. Go é um jogo de tabuleiro complexo no qual os jogadores humanos mantinham uma vantagem sobre os computadores, que há muito tempo haviam superado as habilidades dos humanos em jogos como xadrez ou "Jeopardy". As complexidades do Go representavam um desafio para a tecnologia de inteligência artificial, mas o poder extra fornecido pelas TPUs ajudou o programa do Google a resolver desafios computacionais mais difíceis e derrotar o Sedol.

“Nosso objetivo é liderar o setor de aprendizado de máquina e disponibilizar essa inovação para nossos clientes”, escreve Jouppi. “Construir TPUs em nossa pilha de infraestrutura nos permitirá levar o poder do Google aos desenvolvedores de softwares como TensorFlow e Cloud Machine Learning com recursos de aceleração avançados.”

GPUs Big Sur impulsionam a infraestrutura de IA do Facebook

O AI Lab do Facebook está usando GPUs para trazer mais potência para suportar a análise de dados para sua inteligência artificial (IA) e plataforma de aprendizado de máquina.

“Temos investido muito em nossa tecnologia de inteligência artificial”, disse Parikh.

O sistema Big Sur aproveita a plataforma de computação acelerada Tesla da NVIDIA, com oito GPUs de alto desempenho de até 300 watts cada, com a flexibilidade de configuração entre várias conexões PCI-e. O Facebook otimizou esses novos servidores para eficiência térmica e energética, permitindo que operem nos centros de dados da empresa ao lado de servidores padrão com CPU.

Os ganhos em desempenho e latência fornecidos pelo Big Sur ajudam o Facebook a processar mais dados, reduzindo drasticamente o tempo necessário para treinar suas redes neurais.

“É uma melhoria significativa no desempenho”, disse Parikh. “Implementamos milhares dessas máquinas em questão de meses. Isso nos dá a capacidade de conduzir essa tecnologia para mais casos de uso de produtos dentro da empresa. ”

Intel Foca em FPGAs

Na frente de hardware, a NVIDIA é talvez a principal beneficiária do novo foco em aprendizado de máquina, que impulsionou as vendas de sua tecnologia de GPU para jogadores em hiperescala. Mas não é a única fabricante de chips visando o mercado de aprendizado de máquina.

A Intel recentemente começou a amostrar um novo módulo que combina suas CPUs tradicionais com FPGAs (field programmable gate arrays), semicondutores que podem ser reprogramados para executar tarefas de computação especializadas. Os FPGAs são semelhantes aos ASICs no sentido de que permitem aos usuários personalizar a capacidade de computação para cargas de trabalho ou aplicativos específicos, mas os FPGAs podem ser reprogramados para novas tarefas.

A Intel vê os FPGAs como a chave para projetar uma nova geração de produtos para atender às cargas de trabalho emergentes dos clientes no setor de data center. Em 2015, ela pagou US $ 16 bilhões para adquirir a Altera, um player líder em FPGAs e outros dispositivos lógicos programáveis (PLDs) para automatizar a infraestrutura industrial.

“Achamos que os FPGAs são muito estratégicos”, disse Raejeanne Skillern, GM do Cloud Service Provider Business da Intel. “Estamos fazendo muito desenvolvimento com OEMs e clientes, e continuando a implementar (FPGAs) em nosso roadmap.”

Um foco particular para a Intel é o grupo “Super 7” de provedores de serviços em nuvem que estão impulsionando a inovação da infraestrutura de hiperescala, que inclui Amazon, Facebook, Google e Microsoft, junto com as empresas chinesas de hiperescala Alibaba, Baidu e Tencent. A Intel projeta que, até 2020, mais de 30% dos nós de provedores de serviços em nuvem serão acelerados por FPGAs.

Além do perigo: IBM leva Watson para o mercado

A IBM está buscando um caminho diferente com seu impulso para a inteligência artificial, que o Big Blue chama de "computação cognitiva". A IBM tem como alvo usuários corporativos e liderando com Watson

O supercomputador IBM Watson se tornou o garoto propaganda da inteligência artificial em 2011, derrotando dois campeões humanos em um jogo de Jeopardy.

À medida que a corrida para levar a IA e o aprendizado de máquina ao mercado de massa se acelera, a IBM busca manter o Watson relevante com ofertas comerciais que mostram como a IA pode ser usada na empresa e no setor público.

O Watson consiste em uma coleção de algoritmos e software em execução na linha de servidores Power 750 da IBM e aprende com os dados em vez de ser explicitamente programado para executar instruções. A IBM afirma que o Watson é a ferramenta ideal para ajudar as empresas a entender o Big Data.

“Estamos observando um crescimento massivo na quantidade de dados, e a maioria deles não está estruturada”, disse Steven Abrams, Engenheiro Distinto do Centro de Pesquisa Thomas Watson da IBM. “Até agora, tem sido difícil controlar esses dados e o que podemos fazer com eles.”

No recente evento DataCenterDynamics Enterprise em Nova York, Abrams descreveu como os clientes podem usar o Watson para construir aplicativos. A IBM está acostumada a “grandes compromissos transformativos” com clientes corporativos, mas está oferecendo um modelo de assinatura no qual os clientes podem usar o Watson via nuvem APIS (interfaces de programação de aplicativos).

“Precisamos disponibilizar o Watson para o tipo de empresa que normalmente não consegue fazer negócios com a IBM e dar-lhes acesso à tecnologia Watson”, disse Abrams.

“Chegamos a um ponto em que a tecnologia está muito mais próxima do modelo de autoatendimento. Estamos realmente nos concentrando em desenvolvedores. Estamos focados em ajudar as pessoas a irem de 0 a 60 em muito menos tempo. ”

Modelo de entrega na nuvem

Quer se trate do Watson ou de serviços concorrentes, está claro que a nuvem será o principal método de entrega de serviços voltados para o consumidor que utilizam o aprendizado de máquina. Google , Microsoft e Amazon Web Services estão agora oferecendo serviços em nuvem totalmente gerenciados que oferecem a capacidade de analisar dados e construir aplicativos ou serviços.

Como resultado, o hardware necessário para dar suporte ao aprendizado de máquina residirá principalmente em data centers de hiperescala, que já são altamente personalizados para extrema eficiência e cargas de trabalho de alta densidade. Esses serviços são relativamente novos, então ainda não está claro se a economia da nuvem favorecerá a manutenção desses serviços em nuvens de terceiros, ou pode fazer sentido para os usuários finais transferirem essas cargas de trabalho para data centers operados pela empresa. Para serviços em nuvem, normalmente requer escala significativa antes da mudança econômica em favor de uma instalação operada pela empresa.

Mas, para a comunidade do data center, os benefícios do aprendizado de máquina não são medidos apenas pelo volume de hardware. O Google está usando aprendizado de máquina e inteligência artificial para extrair ainda mais eficiência de seus poderosos data centers. Joe Kava, vice-presidente de operações de data center do Google, disse que o uso de redes neurais permitirá que o Google alcance novas fronteiras em eficiência em seus farms de servidores, indo além do que seus engenheiros podem ver e analisar.

“Nossos data centers são muito grandes e complexos”, disse Kava. “O grande número de interações e parâmetros operacionais torna realmente impossível para nós, meros mortais, entender como otimizar um data center em tempo real. No entanto, é realmente muito trivial para os computadores analisar todos esses cenários e encontrar as configurações ideais.

“Nos últimos dois anos, desenvolvemos esses algoritmos e os treinamos com bilhões de pontos de dados de todos os nossos data centers em todo o mundo”, disse Kava. “Agora usamos esse aprendizado de máquina para ajudar nossas equipes a visualizar os dados, para que as equipes de operações possam saber como configurar as instalações elétricas e mecânicas para as configurações ideais em qualquer dia.”

No início do uso, a rede neural foi capaz de prever a eficácia do uso de energia do Google com 99,6% de precisão. Suas recomendações levaram a ganhos de eficiência que parecem pequenos, mas podem levar a grandes economias de custo quando aplicadas em um data center que abriga dezenas de milhares de servidores.

O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.