Fonte: O Globo|
A EMC² lançou nesta terça-feira a primeira solução brasileira inteiramente projetada para a indústria de Big Data Analytics. O anúncio foi feito no Centro de Pesquisa e Desenvolvimento da empresa, que abriga o maior laboratório de Big Data da América Latina, no Parque Tecnológico da UFRJ, na Ilha do Fundão, no Rio de Janeiro. O lançamento na verdade é de âmbito mundial, e teve início em outros países na segunda-feira.
A solução chama-se Federation Business Data Lake (lago de dados federado para negócios), um nome que merece explicações. Primeiramente, um “data lake” (lago de dados) é um grande repositório de dados, uma extensão do conceito de “data warehouse”, só que sem preocupação com formato. E o “federation” significa que se trata de uma solução que integra os diversos produtos das divisões da EMC² de maneira contínua e quase transparente para o usuário, incluindo produtos de duas das quatro outras empresas do grupo: Pivotal, VMware, RSA e VCE — apenas as duas primeiras estão envolvidas no lançamento.
NOVE MESES EM APENAS UMA SEMANA
A nova solução acelera e automatiza a implementação de Data Lakes. Enquanto pelas ferramentas convencionais um sistema de Big Data desse tipo levaria entre 6 e 9 meses para começar a rodar, usando a nova solução da EMC² ele pode estar configurado e pronto para entrar em operação em cerca de uma semana, incluindo recursos de Hadoop e de lógica de análise de dados em tempo real.
Em tempo, Hadoop é um conceito de armazenamento de dados oriundo da Apache Sofware Foundation e constitui-se de uma série de algoritmos em um ambiente de código aberto escrito em linguagem Java. O objetivo desses algoritmos é cuidar do armazenamento e processamento distribuídos de grande quantidade de dados, o famoso Big Data. Esses dados estão guardados em grupos (clusters) de computadores construídos a partir de hardware de commodity, ou seja, placas-mãe e dispositivos que podem ser encontrados em lojas comuns de computadores. A filosofia foi inspirada nos velhos artigos do Google sobre seus sistemas MapReduce e Google File System.
Com a nova solução, a EMC² passa a oferecer um portfólio completo de serviços de Data Lake para clientes em qualquer um dos três estágios de Big Data: pronto, motivado e indeciso.
— Estamos em um momento único no mercado, em que as infraestruturas de armazenamento e de processamento de dados estão mudando para esse modelo Hadoop. No Hadoop 1.0 a gente construía os índices e depois jogava fora — diz Karin Breitman, cientista-chefe do Centro de Pesquisa da EMC². — Já na nova onda, o Hadoop 2.0, existe um interesse em armazenar esses dados pois hoje existe uma abundância fenomenal de informações. As antigas tecnologias de data warehouse eram úteis para resolver uma classe de problemas. Mas existem novos problemas que exigem outras ações, como dados produzidos por sensores, por máquinas, por redes sociais e por aplicativos de empresas, entre outros.
OITO CASOS EM ANDAMENTO COM PARCEIROS
A EMC² está cuidando de oito casos de big data com seus parceiros brasileiros no momento, entre eles PAM (Predictive Assets Maintenance, ou manutenção preditiva de ativos, na tradução do inglês), turbinas (e equipamentos de rotação em geral), comércio eletrônico, segurança e cidades inteligentes, sendo esse último caso exemplificado pela Cidade do Rio de Janeiro, que já tem seu próprio data lake.
— A partir desse data lake do Rio, poderemos extrair diversos resultados importantes, como por exemplo, um aplicativo móvel que informará a localização do próximo ônibus de uma dada linha, além de uma previsão de quando ele chegará ao local onde se encontra o usuário — explica Karin. — Aliás, o case do Rio será mais adiante transformado em uma solução mais genérica de big data que ofereceremos a outras cidades como um produto nosso nos 86 países em que já temos presença e que exigirá a devida configuração para cada cidade interessdada.
TORRENTES GIGANTESCAS DE DADOS
A EMC² ilustra a necessidade gerenciar e controlar dados de maneira ágil com uma previsão de como estará o mundo daqui a 5 anos em termos de geração e armazenamento de informações.
— Em 2020, teremos um novo mundo digital. Precisaremos cuidar de 44 Zetabytes (ZB) de dados, ou seja, o número 44 seguido de 21 zeros, uma massa mundial de dados que será dez vezes maior que a existente em 2013, que era de apenas 4,4ZB — prevê Guilherme Bujes, diretor de serviços de consultoria da EMC² na América Latina. — Segundos estimativas do IDC e de outras fontes, até 2020 haverá entre 30 bilhões e 200 bilhões de dispositivos conectados. Será a tão falada Internet das Coisas. E, nesse contexto, só sistemas muito robustos de Big Data Analytics poderão dar um sentido prático e benéfico a toda essa massa descomunal de informações.