O que é Data Lake
Definição

Pense no Data Lake como um reservatório de água em estado natural, em oposição a prateleiras de garrafas d’água purificadas e prontas para serem consumidas. É possível manipular a água do reservatório de formas diferentes que não resultam somente no processo de purificação, engarrafamento e consumo. Foi essa a metáfora usada por James Dixon, CTO da empresa Pentaho, para descrever o conceito de Data Lake, em 2010.

O Data Lake apresenta uma abordagem distinta em relação ao uso de dados. Diferentemente do Data Mart e Data Warehouse, que armazenam dados tratados e organizados em um formato padrão, o Data Lake é um repositório de dados que não estão conformados a objetivos pré-definidos e por isso podem ser consultados para diversos projetos e finalidades. Esses dados podem servir a análises e decisões estratégicas de negócios que não são previstas, e ainda podem ser compartilhados entre departamentos diferentes, o que garante rapidez e possibilita inovação.

As informações presentes em um Data Lake tem origens diversas: são dados relacionais e não-relacionais, vindos de aplicações corporativas, dispositivos de IoT (Internet das Coisas), aplicativos móveis, redes sociais, websites, entre outros. Eles são preservados em seu formato de origem e processados de acordo com a demanda, o que reduz o esforço de estruturar dados que podem não se converter em vantagens competitivas para o negócio.

Isso é chamado de schema-on-read e é uma das principais diferenças entre o Data Lake e o Data Warehouse. Schema é uma descrição lógica do banco de dados; no Data Lake isso não é feito até que os dados precisem ser utilizados, só então eles são formatados e processados. No Data Warehouse, entretanto, essa descrição é feita quando os dados são salvos (schema-on-write), isso significa que é necessário saber de antemão para quê eles serão utilizados. Abaixo, alguns benefícios do uso de data lakes.

Benefícios
Flexibilidade

O Data Lake pode armazenar dados de diferentes formatos, estruturados ou não. Isso não acontece em data warehouses, por exemplo, onde eles estão divididos em colunas ou linhas.

Análise avançada

O volume de dados disponível, e a possibilidade de usar algoritmos de deep learning, permite análises avançadas que auxiliam decisões de negócios em tempo real.

Compartilhamento dos dados

O Data Lake torna as informações disponíveis para toda a organização, o que ajuda a tomada de decisões a qualquer nível. Isso diminui o tempo que seria gasto com solicitações entre setores e agiliza projetos.

O uso de data lakes apresenta vários benefícios para negócios, mas é preciso ter cuidado para não transformá-los nos chamados data swamps. Isto é, acumular dados de forma desorganizada, o que os tornam difíceis de encontrar e usar. Outro problema com data swamps é que, à medida que não se sabe quais dados estão armazenados, informações sensíveis podem ser compartilhadas indiscriminadamente.

Uma solução para esse problema é o uso de metadados (informações sobre os dados armazenados) para fins de organização, além de manter diferentes níveis de governança para as informações.

Aplicações

Data lakes são, portanto, uma aposta no futuro: as informações são armazenadas porque podem vir a serem usadas. Principalmente no cenário atual, no qual o Big Data tem assumido um papel importante em análises e decisões de negócios, data lakes são uma solução interessante para alimentar essas discussões. Eles podem ser aplicados em Machine Learning, análises de previsão, data discovery, entre outros.

Entre em Contato