O que é ETL? Um processo simples e poderoso para extração de dados

Já encontrei várias citações sobre ETL na internet, especialmente quando comecei a ter necessidade de usá-lo em minhas demandas.

Percebi que muitos divulgam o ETL como um Programa/Software, o que não é verdade por que ETL é um processo de Extração, Transformação e Carga de dados.  Veremos mais adiante informações que esclarecerão esta relação.

Além de falar sobre ETL, listarei as principais ferramentas do mercado e falarei um pouco sobre Mercado de trabalho.

Mas, antes de partimos para o objetivo deste artigo, gostaria de contextualizar trazendo um pouco de minha descoberta com o ETL.

Tudo começou alguns anos atrás quando eu trabalhava numa empresa que fornecia serviços de Logística e Transportes, tendo serviços de TI como parte integrante de seu portfolio.
Como nós oferecíamos tecnologia própria para gerir o estoque e o transporte de cargas do cliente, nós tínhamos que integrar nossos sistemas ao ERP do cliente para lançar dados referentes a sua operação.

Logo no início todo processo era feito na mão, mediante grandes cargas de dados ( eram Scripts SQL imensos), procedures, DBLinks entre outros recursos.  Acontece que, com o tempo, as
operações aumentaram e com isso começamos a perceber que a performance dessas transações estavam degradando nosso ambiente, além de,  estarmos perdendo tempo gerenciando as cargas de dados.

Foi quando descobri o Jitterbit, uma ferramenta que automatizava cargas de dados. Depois de estudá-la conseguimos automatizar todo fluxo de integração de dados da empresa. Assim, o processo pegava dados em Fontes de dados ( que era definido junto ao cliente), tratava os dados conforme era necessário e lançava na base de destino.

Continuei a estudar um pouco mais e descobri que eu não estava tendo avanços por causa de uma ferramenta e sim por causa de um processo, o tal ETL. 

Mas o que vem a ser ETL ?
ETL é uma sigla que representa Extract Transform Load (Extração Transformação Carregamento).
É um processo onde nós buscamos dados de uma fonte, transformamos este dado em um formato que nossa base de dados de destino possa entender / aceitar e entregamos os dados transformados para esta base, oferecendo o benefício de integrar bancos de dados distintos ( SQL Server com Oracle por exemplo), proporcionar uma melhor performance, cargas programadas e geração de arquivos em diversos formatos e layouts ( obedecendo a estrutura de dados que sistemas ERPs entendem).

O Processo ETL é comumente usado para Data Mart, Data Warehouse assim como outros sistemas.

De forma geral, o ETL pode ser representado pela imagem abaixo:

No Wikipedia podemos ver definições sobre ETL da seguinte forma:

ETL, do inglês Extract Transform Load (Extração Transformação Carregamento), é um processo que é utilizado por ferramentas de software cuja função é a extração de dados de diversos sistemas,
transformação desses dados conforme regras de negócios e por fim o carregamento dos dados geralmente para um Data Mart e/ou Data Warehouse, assim como para um determinado sistema da
organização ( ou seja, não é utilizado apenas para Data Warehouse e sim para várias finalidades).

A extração e carregamento são obrigatórios para o processo, sendo a transformação/limpeza opcional (mas que são boas práticas), tendo em vista que os dados já foram encaminhados para o
sistema de destino. É considerada uma das fases mais críticas do Data Warehouse e/ou Data Mart.

Os projetos de data warehouse consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou arquivo de texto (texto  plano), podendo existir outras fontes.

Atualmente, Existem várias ferramentas no mercado para trabalhar com ETL das quais destaco as seguintes:

Oracle Data Integrator (ODI);
Microsoft Integration Server (MSIS);
IBM InfoSphere DataStage;
Informática Power Center;
SAP BusinessObjects Data Services;
Pentaho Data Integration  ( esta tem versões free e muito boa de usar).

Todas as ferramentas possuem a mesma finalidade que é Coletar dados, transformar e entregar o resultado esperado. Costumo compará-las com Carros. Todos fazem a mesma coisa que é promover a locomoção, mas o que diferencia um do outro são os “caprichos” disponibilizados.

Quanto ao MERCADO DE TRABALHO, analiso que estamos num bom momento já que Ciência de dados está em alta.
Desta forma Você pode atuar, por exemplo, como :
Analista de dados, Analista de BI e Analista de Integração de Sistemas.

Finalizo afirmando que, trabalhar com ETL é estar numa área muito boa de trabalho e ampla já que você pode atuar em várias áreas.  Caso esteja pensando na possibilidade, boa sorte.

Fico por aqui. Tendo dúvidas, entre em contato.

Forte abraço.

Eduardo Santana
bufallos@bufallos.com.br

Leave a Reply

Your email address will not be published. Required fields are marked *