que é data warehouse? Tipos, definição e exemplo

O que é armazenamento de dados?

PARA Armazenamento de dados (DW) é um processo de coleta e gerenciamento de dados de fontes variadas para fornecer insights de negócios significativos. Um data warehouse é normalmente usado para conectar e analisar dados de negócios de fontes heterogêneas. O data warehouse é o núcleo do sistema de BI que é construído para análise de dados e relatórios.

É uma mistura de tecnologias e componentes que auxiliam no uso estratégico dos dados. É o armazenamento eletrônico de uma grande quantidade de informações por uma empresa, projetado para consulta e análise, em vez de processamento de transações. É um processo de transformar dados em informações e disponibilizá-los aos usuários em tempo hábil para fazer a diferença.

Neste tutorial de Data Warehouse (DWH), você aprenderá mais sobre

O banco de dados de suporte à decisão (Data Warehouse) é mantido separadamente do banco de dados operacional da organização. No entanto, o data warehouse não é um produto, mas um ambiente. É uma construção arquitetônica de um sistema de informação que fornece aos usuários informações atuais e históricas de suporte à decisão de difícil acesso ou presentes no armazenamento de dados operacionais tradicional.

Você muitos sabem que um banco de dados projetado 3NF para um sistema de inventário tem muitas tabelas relacionadas entre si. Por exemplo, um relatório sobre as informações do estoque atual pode incluir mais de 12 condições associadas. Isso pode diminuir rapidamente o tempo de resposta da consulta e do relatório. Um data warehouse fornece um novo design que pode ajudar a reduzir o tempo de resposta e ajuda a aprimorar o desempenho de consultas para relatórios e análises.

O sistema de data warehouse também é conhecido pelo seguinte nome:

  • Sistema de Apoio à Decisão (DSS)
  • Sistema de Informação Executiva
  • Sistema de Informação de Gestão
  • Solução de Business Intelligence
  • Aplicação Analítica
  • Armazém de dados

História do Datawarehouse

O Datawarehouse beneficia os usuários para compreender e aprimorar o desempenho de sua organização. A necessidade de armazenar dados evoluiu à medida que os sistemas de computador se tornaram mais complexos e precisaram lidar com quantidades cada vez maiores de informações. No entanto, Data Warehousing não é uma coisa nova.

Aqui estão alguns eventos-chave na evolução do Data Warehouse-

  • 1960- Dartmouth e General Mills em um projeto de pesquisa conjunto, desenvolvem os termos dimensões e fatos.
  • 1970- A Nielsen e IRI introduzem data marts dimensionais para vendas no varejo.
  • 1983- Tera Data Corporation apresenta um sistema de gerenciamento de banco de dados que é projetado especificamente para suporte à decisão
  • O data warehouse começou no final dos anos 1980, quando o funcionário da IBM, Paul Murphy e Barry Devlin, desenvolveram o Business Data Warehouse.
  • No entanto, o conceito real foi dado por Inmon Bill. Ele foi considerado o pai do data warehouse. Ele havia escrito sobre uma variedade de tópicos para construção, uso e manutenção do warehouse e da Fábrica de Informações Corporativas.

Como funciona o Datawarehouse?

Um Data Warehouse funciona como um repositório central onde as informações chegam de uma ou mais fontes de dados. Os dados fluem para um data warehouse a partir do sistema transacional e de outros bancos de dados relacionais.

Os dados podem ser:

  1. Estruturada
  2. Semi-estruturado
  3. Dados não estruturados

Os dados são processados, transformados e ingeridos para que os usuários possam acessar os dados processados ​​no Data Warehouse por meio de ferramentas de Business Intelligence, clientes SQL e planilhas. Um data warehouse mescla informações provenientes de diferentes fontes em um banco de dados abrangente.

Ao mesclar todas essas informações em um único lugar, uma organização pode analisar seus clientes de forma mais holística. Isso ajuda a garantir que todas as informações disponíveis sejam consideradas. O armazenamento de dados torna a mineração de dados possível. A mineração de dados está procurando padrões nos dados que possam levar a vendas e lucros maiores.

Tipos de data warehouse

Três tipos principais de Data Warehouses (DWH) são:

1. Enterprise Data Warehouse (EDW):

Enterprise Data Warehouse (EDW) é um warehouse centralizado. Ele fornece serviço de suporte à decisão em toda a empresa. Ele oferece uma abordagem unificada para organizar e representar dados. Ele também fornece a capacidade de classificar os dados de acordo com o assunto e dar acesso de acordo com essas divisões.

2. Armazenamento de dados operacionais:

O armazenamento de dados operacionais, também chamado de ODS, nada mais é do que o armazenamento de dados necessário quando nem o data warehouse nem os sistemas OLTP oferecem suporte às necessidades de relatórios das organizações. No ODS, o data warehouse é atualizado em tempo real. Portanto, é amplamente preferido para atividades de rotina, como armazenamento de registros dos funcionários.

3. Data Mart:

Um data mart é um subconjunto do data warehouse. É projetado especialmente para uma determinada linha de negócios, como vendas, finanças, vendas ou finanças. Em um data mart independente, os dados podem ser coletados diretamente das fontes.

Estágios gerais do Data Warehouse

Anteriormente, as organizações começaram a usar o armazenamento de dados de maneira relativamente simples. No entanto, com o tempo, o uso mais sofisticado de armazenamento de dados começou.

A seguir estão os estágios gerais de uso do data warehouse (DWH):

Banco de dados operacional offline:

Neste estágio, os dados são apenas copiados de um sistema operacional para outro servidor. Dessa forma, o carregamento, o processamento e o relatório dos dados copiados não afetam o desempenho do sistema operacional.

Data Warehouse offline:

Os dados do Datawarehouse são atualizados regularmente a partir do Banco de Dados Operacional. Os dados no Datawarehouse são mapeados e transformados para atender aos objetivos do Datawarehouse.

Data Warehouse em tempo real:

Nesta fase, os Data warehouses são atualizados sempre que ocorre alguma transação na base de dados operacional. Por exemplo, sistema de reservas de companhias aéreas ou ferroviárias.

Data Warehouse integrado:

Nesta fase, os Data Warehouses são atualizados continuamente quando o sistema operacional realiza uma transação. O Datawarehouse então gera transações que são devolvidas ao sistema operacional.

Componentes do data warehouse

Quatro componentes de Data Warehouses são:

Gerenciador de carga: O gerenciador de carga também é chamado de componente frontal. Ele executa todas as operações associadas à extração e carregamento de dados no warehouse. Essas operações incluem transformações para preparar os dados para entrar no Data warehouse.

Gerente de armazém: O gerente de armazém executa operações associadas ao gerenciamento dos dados no armazém. Ele executa operações como análise de dados para garantir consistência, criação de índices e visualizações, geração de desnormalização e agregações, transformação e fusão de dados de origem e arquivamento e preparação de dados.

Gerente de consulta: Gerenciador de consultas também é conhecido como componente de back-end. Realiza todas as operações operacionais relacionadas ao gerenciamento das consultas do usuário. As operações desses componentes do data warehouse são consultas diretas às tabelas apropriadas para agendar a execução das consultas.

Ferramentas de acesso do usuário final:

Isso é categorizado em cinco grupos diferentes, como 1. Relatórios de dados 2. Ferramentas de consulta 3. Ferramentas de desenvolvimento de aplicativos 4. Ferramentas EIS, 5. Ferramentas OLAP e ferramentas de mineração de dados.

Quem precisa de data warehouse?

DWH (Data warehouse) é necessário para todos os tipos de usuários, como:

  • Tomadores de decisão que dependem de grande quantidade de dados
  • Usuários que usam processos complexos e personalizados para obter informações de várias fontes de dados.
  • Também é usado por pessoas que desejam uma tecnologia simples para acessar os dados
  • Também é essencial para aquelas pessoas que desejam uma abordagem sistemática para a tomada de decisões.
  • Se o usuário deseja desempenho rápido em uma grande quantidade de dados, o que é uma necessidade para relatórios, grades ou gráficos, o Data warehouse é útil.
  • O data warehouse é a primeira etapa se você deseja descobrir 'padrões ocultos' de fluxos de dados e agrupamentos.

Para que serve um data warehouse?

Aqui, estão os setores mais comuns onde o data warehouse é usado:

CIA aérea:

No sistema de companhias aéreas, é usado para fins operacionais, como atribuição de tripulação, análises de rentabilidade de rota, promoções de programas de passageiro frequente, etc.

Bancário:

É amplamente utilizado no setor bancário para gerir de forma eficaz os recursos disponíveis on desk. Poucos bancos também utilizam para a pesquisa de mercado, análise de desempenho do produto e operações.

Assistência médica:

O setor de saúde também usou o Data warehouse para criar estratégias e prever resultados, gerar relatórios de tratamento de pacientes, compartilhar dados com seguradoras vinculadas, serviços de assistência médica, etc.

Setor público:

No setor público, o data warehouse é usado para coleta de inteligência. Ajuda as agências governamentais a manter e analisar os registros fiscais e de políticas de saúde de cada indivíduo.

Setor de investimentos e seguros:

Neste setor, os depósitos são usados ​​principalmente para analisar padrões de dados, tendências de clientes e rastrear movimentos de mercado.

Reter corrente:

Em redes de varejo, o data warehouse é amplamente utilizado para distribuição e marketing. Também ajuda a rastrear itens, padrão de compra do cliente, promoções e também é usado para determinar a política de preços.

Telecomunicação:

Um data warehouse é usado neste setor para promoções de produtos, decisões de vendas e para tomar decisões de distribuição.

Indústria da hospitalidade:

Esta indústria utiliza serviços de warehouse para projetar, bem como estimar suas campanhas de publicidade e promoção onde deseja atingir os clientes com base em seus comentários e padrões de viagem.

Etapas para implementar data warehouse

A melhor maneira de lidar com o risco do negócio associado à implementação do Datawarehouse é empregar uma estratégia de três frentes conforme abaixo

  1. Estratégia empresarial : Aqui, identificamos as técnicas, incluindo a arquitetura e as ferramentas atuais. Também identificamos fatos, dimensões e atributos. O mapeamento e a transformação de dados também são transmitidos.
  2. Entrega em fases : A implementação do Datawarehouse deve ser faseada com base nas áreas temáticas. Entidades comerciais relacionadas, como reserva e cobrança, devem ser implementadas primeiro e, em seguida, integradas umas às outras.
  3. Prototipagem Iterativa : Em vez de uma abordagem big bang para implementação, o Datawarehouse deve ser desenvolvido e testado iterativamente.

Aqui, estão as etapas principais na implementação do Datawarehouse junto com seus produtos.

Etapa Tarefas Entregáveis
1Necessidade de definir o escopo do projetoDefinição de escopo
doisNecessidade de determinar as necessidades de negóciosModelo Lógico de Dados
3Definir os requisitos operacionais do DatastoreModelo de armazenamento de dados operacionais
4Adquirir ou desenvolver ferramentas de extraçãoExtraia ferramentas e software
5Definir requisitos de dados de data warehouseModelo de Transição de Dados
6Dados ausentes do documentoLista de projetos para fazer
7Mapeia o armazenamento de dados operacionais para o data warehouseMapa de integração de dados D / W
8Desenvolver design de banco de dados de data warehouseProjeto de banco de dados D / W
9Extrair dados do armazenamento de dados operacionaisExtratos de dados D / W integrados
10Carregar data warehouseCarregamento de dados inicial
onzeManter Data WarehouseAcesso contínuo a dados e cargas subsequentes

Melhores práticas para implementar um Data Warehouse

  • Decida um plano para testar a consistência, precisão e integridade dos dados.
  • O data warehouse deve ser bem integrado, bem definido e com data e hora.
  • Ao projetar o Datawarehouse, certifique-se de usar a ferramenta certa, siga o ciclo de vida, tome cuidado com os conflitos de dados e esteja pronto para saber que você está cometendo erros.
  • Nunca substitua sistemas operacionais e relatórios
  • Não gaste muito tempo extraindo, limpando e carregando dados.
  • Certifique-se de envolver todas as partes interessadas, incluindo o pessoal de negócios, no processo de implementação do Datawarehouse. Estabeleça que o data warehouse é um projeto conjunto / de equipe. Você não deseja criar um data warehouse que não seja útil para os usuários finais.
  • Prepare um plano de treinamento para os usuários finais.

Por que precisamos de data warehouse? Vantagens desvantagens

Vantagens do Data Warehouse (DWH):

  • O data warehouse permite que os usuários de negócios acessem rapidamente dados críticos de algumas fontes em um só lugar.
  • O data warehouse fornece informações consistentes sobre várias atividades multifuncionais. Ele também oferece suporte a relatórios e consultas ad-hoc.
  • O Data Warehouse ajuda a integrar muitas fontes de dados para reduzir o estresse no sistema de produção.
  • O data warehouse ajuda a reduzir o tempo total de retorno para análise e relatórios.
  • A reestruturação e integração tornam mais fácil para o usuário usar para relatórios e análises.
  • O data warehouse permite que os usuários acessem dados críticos de várias fontes em um único lugar. Portanto, ele economiza o tempo do usuário de recuperar dados de várias fontes.
  • O data warehouse armazena uma grande quantidade de dados históricos. Isso ajuda os usuários a analisar diferentes períodos de tempo e tendências para fazer previsões futuras.

Desvantagens do Data Warehouse:

  • Não é uma opção ideal para dados não estruturados.
  • Criação e implementação de data warehouse é certamente uma questão confusa com o tempo.
  • Data Warehouse pode ficar desatualizado de forma relativamente rápida
  • É difícil fazer alterações em tipos e intervalos de dados, esquema de fonte de dados, índices e consultas.
  • O data warehouse pode parecer fácil, mas, na verdade, é muito complexo para os usuários comuns.
  • Apesar dos melhores esforços no gerenciamento de projetos, o escopo do projeto de armazenamento de dados sempre aumentará.
  • Às vezes, os usuários do warehouse desenvolverão diferentes regras de negócios.
  • As organizações precisam gastar muitos de seus recursos para fins de treinamento e implementação.

O futuro do armazenamento de dados

  • Mudança em Restrições regulatórias pode limitar a capacidade de combinar fontes de dados díspares. Essas fontes díspares podem incluir dados não estruturados que são difíceis de armazenar.
  • Enquanto o Tamanho das bases de dados cresce, as estimativas do que constitui uma base de dados muito grande continuam a crescer. É complexo construir e operar sistemas de data warehouse que estão sempre aumentando de tamanho. Os recursos de hardware e software disponíveis hoje não permitem manter uma grande quantidade de dados online.
  • Dados multimídia não podem ser facilmente manipulados como dados de texto, enquanto as informações textuais podem ser recuperadas pelo software relacional disponível hoje. Este poderia ser um assunto de pesquisa.

Ferramentas de data warehouse

Existem muitas ferramentas de data warehouse disponíveis no mercado. Aqui, estão alguns dos mais proeminentes:

1. MarkLogic:

MarkLogic é uma solução de armazenamento de dados útil que torna a integração de dados mais fácil e rápida usando uma variedade de recursos corporativos. Esta ferramenta ajuda a realizar operações de pesquisa muito complexas. Ele pode consultar diferentes tipos de dados, como documentos, relacionamentos e metadados.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle é o banco de dados líder do setor. Ele oferece uma ampla variedade de opções de soluções de data warehouse tanto no local quanto na nuvem. Ajuda a otimizar as experiências do cliente, aumentando a eficiência operacional.

https://www.oracle.com/index.html

3. Amazon RedShift:

Amazon Redshift é uma ferramenta de data warehouse. É uma ferramenta simples e econômica para analisar todos os tipos de dados usando SQL padrão e ferramentas de BI existentes. Também permite executar consultas complexas em petabytes de dados estruturados, usando a técnica de otimização de consulta.

https://aws.amazon.com/redshift/?nc2=h_m1

Aqui está uma lista completa de úteis Ferramentas de Datawarehouse.

APRENDIZAGEM CHAVE

  • Data Warehouse (DWH), também conhecido como Enterprise Data Warehouse (EDW).
  • Um Data Warehouse é definido como um repositório central onde as informações vêm de uma ou mais fontes de dados.
  • Três tipos principais de data warehouses são Enterprise Data Warehouse (EDW), Operational Data Store e Data Mart.
  • Os estados gerais de um datawarehouse são: Banco de dados operacional offline, data warehouse offline, data warehouse em tempo real e data warehouse integrado.
  • Quatro componentes principais do Datawarehouse são gerenciador de carga, gerenciador de armazém, gerenciador de consultas, ferramentas de acesso do usuário final
  • Datawarehouse é usado em diversos setores, como companhias aéreas, bancos, saúde, seguros, varejo, etc.
  • Implementar Datawarehosue é uma estratégia de 3 pontos a saber. Estratégia empresarial, entrega em fases e prototipagem iterativa.
  • O data warehouse permite que os usuários de negócios acessem rapidamente dados críticos de algumas fontes em um só lugar.