O Que é Um Pipeline de Dados? - Parte 1/2

00:06:57
https://www.youtube.com/watch?v=XVRuTS0Y4uI

Resumo

TLDRO vídeo introduz o conceito de pipeline de dados, descrevendo-o como um processo de mover e transformar dados digitais de uma origem para um destino. Comparando-o a um gasoduto, o processo envolve várias etapas de transformação para preparar dados brutos para análises, incluindo limpeza e enriquecimento. A automação moderniza e agiliza essas etapas, mas também pode adicionar desafios de manutenção e integração. Uma área intermediária é usada para armazenar dados enquanto são transformados. Ferramentas e linguagens de programação oferecem diferentes abordagens para implementar pipelines de dados, cada uma com suas vantagens e desvantagens. A flexibilidade e customização vs. simplicidade e padronização são aspectos a serem considerados ao se escolher uma solução de implementação.

Conclusões

  • 🔄 Os pipelines de dados movem e transformam dados de uma origem para um destino final.
  • 🔧 Automação ajuda mas não elimina a necessidade de manutenção nos processos.
  • 🥇 Dados brutos precisam de transformação antes de estarem prontos para uso.
  • 📊 Ferramentas modernas são usadas para simplificar e automatizar pipelines.
  • 🧩 Uma área intermediária armazena dados temporariamente durante transformações.
  • 🔍 Escolher entre ferramentas prontas e programação depende das necessidades de flexibilidade e customização.
  • ⚙️ Implementação pode ser feita em ambientes locais ou na nuvem.
  • 🛠️ As lenguagens como Python e R são comuns para criar pipelines programáticos.
  • ⏭️ No próximo vídeo, mais definições sobre soluções de dados serão discutidas.
  • ✨ A comparação com um gasoduto ajuda a entender o fluxo contínuo e direcionado de dados.

Linha do tempo

  • 00:00:00 - 00:06:57

    O vídeo introduz o conceito de pipeline de dados, comparando-o a um gasoduto que transporta dados de uma origem a um destino, passando por transformações para análise. Explica-se que os dados raramente estão prontos para uso na origem, necessitando de etapas de processamento, como enriquecimento e limpeza, antes de serem utilizados para análise ou machine learning. A automação é discutida como uma tendência que cria novas tarefas, ao invés de eliminar trabalhos, e várias ferramentas surgiram para auxiliar nesses processos. Exemplos incluem soluções em nuvem ou programáticas, como em Python, que oferecem mais flexibilidade, embora demandem mais esforço.

Mapa mental

Vídeo de perguntas e respostas

  • O que é um pipeline de dados?

    É um meio de mover dados de uma origem para um destino, possibilitando transformações e otimizações dos dados ao longo do processo.

  • Qual é a comparação feita para explicar pipeline de dados?

    O pipeline de dados é comparado a um gasoduto, que transporta gás de uma usina até seu destino, semelhante a como dados são transportados digitalmente.

  • Por que os dados precisam ser transformados antes de seu uso?

    Os dados, na origem, estão em formato bruto e precisam passar por transformações e limpezas para estarem prontos para análise e uso.

  • Como a automação influencia nos pipelines de dados?

    Automação ajuda a simplificar e agilizar o processo de transformação de dados, mas também demanda manutenção e monitoramento.

  • Qual é o papel de uma área intermediária em um pipeline de dados?

    É onde os dados brutos são armazenados temporariamente para aplicação de transformações antes de serem movidos para o destino final.

Ver mais resumos de vídeos

Obtenha acesso instantâneo a resumos gratuitos de vídeos do YouTube com tecnologia de IA!
Legendas
pt
Rolagem automática:
  • 00:00:00
    [Música]
  • 00:00:05
    vamos começar o capítulo definindo O que
  • 00:00:09
    é pipeline de dados me acompanha eu
  • 00:00:13
    coloquei esta imagem que você vê agora
  • 00:00:15
    aí no vídeo para ajudar você a pensar um
  • 00:00:19
    pouco sobre o conceito e fazer uma
  • 00:00:21
    analogia o que que parece essa imagem no
  • 00:00:24
    vídeo parece Talvez um gasoduto não é
  • 00:00:27
    isso uma linha de tubos que
  • 00:00:30
    provavelmente está levando por exemplo
  • 00:00:32
    gás natural diretamente lá de uma usina
  • 00:00:36
    até uma fábrica uma cidade uma região e
  • 00:00:40
    assim por diante um conceito bastante
  • 00:00:42
    simples né Nós encontramos aí nosso dia
  • 00:00:45
    a dia pois bem pai Exatamente isso só
  • 00:00:49
    que o que vai passar pelo pipeline é na
  • 00:00:52
    verdade conteúdo digital são os dados
  • 00:00:55
    que nós vamos pegar de um lado e levar
  • 00:00:58
    para outro Pronto já posso acabar o
  • 00:01:01
    vídeo não não Claro que não vamos então
  • 00:01:03
    a definição
  • 00:01:05
    de dados é um meio de mover dados de um
  • 00:01:09
    local a origem para um destino que pode
  • 00:01:12
    ser um dato a house pode ser um Natal
  • 00:01:14
    Lake ou qualquer outro tipo de
  • 00:01:16
    repositório ou ainda nós podemos
  • 00:01:19
    eventualmente usar os dados em tempo
  • 00:01:21
    real e isso já seria o destino eu vou
  • 00:01:24
    falar mais sobre isso daqui a pouco
  • 00:01:25
    durante as aulas de ciclo de vida da
  • 00:01:28
    engenharia de dados
  • 00:01:30
    ao longo do caminho os dados são
  • 00:01:32
    transformados e otimizados chegando a um
  • 00:01:37
    estado em que podem ser analisados e
  • 00:01:39
    usados para desenvolver em sites de
  • 00:01:41
    Negócios Eu lembro que eu falei para
  • 00:01:43
    você no capítulo anterior que raramente
  • 00:01:46
    os dados estarão prontos para uso na
  • 00:01:50
    fonte só você fazer uma analogia por
  • 00:01:52
    exemplo com petróleo se eu for lá
  • 00:01:55
    extrair o petróleo eu já posso usá-lo eu
  • 00:01:58
    já posso colocar lá como combustível no
  • 00:01:59
    meu automóvel não o petróleo é extraído
  • 00:02:03
    estado bruto ele passa para uma série de
  • 00:02:06
    etapas de processamento até virar
  • 00:02:08
    combustível que então vai alimentar os
  • 00:02:10
    automóveis certo pois bem os dados na
  • 00:02:14
    origem estão em formato bruto
  • 00:02:16
    dificilmente estarão prontos para uso eu
  • 00:02:19
    preciso passar esses dados por uma
  • 00:02:22
    espécie de linha de produção aplicar
  • 00:02:24
    transformações enriquecimento limpeza
  • 00:02:26
    etc e então poder alimentar meus
  • 00:02:29
    processos de análise de dados de ciência
  • 00:02:31
    de dados machine learning então entregar
  • 00:02:34
    em sites aos tomadores de decisão
  • 00:02:37
    de dados é essencialmente o conjunto das
  • 00:02:41
    etapas envolvidas na agregação
  • 00:02:43
    organização e movimentação de dados no
  • 00:02:47
    momento que eu pegar o dado de um lado
  • 00:02:48
    então levar para outro lado no meio do
  • 00:02:52
    caminho uma série de etapas terão que
  • 00:02:55
    ser executadas e todo esse processo é
  • 00:02:58
    que nós chamamos de pipeline de dados os
  • 00:03:01
    pais Pilares de dados modernos
  • 00:03:03
    automatizam muitas das etapas manuais
  • 00:03:06
    envolvidas na transformação e otimização
  • 00:03:09
    do carregamento de dados ao longo dos
  • 00:03:12
    últimos anos surgiram inúmeras
  • 00:03:15
    ferramentas para automatizar parte do
  • 00:03:17
    processo aí muita gente fica com medo
  • 00:03:19
    não é da automação mas aí automação vai
  • 00:03:22
    tirar emprego das pessoas etc bom em
  • 00:03:25
    tecnologia não é bem assim tecnologia
  • 00:03:27
    cada vez que surge uma ferramenta para
  • 00:03:30
    automatizar alguma coisa ela gera mais
  • 00:03:33
    duas três novas atividades que você tem
  • 00:03:35
    que realizar
  • 00:03:37
    Beleza vai lá busca aquela ferramenta
  • 00:03:39
    ferramenta mais moderna do mercado todo
  • 00:03:42
    mundo falando da comunidade vou
  • 00:03:44
    automatizar tudo a implementa a
  • 00:03:46
    ferramenta descobre que tem que fazer
  • 00:03:47
    uma série de configurações Tem que
  • 00:03:49
    manter a ferramenta tem que monitorar a
  • 00:03:51
    ferramenta não tem integração com outro
  • 00:03:53
    produto da empresa e aquela ferramenta
  • 00:03:55
    que deveria ser usada para automação
  • 00:03:57
    acaba gerando ainda mais trabalho
  • 00:03:59
    tecnologia isso é absolutamente normal
  • 00:04:01
    Já estou quase 30 anos aí nesse mercado
  • 00:04:04
    conheço muito bem Principalmente quando
  • 00:04:06
    alguém me diz que tem ferramenta para
  • 00:04:08
    automatizar alguma coisa aí eu digo
  • 00:04:10
    excelente eu vou ganhar mais trabalho
  • 00:04:12
    então é isso que acontece na prática
  • 00:04:14
    Quem tá aí no universo da tecnologia
  • 00:04:15
    sabe que é assim que funciona de
  • 00:04:18
    qualquer forma temos várias e várias
  • 00:04:20
    ferramentas que nos ajudam no processo
  • 00:04:22
    de construção de particularidade daqui a
  • 00:04:25
    pouco eu vou apresentar algumas
  • 00:04:26
    ferramentas para você normalmente o
  • 00:04:29
    parque Line inclui carregar dados brutos
  • 00:04:31
    em uma tabela de separação a
  • 00:04:34
    intermediária ou também chamadas tem
  • 00:04:36
    dinheiro para armazenamento temporário e
  • 00:04:39
    em seguida alterá-los antes de
  • 00:04:42
    inseri-los do destino essa área
  • 00:04:44
    intermediária ela faz todo sentido não é
  • 00:04:47
    Pare para pensar junto comigo você
  • 00:04:50
    extraiu dados da fonte dados brutos não
  • 00:04:53
    estão prontos para uso você tem que
  • 00:04:55
    aplicar limpeza transformação tem que
  • 00:04:57
    organizar os dados vai fazer isso aonde
  • 00:05:01
    no além Não claro que não tem que fazer
  • 00:05:04
    em algum lugar não é então eu coloco os
  • 00:05:06
    dados armazenados em uma área temporária
  • 00:05:08
    por exemplo aplico ali o que é
  • 00:05:11
    necessário limpeza transformação depois
  • 00:05:13
    do movimento os dados para um outro
  • 00:05:15
    destino normalmente isso já era feito
  • 00:05:18
    dentro de projetos de data houses hoje à
  • 00:05:22
    medida que nós temos dados em diversos
  • 00:05:24
    formatos O datalei que passa ocupar o
  • 00:05:28
    centro não é de todo esse processo vocês
  • 00:05:30
    traem dados brutos armazena isso no data
  • 00:05:33
    lei que sem mexer nos dados depois
  • 00:05:36
    aplica de transformação E aí o resultado
  • 00:05:39
    da transformação limpeza etc você leva
  • 00:05:42
    para algum destino vamos falar mais
  • 00:05:44
    sobre arquitetura de soluções de dados
  • 00:05:46
    no próximo capítulo
  • 00:05:48
    pipeline de dados é um conceito e pode
  • 00:05:51
    ser implementado de muitas formas
  • 00:05:54
    diferentes desde ferramentas de
  • 00:05:56
    automação em ambiente local ferramentas
  • 00:05:58
    em nuvem ou mesmo via programação em
  • 00:06:01
    linguagens como Python R escala c++ ou
  • 00:06:04
    Java lembre-se pai Pilar é um conceito
  • 00:06:07
    você vai encontrar inúmeras ferramentas
  • 00:06:09
    aí no mercado e a empresa se quiser pode
  • 00:06:13
    construir seus particulares via
  • 00:06:14
    programação principalmente se for
  • 00:06:17
    necessário algum tipo de customização
  • 00:06:19
    flexibilidade que talvez as ferramentas
  • 00:06:21
    não ofereçam as ferramentas são
  • 00:06:24
    excelentes para simplificar o processo
  • 00:06:27
    mas em geral oferecem um pouco menos de
  • 00:06:29
    flexibilidade
  • 00:06:31
    se eu criar um timeline via programação
  • 00:06:33
    vou ter mais trabalho claro que vou
  • 00:06:35
    muito mais Em contrapartida Terei mais
  • 00:06:38
    Liberdade mais flexibilidade para
  • 00:06:41
    customizar aquele pai pilagre
  • 00:06:43
    necessidade da empresa como qualquer
  • 00:06:45
    coisa na vida tem pontos positivos e
  • 00:06:47
    negativos em cada alternativa em cada
  • 00:06:49
    solução no próximo vídeo eu trago mais
  • 00:06:52
    algumas definições para você é só me
  • 00:06:55
    acompanhar obrigado e até lá
Etiquetas
  • pipeline de dados
  • transformação de dados
  • automação
  • área intermediária
  • tecnologia
  • ferramentas
  • programação
  • processamento de dados