Ingegneria dei dati con Python - Pipeline e modelli di dati master

Ingegneria dei dati con Python: Lavorare con enormi insiemi di dati per progettare modelli di dati e automatizzare pipeline di dati utilizzando Python (Paul Crickard)

Recensioni dei lettori

Riepilogo:

Secondo le recensioni degli utenti, il libro “Ingegneria dei dati con Python” è un misto di pro e contro. Sebbene fornisca una solida introduzione ai concetti chiave dell'ingegneria dei dati e sia ritenuto leggibile con esempi pratici, soffre di problemi significativi legati all'accuratezza tecnica e ai contenuti aggiornati. Diversi lettori hanno trovato fuorviante il focus su alcuni strumenti, in particolare su NiFi, dato il titolo del libro, e molti hanno riferito di aver riscontrato una pletora di errori e una redazione scadente che ostacolano l'applicazione pratica del materiale.

Vantaggi:

⬤ Solida introduzione ai concetti di ingegneria dei dati e di pipelining.
⬤ Esempi pratici e illustrativi, soprattutto con strumenti come Pandas, Zookeeper, Kafka e Spark.
⬤ Utile per gli ingegneri del software in fase di transizione e per coloro che hanno familiarità con l'analisi dei dati.
⬤ Copertura di una varietà di strumenti e concetti dell'ingegneria dei dati.
⬤ Facile leggibilità.

Svantaggi:

⬤ Numerosi errori e refusi in tutto il libro, che portano alla frustrazione.
⬤ Contenuti obsoleti e istruzioni di installazione che incidono negativamente sull'usabilità.
⬤ Forte attenzione all'SQL, con una copertura minima dei database NoSQL.
⬤ Lacune didattiche, in particolare per quanto riguarda la configurazione di strumenti come NiFi.
⬤ Titolo fuorviante che enfatizza NiFi rispetto all'uso di Python.
⬤ Mancanza di chiarezza negli esempi e nei riferimenti, che rende il libro difficile per i principianti.

(basato su 27 recensioni dei lettori)

Titolo originale:

Data Engineering with Python: Work with massive datasets to design data models and automate data pipelines using Python

Contenuto del libro:

Costruire, monitorare e gestire pipeline di dati in tempo reale per creare infrastrutture di ingegneria dei dati in modo efficiente utilizzando progetti Apache open-source.

Caratteristiche principali:

⬤ Diventa esperto di architetture di dati, preparazione dei dati e ottimizzazione dei dati con l'aiuto di esempi pratici.

⬤ Progettare modelli di dati e imparare a estrarre, trasformare e caricare i dati (ETL) utilizzando Python.

⬤ Programmare, automatizzare e monitorare pipeline di dati complesse in produzione.

Descrizione del libro

L'ingegneria dei dati è alla base della scienza dei dati e dell'analisi e costituisce una parte importante di tutte le aziende. Questo libro vi aiuterà a esplorare i vari strumenti e metodi utilizzati per comprendere il processo di ingegneria dei dati utilizzando Python.

Il libro mostra come affrontare le sfide più comuni nei diversi aspetti dell'ingegneria dei dati. Inizierete con un'introduzione alle basi dell'ingegneria dei dati, insieme alle tecnologie e ai framework necessari per costruire pipeline di dati per lavorare con grandi insiemi di dati. Imparerete a trasformare e pulire i dati e a eseguire analisi per ottenere il massimo dai vostri dati. Man mano che si avanza, si scoprirà come lavorare con big data di varia complessità e database di produzione, e come costruire pipeline di dati. Utilizzando esempi reali, costruirete architetture su cui imparerete a implementare le pipeline di dati.

Alla fine di questo libro su Python, avrete acquisito una chiara comprensione delle tecniche di modellazione dei dati e sarete in grado di costruire con sicurezza pipeline di ingegneria dei dati per tracciare i dati, eseguire controlli di qualità e apportare le modifiche necessarie in produzione.

Che cosa imparerete?

⬤ Capire come l'ingegneria dei dati supporta i flussi di lavoro della scienza dei dati.

⬤ Scoprire come estrarre i dati da file e database per poi pulirli, trasformarli e arricchirli.

⬤ Configurare i processori per gestire diversi formati di file e database relazionali e NoSQL.

⬤ Scoprire come implementare una pipeline di dati e un dashboard per visualizzare i risultati.

⬤ Usate lo staging e la convalida per controllare i dati prima che arrivino nel magazzino.

⬤ Costruire pipeline in tempo reale con aree di staging che eseguono la convalida e gestiscono i guasti.

⬤ Eseguire il deploy delle pipeline nell'ambiente di produzione.

A chi è rivolto questo libro

Questo libro è destinato agli analisti di dati, agli sviluppatori ETL e a chiunque voglia iniziare o passare al campo dell'ingegneria dei dati o rinfrescare le proprie conoscenze sull'ingegneria dei dati utilizzando Python. Questo libro sarà utile anche per gli studenti che intendono intraprendere una carriera nell'ingegneria dei dati o per i professionisti IT che si preparano a una transizione. Non è richiesta alcuna conoscenza precedente dell'ingegneria dei dati.

Altre informazioni sul libro:

ISBN:	9781839214189
Autore:	Paul Crickard
Editore:	Packt Pub
Rilegatura:	Copertina morbida

Acquisto:

Attualmente disponibile, in magazzino.

Ingegneria dei dati con Python: Lavorare con enormi insiemi di dati per progettare modelli di dati e automatizzare pipeline di dati utilizzando Python

Recensioni dei lettori

Titolo originale:

Contenuto del libro:

Altre informazioni sul libro:

Acquisto:

Altri libri dell'autore:

Le opere dell'autore sono state pubblicate dai seguenti editori: