Pulire i dati per una scienza dei dati efficace: Fare l'altro 80% del lavoro con Python, R e strumenti a riga di comando

Punteggio:   (4,8 su 5)

Pulire i dati per una scienza dei dati efficace: Fare l'altro 80% del lavoro con Python, R e strumenti a riga di comando (David Mertz)

Recensioni dei lettori

Riepilogo:

Il libro è apprezzato per la trattazione completa delle tecniche di pulizia dei dati e dell'importanza della preparazione dei dati per l'analisi nella scienza dei dati. I lettori apprezzano lo stile di scrittura coinvolgente dell'autore, il dottor Mertz, e l'enfasi sul processo di pensiero che sta dietro alla manipolazione dei dati, piuttosto che sull'apprendimento a tavolino. Si tratta di una risorsa preziosa sia per i neofiti che per i professionisti esperti della scienza dei dati.

Vantaggi:

Copertura completa delle tecniche di pulizia e preparazione dei dati.
Stile di scrittura coinvolgente e chiaro da parte dell'autore.
Enfatizza il processo di pensiero dietro la manipolazione dei dati piuttosto che la semplice codifica.
Fornisce numerosi esempi di codice in R, Python e strumenti a riga di comando.
Utile per i professionisti a tutti i livelli, dai principianti agli esperti.
Linee guida sul versionamento dei dati e sulla riproducibilità della manipolazione dei dati.
Offre approfondimenti sui vari formati di dati e su come gestirli.

Svantaggi:

Alcuni lettori hanno trovato l'organizzazione degli argomenti meno lineare, poiché le tecniche sono spesso presentate all'interno di storie di utenti piuttosto che come ricette autonome.
Il libro è più incentrato sui dati tabellari, con una copertura insufficiente sulla pulizia dei dati testuali e delle immagini.
Alcuni lettori avrebbero voluto nomi di variabili meno criptici negli esempi di codice forniti.
Le aspettative di un catalogo strutturato di ricette per la pulizia dei dati possono essere deluse.

(basato su 15 recensioni dei lettori)

Titolo originale:

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Contenuto del libro:

Una guida completa per gli scienziati dei dati per padroneggiare strumenti e tecniche efficaci di pulizia dei dati.

Caratteristiche principali:

⬤ Padroneggiare le tecniche di pulizia dei dati in modo indipendente dalla lingua.

⬤ Apprendere da intriganti esempi pratici tratti da numerosi domini, come la biologia, i dati meteorologici, la demografia, la fisica, le serie temporali e l'elaborazione delle immagini.

⬤ Lavorare con esempi di codice dettagliati, commentati e ben testati in Python e R.

Descrizione del libro:

È una sorta di verità nella scienza dei dati, nell'analisi dei dati o nell'apprendimento automatico che la maggior parte dello sforzo necessario per raggiungere il vostro scopo effettivo risiede nella pulizia dei dati. Scritto nel caratteristico stile amichevole e umoristico di David, questo libro esamina in dettaglio i passaggi essenziali eseguiti in ogni pipeline di produzione di scienza dei dati o di analisi dei dati e prepara alla visualizzazione dei dati e ai risultati della modellazione.

Il libro si addentra nell'applicazione pratica degli strumenti e delle tecniche necessarie per l'ingestione dei dati, il rilevamento delle anomalie, l'imputazione dei valori e l'ingegneria delle caratteristiche. Inoltre, alla fine di ogni capitolo, offre esercizi di lunga durata per mettere in pratica le competenze acquisite.

Si inizierà ad analizzare l'ingestione di formati di dati come JSON, CSV, RDBMS SQL, HDF5, database NoSQL, file in formato immagine e strutture di dati binari serializzati. Inoltre, il libro fornisce numerosi set di dati e file di dati di esempio, disponibili per il download e l'esplorazione indipendente.

Partendo dai formati, imputerete i valori mancanti, individuerete i dati inaffidabili e le anomalie statistiche e genererete le caratteristiche sintetiche necessarie per il successo dell'analisi e della visualizzazione dei dati.

Alla fine di questo libro, avrete acquisito una solida comprensione del processo di pulizia dei dati necessario per eseguire attività di data science e machine learning nel mondo reale.

Cosa imparerete

⬤ Identificare i dati problematici relativi a singoli punti di dati.

⬤ Individuare i dati problematici nella "forma" sistematica dei dati.

⬤ Rimediare ai problemi di integrità e igiene dei dati.

⬤ Preparare i dati per attività analitiche e di apprendimento automatico.

⬤ Imputare valori in dati mancanti o inaffidabili.

⬤ Generare caratteristiche sintetiche più adatte alla scienza dei dati, all'analisi dei dati o agli obiettivi di visualizzazione.

Per chi è questo libro:

Questo libro è destinato a sviluppatori di software, data scientist, aspiranti data scientist e studenti interessati all'analisi dei dati o all'informatica scientifica.

Una familiarità di base con la statistica, i concetti generali dell'apprendimento automatico, la conoscenza di un linguaggio di programmazione (Python o R) e una certa esposizione alla scienza dei dati sono utili. Il glossario, i riferimenti e le note di commento dovrebbero aiutare tutti i lettori ad aggiornarsi.

Il testo sarà utile anche ai data scientist di livello intermedio e avanzato che desiderano migliorare il loro rigore nell'igiene dei dati e desiderano un aggiornamento sulle questioni relative alla preparazione dei dati.

Altre informazioni sul libro:

ISBN:9781801071291
Autore:
Editore:
Rilegatura:Copertina morbida

Acquisto:

Attualmente disponibile, in magazzino.

Lo compro!

Altri libri dell'autore:

Pulire i dati per una scienza dei dati efficace: Fare l'altro 80% del lavoro con Python, R e...
Una guida completa per gli scienziati dei dati per...
Pulire i dati per una scienza dei dati efficace: Fare l'altro 80% del lavoro con Python, R e strumenti a riga di comando - Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Gli enigmi delle espressioni regolari - The Puzzling Quirks of Regular Expressions
Questo divertente rompicapo, destinato agli sviluppatori di software e agli...
Gli enigmi delle espressioni regolari - The Puzzling Quirks of Regular Expressions
Migliorare il codice Python: Guida per aspiranti esperti - Better Python Code: A Guide for Aspiring...
Superare il codice Python che "per lo più...
Migliorare il codice Python: Guida per aspiranti esperti - Better Python Code: A Guide for Aspiring Experts

Le opere dell'autore sono state pubblicate dai seguenti editori:

© Book1 Group - tutti i diritti riservati.
Il contenuto di questo sito non può essere copiato o utilizzato, né in parte né per intero, senza il permesso scritto del proprietario.
Ultima modifica: 2024.11.08 20:28 (GMT)