Padroneggiare grandi insiemi di dati con Python: Guida completa al parallelismo e alla scalabilità

Padroneggiare grandi insiemi di dati con Python: Parallelizzare e distribuire il codice Python (T. Wolohan John)

Recensioni dei lettori

Riepilogo:

Il libro è stato lodato per la sua capacità di collegare argomenti complessi in Python e applicazioni del mondo reale, rendendolo vantaggioso per gli studenti che cercano di migliorare le loro competenze. Tuttavia, è stato anche criticato per la sua mancanza di profondità, la ridondanza e la mancata copertura di strumenti essenziali come Hadoop e Spark.

Vantaggi:

Utile per collegare tra loro argomenti complessi, fornisce problemi del mondo reale, è utile per le competenze nel mercato del lavoro, è buono per ampliare le conoscenze fondamentali.

Svantaggi:

Ripetitivo e scarno di informazioni, manca di profondità in alcune aree, omette strumenti essenziali, alcuni esempi di codifica sono scarsi o privi di senso.

(basato su 3 recensioni dei lettori)

Titolo originale:

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Contenuto del libro:

Sintesi.

Le moderne soluzioni di data science devono essere pulite, facili da leggere e scalabili. In Mastering Large Datasets with Python, l'autore J. T. Wolohan insegna come prendere un piccolo progetto e scalarlo utilizzando un approccio alla codifica Python influenzato dalle funzioni. Esplorerete i metodi e gli strumenti integrati di Python che si prestano alla chiarezza e alla scalabilità, come il metodo del parallelismo ad alte prestazioni, nonché le tecnologie distribuite che consentono un elevato throughput dei dati. L'abbondanza di esercizi pratici in questo tutorial pratico permetterà di acquisire queste competenze essenziali per qualsiasi progetto di scienza dei dati su larga scala.

L'acquisto del libro stampato include un eBook gratuito nei formati PDF, Kindle e ePub di Manning Publications.

Informazioni sulla tecnologia.

Le tecniche di programmazione che funzionano bene su dati di dimensioni ridotte possono rallentare o fallire del tutto quando vengono applicate a file di grandi dimensioni o a insiemi di dati distribuiti. Padroneggiando il potente paradigma map and reduce e gli strumenti basati su Python che lo supportano, è possibile scrivere applicazioni incentrate sui dati che scalano in modo efficiente senza richiedere la riscrittura della base di codice al variare delle esigenze.

Informazioni sul libro.

Mastering Large Datasets with Python vi insegna a scrivere codice in grado di gestire insiemi di dati di qualsiasi dimensione. Inizierete con insiemi di dati in formato laptop che vi insegneranno a parallelizzare l'analisi dei dati suddividendo le attività di grandi dimensioni in attività più piccole che possono essere eseguite simultaneamente. Successivamente, scalerete gli stessi programmi a dataset di dimensioni industriali su un cluster di server cloud. Con il paradigma map and reduce ben saldo, esplorerete strumenti come Hadoop e PySpark per elaborare in modo efficiente enormi set di dati distribuiti, accelerare il processo decisionale con l'apprendimento automatico e semplificare l'archiviazione dei dati con AWS S3.

Cosa contiene.

⬤ Introduzione al paradigma map and reduce.

⬤ Parallelizzazione con il modulo multiprocessing e il framework pathos.

⬤ Hadoop e Spark per il calcolo distribuito.

⬤ Esecuzione di lavori AWS per elaborare grandi insiemi di dati.

Informazioni sul lettore.

Per i programmatori Python che hanno bisogno di lavorare più velocemente con più dati.

Informazioni sull'autore.

J. T. Wolohan è un lead data scientist presso Booz Allen Hamilton e un ricercatore di dottorato presso l'Indiana University, Bloomington.

Indice dei contenuti:

PARTE 1.

1 ) Introduzione.

2 ) Accelerazione del lavoro su grandi insiemi di dati: Mappe e calcolo parallelo.

3 ) Pipeline di funzioni per la mappatura di trasformazioni complesse.

4 ) Elaborazione di grandi insiemi di dati con flussi di lavoro pigri.

5 ) Operazioni di accumulo con reduce.

6 ) Accelerazione di map e reduce con la parallelizzazione avanzata.

PARTE 2.

7 ) Elaborazione di insiemi di dati veramente grandi con Hadoop e Spark.

8 ) Le migliori pratiche per i dati di grandi dimensioni con Apache Streaming e mrjob.

9 ) PageRank con map and reduce in PySpark.

10 ) Processo decisionale più veloce con l'apprendimento automatico e PySpark.

PARTE 3.

11 ) Grandi insiemi di dati nel cloud con Amazon Web Services e S3.

12 ) MapReduce nel cloud con Elastic MapReduce di Amazon.

Altre informazioni sul libro:

ISBN:	9781617296239
Autore:	T. Wolohan John
Editore:	Manning Pubn
Rilegatura:	Copertina morbida
Anno di pubblicazione:	2020
Numero di pagine:	312

Acquisto:

Attualmente disponibile, in magazzino.

Padroneggiare grandi insiemi di dati con Python: Parallelizzare e distribuire il codice Python

Recensioni dei lettori

Titolo originale:

Contenuto del libro:

Altre informazioni sul libro:

Acquisto:

Altri libri dell'autore:

Le opere dell'autore sono state pubblicate dai seguenti editori: