Analisi dei dati con Hadoop: Un'introduzione per gli scienziati dei dati

Analisi dei dati con Hadoop: Un'introduzione per gli scienziati dei dati (Benjamin Bengfort)

Recensioni dei lettori

Riepilogo:

Il libro è una risorsa per l'apprendimento di Hadoop e dell'analisi dei Big Data, con un focus su argomenti sia fondamentali che avanzati. Se da un lato fornisce un'ampia panoramica dell'ecosistema Hadoop e include esempi pratici, dall'altro presenta problemi significativi per quanto riguarda l'accuratezza del codice e la chiarezza della scrittura.

Vantaggi:

⬤ Panoramica esaustiva di Hadoop e delle tecnologie correlate
⬤ adatto sia ai principianti che ai professionisti
⬤ gli esempi sono utili per l'apprendimento pratico
⬤ aggiornato sulle tecnologie vecchie e nuove come MapReduce e Spark
⬤ fornisce citazioni per ulteriori letture.

Svantaggi:

⬤ Il codice di esempio spesso non corrisponde alle descrizioni del libro
⬤ le istruzioni per l'installazione possono essere confuse
⬤ gli esempi possono produrre risultati errati
⬤ lo stile di scrittura è criticato per la mancanza di qualità
⬤ alcune informazioni sono fuorvianti o errate.

(basato su 9 recensioni dei lettori)

Titolo originale:

Data Analytics with Hadoop: An Introduction for Data Scientists

Contenuto del libro:

Siete pronti a utilizzare tecniche statistiche e di apprendimento automatico su grandi insiemi di dati? Questa guida pratica vi mostra perché l'ecosistema Hadoop è perfetto per questo lavoro. Invece di occuparsi della distribuzione, delle operazioni o dello sviluppo del software solitamente associati all'elaborazione distribuita, ci si concentrerà sulle analisi particolari che si possono realizzare, sulle tecniche di data warehousing che Hadoop mette a disposizione e sui flussi di lavoro dei dati di ordine superiore che questo framework è in grado di produrre.

I data scientist e gli analisti impareranno a eseguire un'ampia gamma di tecniche, dalla scrittura di applicazioni MapReduce e Spark con Python all'utilizzo di modellazione avanzata e gestione dei dati con Spark MLlib, Hive e HBase. Imparerete anche a conoscere i processi analitici e i sistemi di dati disponibili per costruire e potenziare prodotti di dati in grado di gestire, e di fatto richiedere, enormi quantità di dati.

⬤ Comprendere i concetti fondamentali di Hadoop e del cluster computing.

⬤ Utilizzare modelli di progettazione e algoritmi analitici paralleli per creare lavori di analisi dei dati distribuiti.

⬤ Imparare a gestire, estrarre e immagazzinare i dati in un contesto distribuito utilizzando Apache Hive e HBase.

⬤ Utilizzare Sqoop e Apache Flume per ingerire dati da database relazionali.

⬤ Programmare applicazioni Hadoop e Spark complesse con Apache Pig e Spark DataFrames.

⬤ Eseguire tecniche di apprendimento automatico come classificazione, clustering e filtraggio collaborativo con la MLlib di Spark.

Altre informazioni sul libro:

ISBN:	9781491913703
Autore:	Benjamin Bengfort
Editore:	Oreilly Media
Rilegatura:	Copertina morbida
Anno di pubblicazione:	2016
Numero di pagine:	288

Acquisto:

Attualmente disponibile, in magazzino.