Un'architettura per l'elaborazione veloce e generale dei dati su grandi cluster

Arsitektur untuk Pemrosesan Data yang Cepat dan Umum pada Kelompok Besar (Matei Zaharia)

Titolo originale:

An Architecture for Fast and General Data Processing on Large Clusters

Contenuto del libro:

Negli ultimi anni si è assistito a un grande cambiamento nei sistemi di elaborazione, in quanto i crescenti volumi di dati e la velocità ridotta dei processori impongono a un numero sempre maggiore di applicazioni di scalare verso i cluster. Oggi una miriade di fonti di dati, da Internet alle operazioni commerciali agli strumenti scientifici, producono flussi di dati grandi e preziosi. Tuttavia, le capacità di elaborazione delle singole macchine non hanno tenuto il passo con le dimensioni dei dati. Di conseguenza, le organizzazioni hanno sempre più bisogno di scalare i calcoli su cluster.

Allo stesso tempo, sono cresciute la velocità e la complessità dell'elaborazione dei dati. Oltre alle semplici query, si stanno diffondendo algoritmi complessi come l'apprendimento automatico e l'analisi dei grafi. Oltre all'elaborazione batch, è necessaria l'analisi in streaming dei dati in tempo reale per consentire alle organizzazioni di intervenire tempestivamente. Le future piattaforme di elaborazione dovranno non solo scalare i carichi di lavoro tradizionali, ma anche supportare queste nuove applicazioni.

Questo libro, una versione rivista della tesi vincitrice dell'ACM Dissertation Award 2014, propone un'architettura per sistemi di cluster computing in grado di affrontare carichi di lavoro emergenti di elaborazione dati su scala. Mentre i primi sistemi di cluster computing, come MapReduce, gestivano l'elaborazione batch, la nostra architettura consente anche lo streaming e le interrogazioni interattive, mantenendo la scalabilità e la tolleranza agli errori di MapReduce. Inoltre, mentre la maggior parte dei sistemi implementati supporta solo semplici elaborazioni a un solo passaggio (ad esempio, query SQL), il nostro sistema si estende anche agli algoritmi a più passaggi necessari per analisi complesse come l'apprendimento automatico. Infine, a differenza dei sistemi specializzati proposti per alcuni di questi carichi di lavoro, la nostra architettura permette di combinare questi calcoli, consentendo nuove e ricche applicazioni che mescolano, ad esempio, streaming ed elaborazione batch.

Otteniamo questi risultati grazie a una semplice estensione di MapReduce che aggiunge primitive per la condivisione dei dati, chiamate Resilient Distributed Datasets (RDDs). Dimostriamo che ciò è sufficiente per catturare un'ampia gamma di carichi di lavoro. Abbiamo implementato RDDs nel sistema open source Spark, che abbiamo valutato utilizzando carichi di lavoro sintetici e reali. Spark eguaglia o supera le prestazioni dei sistemi specializzati in molti domini, offrendo al contempo proprietà di tolleranza ai guasti più forti e consentendo di combinare questi carichi di lavoro. Infine, esaminiamo la generalità degli RDD sia dal punto di vista della modellazione teorica che da quello dei sistemi.

Questa versione della tesi apporta correzioni in tutto il testo e aggiunge una nuova sezione sull'evoluzione di Apache Spark nell'industria dal 2014. Inoltre, sono state aggiunte modifiche, formattazione e link per i riferimenti.

Altre informazioni sul libro:

ISBN:	9781970001563
Autore:	Matei Zaharia
Editore:	Morgan & Claypool
Lingua:	inglese
Rilegatura:	Copertina morbida

Acquisto:

Attualmente disponibile, in magazzino.

Arsitektur untuk Pemrosesan Data yang Cepat dan Umum pada Kelompok Besar

Titolo originale:

Contenuto del libro:

Altre informazioni sul libro:

Acquisto:

Altri libri dell'autore:

Le opere dell'autore sono state pubblicate dai seguenti editori: