O arhitectură pentru procesarea rapidă și generală a datelor pe clustere mari

O arhitectură pentru procesarea rapidă și generală a datelor pe clustere mari (Matei Zaharia)

Titlul original:

An Architecture for Fast and General Data Processing on Large Clusters

Conținutul cărții:

În ultimii câțiva ani s-a produs o schimbare majoră în sistemele de calcul, deoarece creșterea volumului de date și scăderea vitezei procesoarelor impun din ce în ce mai multor aplicații să se extindă la clustere. În prezent, o multitudine de surse de date, de la internet la operațiuni de afaceri sau instrumente științifice, produc fluxuri de date mari și valoroase. Cu toate acestea, capacitățile de procesare ale mașinilor individuale nu au ținut pasul cu dimensiunea datelor. Prin urmare, organizațiile trebuie să își extindă din ce în ce mai mult calculele pe clustere.

În același timp, viteza și sofisticarea necesare prelucrării datelor au crescut. Pe lângă interogările simple, algoritmii complecși precum învățarea automată și analiza grafică devin din ce în ce mai comuni. În plus față de procesarea pe loturi, este necesară analiza în flux a datelor în timp real pentru a permite organizațiilor să ia măsuri în timp util. Viitoarele platforme de calcul vor trebui nu numai să extindă sarcinile de lucru tradiționale, ci și să susțină aceste noi aplicații.

Această carte, o versiune revizuită a disertației câștigătoare a premiului ACM pentru disertație din 2014, propune o arhitectură pentru sistemele de calcul în cluster care pot aborda noile sarcini de lucru de prelucrare a datelor la scară largă. În timp ce primele sisteme de calcul în cluster, precum MapReduce, se ocupau de procesarea pe loturi, arhitectura noastră permite, de asemenea, interogări interactive și în flux, păstrând în același timp scalabilitatea și toleranța la erori ale MapReduce. Și, în timp ce majoritatea sistemelor implementate acceptă doar calcule simple cu o singură trecere (de exemplu, interogări SQL), sistemul nostru se extinde și la algoritmii cu mai multe treceri necesari pentru analize complexe, cum ar fi învățarea automată. În cele din urmă, spre deosebire de sistemele specializate propuse pentru unele dintre aceste sarcini de lucru, arhitectura noastră permite combinarea acestor calcule, permițând noi aplicații bogate care amestecă, de exemplu, procesarea în flux și pe loturi.

Obținem aceste rezultate printr-o extensie simplă a MapReduce care adaugă primitive pentru partajarea datelor, denumite Resilient Distributed Datasets (RDD). Arătăm că acest lucru este suficient pentru a capta o gamă largă de sarcini de lucru. Implementăm RDD-urile în sistemul Spark open source, pe care îl evaluăm utilizând sarcini de lucru sintetice și reale. Spark egalează sau depășește performanța sistemelor specializate în multe domenii, oferind în același timp proprietăți mai puternice de toleranță la erori și permițând combinarea acestor sarcini de lucru. În cele din urmă, examinăm generalitatea RDD-urilor atât din perspectiva modelării teoretice, cât și din perspectiva sistemelor.

Această versiune a tezei face corecturi în tot textul și adaugă o nouă secțiune privind evoluția Apache Spark în industrie din 2014. În plus, au fost adăugate modificări de editare, formatare și linkuri pentru referințe.

Alte date despre carte:

ISBN:	9781970001563
Autor:	Matei Zaharia
Editura:	Morgan & Claypool
Limbă:	engleză
Legare:	Copertă moale

Cumpărare:

Disponibil în prezent, pe stoc.

O arhitectură pentru procesarea rapidă și generală a datelor pe clustere mari

Titlul original:

Conținutul cărții:

Alte date despre carte:

Cumpărare:

Alte cărți ale autorului:

Lucrările autorului au fost publicate de următorii editori: