Optimizarea sarcinilor de lucru Databricks: Exploatați puterea Apache Spark în Azure și maximizați performanța volumelor de lucru moderne de big data

Evaluare:   (4.1 din 5)

Optimizarea sarcinilor de lucru Databricks: Exploatați puterea Apache Spark în Azure și maximizați performanța volumelor de lucru moderne de big data (Anirudh Kala)

Recenzii ale cititorilor

Rezumat:

Cartea este, în general, bine primită în rândul utilizatorilor Databricks, fiind lăudată în special pentru explicațiile clare și ideile practice privind optimizarea conductelor de date. Deși este recomandată atât începătorilor, cât și utilizatorilor intermediari, unii recenzenți au remarcat că îi lipsește profunzimea în anumite domenii, în special în subiectele de optimizare, și poate părea superficială pentru utilizatorii mai experimentați. În ciuda acestui fapt, este considerată o resursă valoroasă cu exemple de cod practice și scenarii din lumea reală.

Avantaje:

Stil de scriere clar și precis.
Resursă excelentă pentru începători și utilizatori intermediari.
Perspective utile privind scalarea conductelor de date și tehnicile de optimizare.
Acoperă o gamă largă de subiecte, inclusiv MLFlow, Delta Lake și streaming structurat.
Conține exemple practice și mostre de cod care sunt disponibile pe GitHub.
Include scenarii din lumea reală și studii de caz.

Dezavantaje:

Unii recenzenți consideră că prima secțiune este de bază și grăbită.
Lipsă de profunzime în anumite subiecte de optimizare, ceea ce poate fi dezamăgitor pentru utilizatorii avansați.
Ultimul capitol privind scenariile reale este prea scurt.
Unii cititori au considerat cartea superficială și au sugerat un titlu înșelător.

(pe baza a 10 recenzii ale cititorilor)

Titlul original:

Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Conținutul cărții:

Accelerați calculele și profitați la maximum de datele dvs. în mod efectiv și eficient pe Databricks

Caracteristici principale:

⬤ Înțelegeți optimizările Spark pentru volumele de lucru big data și maximizarea performanței.

⬤ Construiți conducte eficiente de inginerie big data cu Databricks și Delta Lake.

⬤ Gestionați eficient clusterele Spark pentru procesarea datelor mari.

Descrierea cărții:

Databricks este o platformă lider în industrie, bazată pe cloud, pentru analiza datelor, știința datelor și ingineria datelor, care sprijină mii de organizații din întreaga lume în călătoria lor către date. Este o platformă rapidă, ușoară și colaborativă de analiză a datelor mari bazată pe Apache Spark pentru știința și ingineria datelor în cloud.

În Optimizing Databricks Workloads, veți începe cu o scurtă introducere în Azure Databricks și veți începe să înțelegeți rapid tehnicile importante de optimizare. Cartea acoperă modul de selectare a configurației optime a clusterului Spark pentru rularea procesării datelor mari și a sarcinilor de lucru în Databricks, câteva tehnici de optimizare foarte utile pentru Spark DataFrames, cele mai bune practici pentru optimizarea Delta Lake și tehnici de optimizare a sarcinilor Spark prin Spark core. Cartea conține o oportunitate de a învăța despre unele dintre scenariile din lumea reală în care optimizarea volumelor de lucru în Databricks a ajutat organizațiile să crească performanța și să economisească costuri în diverse domenii.

Până la sfârșitul acestei cărți, veți fi pregătit cu setul de instrumente necesar pentru a vă accelera lucrările Spark și pentru a vă procesa datele mai eficient.

Ce veți învăța:

⬤ Să vă familiarizați cu fundamentele Spark și cu platforma Databricks.

⬤ Procesați date mari utilizând API-ul Spark DataFrame cu Delta Lake.

⬤ Analizați datele utilizând procesarea grafică în Databricks.

⬤ Utilizați MLflow pentru a gestiona ciclurile de viață ale învățării automate în Databricks.

⬤ Aflați cum să alegeți configurația corectă a clusterului pentru volumele dvs. de lucru.

⬤ Explorați metodele de compactare a fișierelor și de clusterizare pentru a regla tabelele Delta.

⬤ Descoperiți tehnici avansate de optimizare pentru accelerarea lucrărilor Spark.

Pentru cine este această carte:

Această carte se adresează inginerilor de date, cercetătorilor de date și arhitecților cloud care au cunoștințe de lucru despre Spark/Databricks și o anumită înțelegere de bază a principiilor ingineriei datelor. Cititorii vor trebui să aibă cunoștințe de lucru de Python, iar o anumită experiență de SQL în PySpark și Spark SQL este benefică.

Alte date despre carte:

ISBN:9781801819077
Autor:
Editura:
Limbă:engleză
Legare:Copertă moale

Cumpărare:

Disponibil în prezent, pe stoc.

Alte cărți ale autorului:

Azilul nesigur: Povești despre partiție și nebunie (The Unsafe Asylum: Stories of Partition and...
'E din nou vremea Partiției? ' a întrebat mama...
Azilul nesigur: Povești despre partiție și nebunie (The Unsafe Asylum: Stories of Partition and Madness) - The Unsafe Asylum: Stories of Partition and Madness
Optimizarea sarcinilor de lucru Databricks: Exploatați puterea Apache Spark în Azure și maximizați...
Accelerați calculele și profitați la maximum de...
Optimizarea sarcinilor de lucru Databricks: Exploatați puterea Apache Spark în Azure și maximizați performanța volumelor de lucru moderne de big data - Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Lucrările autorului au fost publicate de următorii editori:

© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)