Stăpânirea seturilor mari de date cu Python: Paralelizarea și distribuirea codului Python

Evaluare:   (3.9 din 5)

Stăpânirea seturilor mari de date cu Python: Paralelizarea și distribuirea codului Python (T. Wolohan John)

Recenzii ale cititorilor

Rezumat:

Cartea este lăudată pentru capacitatea sa de a conecta subiecte complexe din Python și aplicații din lumea reală, ceea ce o face benefică pentru cursanții care doresc să își îmbunătățească abilitățile. Cu toate acestea, a fost, de asemenea, criticată pentru lipsa sa de profunzime, redundanță și eșecul de a acoperi instrumente esențiale precum Hadoop și Spark.

Avantaje:

Util în legarea laolaltă a subiectelor complexe, oferă probleme din lumea reală, benefic pentru competențele de pe piața muncii, bun pentru extinderea cunoștințelor fundamentale.

Dezavantaje:

Repetitivă și săracă în informații, lipsită de profunzime în anumite domenii, omisiuni privind instrumentele esențiale, unele exemple de codare sunt slabe sau lipsite de sens.

(pe baza a 3 recenzii ale cititorilor)

Titlul original:

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Conținutul cărții:

Rezumat.

Soluțiile moderne pentru știința datelor trebuie să fie curate, ușor de citit și scalabile. În Mastering Large Datasets with Python, autorul J. T. Wolohan vă învață cum să luați un proiect mic și să îl scalați folosind o abordare a codării Python influențată funcțional. Veți explora metode și instrumente Python încorporate care se pretează la claritate și scalabilitate, cum ar fi metoda paralelismului de înaltă performanță, precum și tehnologii distribuite care permit un flux mare de date. Exercițiile practice abundente din acest tutorial practic vor fixa aceste abilități esențiale pentru orice proiect de știință a datelor la scară largă.

Achiziționarea cărții tipărite include o carte electronică gratuită în format PDF, Kindle și ePub de la Manning Publications.

Despre tehnologie.

Tehnicile de programare care funcționează bine pe date de dimensiunea unui laptop pot încetini - sau eșua complet - atunci când sunt aplicate fișierelor masive sau seturilor de date distribuite. Prin stăpânirea paradigmei puternice map and reduce, împreună cu instrumentele bazate pe Python care o susțin, puteți scrie aplicații centrate pe date care se extind eficient fără a necesita rescrierea bazei de cod pe măsură ce cerințele dvs. se schimbă.

Despre carte.

Mastering Large Datasets with Python vă învață să scrieți cod care poate gestiona seturi de date de orice dimensiune. Veți începe cu seturi de date de dimensiunea unui laptop care vă vor învăța să paralelizați analiza datelor prin divizarea sarcinilor mari în sarcini mai mici care pot fi executate simultan. Apoi, veți scala aceleași programe la seturi de date de dimensiuni industriale pe un cluster de servere cloud. Cu paradigma map and reduce bine stabilită, veți explora instrumente precum Hadoop și PySpark pentru a procesa eficient seturi masive de date distribuite, pentru a accelera procesul decizional cu ajutorul învățării automate și pentru a vă simplifica stocarea datelor cu AWS S3.

Ce conține.

⬤ O introducere în paradigma map and reduce.

⬤ Paralelizarea cu modulul de multiprocesare și cadrul pathos.

⬤ Hadoop și Spark pentru calcul distribuit.

⬤ Rularea lucrărilor AWS pentru procesarea seturilor mari de date.

Despre cititor.

Pentru programatorii Python care trebuie să lucreze mai rapid cu mai multe date.

Despre autor.

J. T. Wolohan este cercetător principal de date la Booz Allen Hamilton și cercetător doctor la Universitatea Indiana, Bloomington.

Tabla de conținut:

PARTEA 1.

1 ) Introducere.

2 ) Accelerarea lucrului cu seturi mari de date: Maparea și calculul paralel.

3 ) Conducte de funcții pentru cartografierea transformărilor complexe.

4 ) Procesarea seturilor mari de date cu fluxuri de lucru leneșe.

5 ) Operații de acumulare cu reduce.

6 ) Accelerarea map and reduce cu paralelizare avansată.

PARTEA 2.

7 ) Procesarea seturilor de date cu adevărat mari cu Hadoop și Spark.

8 ) Cele mai bune practici pentru date mari cu Apache Streaming și mrjob.

9 ) PageRank cu map and reduce în PySpark.

10 ) Decizii mai rapide cu machine learning și PySpark.

PARTEA 3.

11 ) Seturi mari de date în cloud cu Amazon Web Services și S3.

12 ) MapReduce în cloud cu Elastic MapReduce de la Amazon.

Alte date despre carte:

ISBN:9781617296239
Autor:
Editura:
Legare:Copertă moale
Anul publicării:2020
Numărul de pagini:312

Cumpărare:

Disponibil în prezent, pe stoc.

Alte cărți ale autorului:

Stăpânirea seturilor mari de date cu Python: Paralelizarea și distribuirea codului Python -...
Rezumat.Soluțiile moderne pentru știința datelor...
Stăpânirea seturilor mari de date cu Python: Paralelizarea și distribuirea codului Python - Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Lucrările autorului au fost publicate de următorii editori:

© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)