Evaluare:
Cartea este o resursă pentru învățarea Hadoop și a analizelor Big Data, cu accent atât pe subiectele fundamentale, cât și pe cele avansate. Deși oferă o viziune de ansamblu asupra ecosistemului Hadoop și include exemple practice, are, de asemenea, probleme semnificative cu acuratețea codului și claritatea scrierii.
Avantaje:⬤ Prezentare cuprinzătoare a Hadoop și a tehnologiilor conexe
⬤ prietenos atât pentru începători, cât și pentru profesioniști
⬤ exemplele sunt utile pentru învățarea practică
⬤ la zi atât cu tehnologiile vechi, cât și cu cele noi, cum ar fi MapReduce și Spark
⬤ oferă citate pentru lectură suplimentară.
⬤ Codul de exemplu adesea nu corespunde descrierilor din carte
⬤ instrucțiunile de instalare pot fi confuze
⬤ exemplele pot produce rezultate incorecte
⬤ stilul de scriere este criticat ca fiind lipsit de calitate
⬤ unele informații sunt înșelătoare sau incorecte.
(pe baza a 9 recenzii ale cititorilor)
Data Analytics with Hadoop: An Introduction for Data Scientists
Sunteți gata să utilizați tehnici statistice și de învățare automată în seturi mari de date? Acest ghid practic vă arată de ce ecosistemul Hadoop este perfect pentru această sarcină. În loc de implementarea, operațiunile sau dezvoltarea de software asociate de obicei cu calculul distribuit, vă veți concentra pe analizele particulare pe care le puteți construi, pe tehnicile de depozitare a datelor pe care le oferă Hadoop și pe fluxurile de lucru de date de ordin superior pe care acest cadru le poate produce.
Oamenii de știință și analiștii de date vor învăța cum să realizeze o gamă largă de tehnici, de la scrierea aplicațiilor MapReduce și Spark cu Python până la utilizarea modelării avansate și a gestionării datelor cu Spark MLlib, Hive și HBase. Veți învăța, de asemenea, despre procesele analitice și sistemele de date disponibile pentru a construi și împuternici produse de date care pot gestiona - și chiar necesită - cantități uriașe de date.
⬤ Înțelegeți conceptele de bază care stau la baza Hadoop și a calculului în cluster.
⬤ Utilizați modele de proiectare și algoritmi analitici paraleli pentru a crea sarcini de analiză a datelor distribuite.
⬤ Învățați despre gestionarea, extragerea și depozitarea datelor într-un context distribuit, utilizând Apache Hive și HBase.
⬤ Folosiți Sqoop și Apache Flume pentru a ingera date din baze de date relaționale.
⬤ Programați aplicații Hadoop și Spark complexe cu Apache Pig și Spark DataFrames.
⬤ Efectuați tehnici de învățare automată, cum ar fi clasificarea, gruparea și filtrarea colaborativă cu MLlib de la Spark.
© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)