Curățarea datelor pentru o știință a datelor eficientă: Efectuarea celorlalte 80% din muncă cu Python, R și instrumente de linie de comandă

Evaluare:   (4.8 din 5)

Curățarea datelor pentru o știință a datelor eficientă: Efectuarea celorlalte 80% din muncă cu Python, R și instrumente de linie de comandă (David Mertz)

Recenzii ale cititorilor

Rezumat:

Cartea este lăudată pentru acoperirea cuprinzătoare a tehnicilor de curățare a datelor și pentru importanța pregătirii datelor pentru analiză în știința datelor. Cititorii apreciază stilul captivant de scriere al autorului, Dr. Mertz, și accentul pus pe procesul de gândire din spatele manipulării datelor, mai degrabă decât pe învățarea pe de rost. Acesta servește ca o resursă valoroasă atât pentru începători, cât și pentru practicienii experimentați în știința datelor.

Avantaje:

Acoperire cuprinzătoare a tehnicilor de curățare a datelor și de pregătire a datelor.
Stil de scriere captivant și clar al autorului.
Accentuează procesul de gândire din spatele manipulării datelor, mai degrabă decât simpla codificare.
Oferă numeroase exemple de cod în R, Python și instrumente de linie de comandă.
Util pentru practicieni la toate nivelurile, de la începători la experți.
Orientări privind versionarea datelor și reproductibilitatea manipulării datelor.
Oferă perspective asupra diverselor formate de date și a modului de gestionare a acestora.

Dezavantaje:

Unii cititori au considerat că organizarea subiectelor este mai puțin directă, deoarece tehnicile sunt adesea prezentate în cadrul user stories, mai degrabă decât ca rețete de sine stătătoare.
Cartea se concentrează mai mult asupra datelor tabulare, cu o acoperire insuficientă asupra curățării datelor text și imagine.
Anumiți cititori și-au dorit nume de variabile mai puțin criptice în exemplele de cod furnizate.
Așteptările pentru un catalog structurat de rețete de curățare a datelor pot duce la dezamăgire.

(pe baza a 15 recenzii ale cititorilor)

Titlul original:

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Conținutul cărții:

Un ghid cuprinzător pentru cercetătorii de date pentru a stăpâni instrumente și tehnici eficiente de curățare a datelor

Caracteristici principale:

⬤ Învățați tehnici de curățare a datelor într-o manieră independentă de limbă.

⬤ Învățați din exemple practice intrigante din numeroase domenii, cum ar fi biologia, datele meteorologice, demografia, fizica, seriile de timp și prelucrarea imaginilor.

⬤  Lucrați cu exemple de cod detaliate, comentate, bine testate în Python și R.

Descrierea cărții:

Este un fel de truism în știința datelor, analiza datelor sau învățarea automată că cea mai mare parte a efortului necesar pentru a vă atinge scopul real constă în curățarea datelor. Scrisă în stilul prietenos și plin de umor caracteristic lui David, această carte discută în detaliu pașii esențiali realizați în fiecare conductă de producție a științei datelor sau a analizei datelor și vă pregătește pentru vizualizarea datelor și modelarea rezultatelor.

Cartea plonjează în aplicarea practică a instrumentelor și tehnicilor necesare pentru ingestia datelor, detectarea anomaliilor, imputarea valorilor și ingineria caracteristicilor. De asemenea, oferă exerciții de lungă durată la sfârșitul fiecărui capitol pentru a exersa abilitățile dobândite.

Veți începe prin a analiza ingestia de date în formate de date precum JSON, CSV, SQL RDBMSes, HDF5, baze de date NoSQL, fișiere în formate de imagine și structuri de date serializate binare. Mai mult, cartea oferă numeroase seturi de date și fișiere de date de exemplu, care sunt disponibile pentru descărcare și explorare independentă.

Pornind de la formate, veți imputa valorile lipsă, veți detecta datele nesigure și anomaliile statistice și veți genera caracteristici sintetice necesare pentru obiectivele de succes ale analizei și vizualizării datelor.

Până la sfârșitul acestei cărți, veți fi dobândit o înțelegere fermă a procesului de curățare a datelor necesar pentru a efectua sarcini reale în domeniul științei datelor și al învățării automate.

Ce veți învăța:

⬤ Identificați datele problematice referitoare la puncte de date individuale.

⬤ Detectarea datelor problematice în "forma" sistematică a datelor.

⬤ Remedierea problemelor de integritate și igienă a datelor.

⬤ Pregătirea datelor pentru sarcini analitice și de învățare automată.

⬤ Imputarea valorilor în date lipsă sau nesigure.

⬤ Generați caracteristici sintetice care sunt mai ușor de utilizat pentru știința datelor, analiza datelor sau obiectivele de vizualizare.

Pentru cine este această carte:

Această carte este destinată dezvoltatorilor de software, cercetătorilor de date, cercetătorilor de date aspiranți și studenților care sunt interesați de analiza datelor sau de calculul științific.

Familiarizarea de bază cu statisticile, conceptele generale în învățarea automată, cunoașterea unui limbaj de programare (Python sau R) și o anumită expunere la știința datelor sunt utile. Un glosar, referințe și sfaturi prietenoase ar trebui să ajute la aducerea tuturor cititorilor la zi.

Textul va fi, de asemenea, util pentru cercetătorii intermediari și avansați în domeniul datelor care doresc să își îmbunătățească rigoarea în ceea ce privește igiena datelor și care doresc o reîmprospătare a problemelor legate de pregătirea datelor.

Alte date despre carte:

ISBN:9781801071291
Autor:
Editura:
Legare:Copertă moale

Cumpărare:

Disponibil în prezent, pe stoc.

Alte cărți ale autorului:

Curățarea datelor pentru o știință a datelor eficientă: Efectuarea celorlalte 80% din muncă cu...
Un ghid cuprinzător pentru cercetătorii de date...
Curățarea datelor pentru o știință a datelor eficientă: Efectuarea celorlalte 80% din muncă cu Python, R și instrumente de linie de comandă - Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Ciudățeniile enigmatice ale expresiilor regulate - The Puzzling Quirks of Regular...
Această carte de puzzle amuzantă, destinată dezvoltatorilor de software și...
Ciudățeniile enigmatice ale expresiilor regulate - The Puzzling Quirks of Regular Expressions
Cod Python mai bun: Un ghid pentru experții aspiranți - Better Python Code: A Guide for Aspiring...
Treceți de la codul Python care "funcționează în...
Cod Python mai bun: Un ghid pentru experții aspiranți - Better Python Code: A Guide for Aspiring Experts

Lucrările autorului au fost publicate de următorii editori:

© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)