Website Scraping with Python

21.08.2019

Le bouquin le plus complet et simple sur le scraping que j'ai lu jusqu’à présent

Description du livre :

Examiner de près le grattage et le traitement des données des sites Web : la technique d'extraction des données des sites Web dans un format convenant à une analyse plus poussée. Vous passerez en revue les outils à utiliser et comparerez leurs caractéristiques et leur efficacité. Concentré sur BeautifulSoup4 et Scrapy, ce livre concis et ciblé met en lumière les problèmes communs et propose des solutions que les lecteurs peuvent mettre en œuvre par eux-mêmes.

Le grattage de sites Web avec Python commence par l'introduction et l'installation des outils de grattage et explique les fonctionnalités de l'application complète que les lecteurs vont construire tout au long du livre. Vous verrez comment utiliser BeautifulSoup4 et Scrapy individuellement ou ensemble pour obtenir les résultats désirés. Comme de nombreux sites utilisent JavaScript, vous utiliserez également Selenium avec un émulateur de navigateur pour rendre ces sites et les rendre prêts pour le grattage.
À la fin de ce livre, vous aurez une application de grattage complète à utiliser et à réécrire selon vos besoins. En prime, l'auteur vous montre comment déployer vos araignées dans le Cloud pour tirer parti de votre ordinateur à partir de tâches de grattage de longue haleine.

Ce que vous apprendrez

Installer et mettre en œuvre les outils de raclage individuellement et ensemble.
Exécutez des araignées pour parcourir les sites Web à la recherche de données provenant du nuage.
Travailler avec des émulateurs et des pilotes pour extraire les données des sites scriptés

A qui s'adresse ce livre ?
Lecteurs ayant de l'expérience en Python et en développement de logiciels, et un intérêt pour le grattage de sites Web.