Парсим комментарии на Пикабу
В этой статье вы увидите, как программно собрать комментарии со странички на Пикабу.
Важное замечание
Любой ресурс, на котором есть уникальный контент, не слишком радостно относится к тому, что с него будут в автоматическом режиме тянуть данные. Особенно если речь идёт о массовом парсинге страниц, который может дать приличную нагрузку на сервер.
В этом посте я покажу, как аккуратно взять данные с 1 конкретной странички с помощью Selenium. Администрация сайта дала на это добро. Повторять за мной или нет - решать вам. Но если будете парсить, то не злоупотребляйте и не ломитесь бесконтрольно на все страницы подряд, скачивая тысячами запросов контент «на чёрный день».
Пакеты
Нам понадобятся следующие пакеты:
- Selenium для загрузки страницы и взаимодействия с ней;
- BeautifulSoup для извлечения содержимого страницы;
- Xlsxwriter для записи в таблицу Excel.
Устанавливаем их из PyPI с помощью командной строки.
python -m pip install bs4 selenium xlsxwriter
Импортируем их:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from xlsxwriter import Workbook