Email: eblinkoff@mail.ru
Телеграм: +79312009928
WhatsApp: +79312009928
Спросить
Заказать
Акция!
Россия, Санкт-Петербург +79312009928

Парсер динамического сайта, формирующегося при помощи javascript


Тут немного о нашем опыте написания парсеров. С парсерами часто бывает так. Пока ты не попробовал - написание парсера кажется чем-то запредельным, крайне сложным. А когда ты взялся и у тебя получилось - наступает опьянение, кажешься себе чорным влестелином, ага. Но и на чёрного властелина есть свой ушлый хоббит Фродо и его пронырливые приспешники. Некоторые люди серьёзно относятся к защите своего контента и вставляют негодяям вроде нас палки в колёса. Один из способов - формировать парсер полностью при помощи javascript, то есть динамически. С сервера приходит запрос в виде json, на его основе строится вся страница. Парсить такие сайты сложнее. Основной, наиболее правильный способ - надо просто подделать запрос, который посылает на сервер страница. Тогда в ответ придёт json с готовыми данными в удобном виде, практически как будто сайт предоставляет готовое API. Так мы и сделали.
Что ещё хочется сказать по этому поводу? Парсер написать мало, надо ещё интегрировать спарсенный контент на сайт. Зачастую, это оказывается в разы сложнее, чем сам парсер, особенно для некоторых CMS.
Ещё большие затруднения могут быть при обработке больших объёмов данных. Допустим, 3Гб фотографий качаются довольно медленно, надо это учитывать, когда говоришь клиенту о времени окончания работ.




<--Предыдущая статья | Следующая статья-->
RSSкомментариев

Введите Ваш комментарий

^
наверх