Привет всем. Задача спарсить контактную информацию веб-студий из сайта ratingruneta.ru
Вот ссылка на гугл документ, в которым мы расписали ссылки на разделы рейтинга с которыми буем работать
docs.google.com/document/... На выходе необходимо получить результаты с разбивкой по этим ссылкам. Это значит, сколько ссылок вы видите столько и должно получиться excel файлов. Либо можно в 1 файле но с разбивкой по листам.
Студии могут дублироваться, и одна и та же студия может быть в разных разделах. Поэтому не забудьте избавиться от дублей в финальных файлах.
Какие данные нужно получить?
Вот список столбцов: название студии, сайт студии, почта, телефон.
Данные о телефоне и сайте студии есть сразу на ее странице рейтинга, вот пример
ratingruneta.ru/agency-in... Но в рейтинге может быть неактуальный телефон. И самое главное почты тоже нет.
Поэтому, сначала парсим список всех ссылок сайтов студий, а далее массово парсим сами сайты этих студий. Ищем на их сайте телефоны, почты и складываем в наш файл. Помимо главной, надо понять как массово пробежать по страница "контакты, о нас" и подобные, где скорее всего будут контакты. Если вдруг их нет в шапке или в футере
Также учтите как быть если на сайте студии указано несколько почт или телефонов, нам нужно собрать все. Поэтому думаю скорее всего результат будет в CSV
Если нужны расходы на прокси и еще что-то, опишите мы оплатим это.