Парсер информации о доменах: Портфолио фрилансера Алексей Васин 27.01.2011, работа №15 - FL.RU
К списку работ
Алексей Васин
Алексей Васин

Парсер информации о доменах

image
Программа для парсинга различной информации о доменах: - данных whois (reg.ru, godaddy.com, whois-ip.fr); - счётчиков сайтов (Яндекс тИЦ, Google PR, Alexa Rank); - проверка каталогов и топов (Яндека Каталог, Рамблер Топ100, LiveInternet Топ). Работа поисходит с внутренней базой данных (БД). Вначале пользователь заносит в неё список нужны доменов (работоспособность проверялась со списком более 1 млн. доменов). Затем запускается парсинг данных. Т.к. сайты-источники могут иногда выдавать неверную информацию (при запросах из разных стран) или просто быть недоступными, в программе предусмотрена возможность многопроходного парсинга по одному и тому же критерию. Обработка идёт в несколько потоков (тестировалось на 100-300 потоках) и с использованием socks-прокси. В конце программа обрабатывает собранную со всех сайтов информацию и сохраняет всё в CSV-файл.