Заказчик
Отзывы фрилансеров:
+ 6
- 0
Зарегистрирован на сайте 14 лет
Задача: сделать парсер сайтов с использованием Lambda + Selenium + Chromedriver, обязательно с использованием прокси.
API Gateway: используется для запуска Lambda (в API Gateway стучимся мы, передавая данные прокси, который надо использовать и URL для парсинга)
Сам парсер просто возвращает полученнный HTML.
Проблемы:
1) Прокси бывают запароленные или залоченные на IP (т.к. у Lambda может быть всегда разный IP, то вариант с локом по IP отпадает)
2) Использовать прокси можно только с НЕ headless chromedriver (т.к. там появляется окошко для авторизации, в котоое надо ввести логин пароль, в НЕ headless режиме это решается сборкой extension, в котором прописывается прокси (гугл inject-proxy-settings-selenium-chrome), но в Headless режиме chrome нельзя использовать extensions.
3) Соответственно, надо использовать НЕ headless chrome (чтобы можно было подгрузить плагин). Судя по всему есть вариант делать сборку с Xvfb (в гугл aws-lambda-xvfb) эмуляцией экрана, которая позволит запустить chromedriver в полноценнном режиме.
Вопрос в том, чтобы все собрать воедино и сделать рабочую Lambda.
Бюджет: 10 000 т.р. (БД, можно и без, но тогда только после того, как будет виден результат (код сикдывать не надо, но показать что все готово и работает да))
Приемка: готовый к запуску и откомментированный код (гугл aws-lambda-xvfb, в таком же исполнении docker для локального тестирования, готовая для заливки сборка для AWS Lambda). Язык Python. Можно показать по видео создали API Gateway, создали Lambda, залили все файлы. Пустили запрос с прокси и url к API Gateway вжух и функция выполнилась, вернула результат (главное чтобы именно с запароленным прокси, могу предоставить), можно прям во встроенные логи главное видеть, что все работает с указанными улсовиями (chromedriver, прокси с паролем).
Рассматривается только chromedriver (ff, phantomjs прошу не предлагать)
Навыки: amazon aws, lambda, python, selenium
Разделы:
Опубликован:
27.03.2019 | 12:46