Парсим яндекс в промышленных масштабах X-Parser-Light +XEvil
Узнав,
в предыдущем тесте, что XEvil 4.0 легко справляется с яндекс капчей, даже с использованием спецсимволов, я вспомнил о дорвеях под яндекс.
Яндекс
не особо хорошо стреляет на ключах и генерке, из-за толоки, в большей мере, а возможно
и из-за своих алгоритмов, не столь важно.
Копированный
контент работает в яндексе, этого нам достаточно для следующего эксперимента.
Итак,
приступим к настройке связки X-Parser-Light +XEvil
К XEvil подключить парсер еще
проще. Просто включаем поддержку antigate.com. Вставляем ключ
сгенерированный XEvil.
Вот и все настройка закончена. В принципе ключ вписывать не обязательно XEvil и так подхватит капчи на
лету. Так как он прописывает в файл hosts строчки:
127.0.0.1
www.anti-captcha.com
127.0.0.1 anti-captcha.com
127.0.0.1 www.antigate.com
127.0.0.1 antigate.com
127.0.0.1 api.anti-captcha.com
127.0.0.1
api.antigate.com
Но X-Parser-Light
без этой маленькой надстройки отказался отправлять капчу на распознавание.
Пришлось заморочится. Я так же для красоты галочки везде поставил, оно конечно
ни чего не решает, но делали их для чего то же (юмор).
Спустя 2
часа в моей папке собралось пару тысяч статей.
Я посчитал,
что мне этого мало. Да и тема статьи требовала промышленных масштабов. Было
решено подключить прокси, включить ротацию прокси на каждом запросе и увеличить
объем потоков до 500.
Яндекс
сразу начал валить меня капчами с которыми в доли секунд справлялся XEvil. Версия 4.0. решает даже капчу со спец символами и знаками препинания.
В итоге в
папке уже лежит около 10 тысяч статей, и это число продолжает увеличиваться.
Как
использовать парсинг и эти статьи, думаю, все мы знаем. Я лично делаю доры кстати
так же в промышленных масштабах.
Всем удачи
в парсинге яндекса.
Комментарии
Отправить комментарий