Одним из самых ценных сервисов яндекса для сеошника, безусловно, является сервис подбора ключевых слов wordstat. Крайне полезно его парсить, и хотя данные там весьма относительные, всё же при некоторой сноровки приносят большую пользу. Но руками парсить иногда очень напряжно, а потому я когда то написал небольшой скриптик для парсинга ключевых слов с wordstat. Сам скрипт не достоен внимания, суть в том что при его использовании я стал постоянно натыкаться на капчу при парсинге wordstat. Не зависимо от таймаутов, несмотря на то что в браузере капчи не было, при парсинге wordstat скриптом я натыкался на капчу.

Начал гуглить, эффекта ноль. На капчу при парсинге wordstat натыкались только при коротком таймауте – не мой случай. Вобщем в итоге оказалось дело в Куках. Оказалось что капча при парсинге wordstat ( при условии соблюдения вменяемых таймауотв между запросами ) обходится элементарной отправкой Куки через скрипт.

Для начала куку с вордстата надо получить, соответственно зайдите на wordstat, сделайте тестовый запрос. Затем найдите полученную куку по имени fuid1 и посмотрите её содержимое. Это очень удобно делать в FireFox: Иструменты – Настройки – Приватность – Показать Куки , в поиск вбиваете fuid1 и в окошке ниже видно содержимое Куки. Ну далее используете её при отправке запроса wordstat через curl:

[cci_php]curl_setopt ($ch, CURLOPT_COOKIE, ‘fuid01=’.$key);[/cci_php]

где кей содержимое Куки – такая здоровенная текстовая строка.

21 июля 2010 |

5 Комментариев к “Капча при парсинге wordstat”

  1. admin 2 августа, 2010

    Дальнейшая работа с темой капчи, на этот раз при парсинге самого яндекса привела к такой схеме. Во-первых прокси не спасает. Не зависимо использовал я список прокси при парсинге, или нет, передавал ли я куки или нет, где то через 100-1000 запросов ( в зависимости от таймаутов ) я получал от яндекса капчу. Во-вторых величина таймаута ( в разумных пределах ) тоже не сильно влияет на скорость получения капчи от яндекса. Вобщем нужно постоянно менять куки.

    Но к слову сказать я добился в среднем показателя 1000 запросов от капчи до капчи, при задержке 1-7 секунд. Что в итоге дает парсинг 1000 запросов за два часа. Потом капча, меняю куку, и опять два часа. На ночь не оставишь, во время парсинга яндексом пользоваться нельзя, вобщем есть недостатки. Но под мои задачи вполне хватает.

    Для вордстата в один поток, с задержкой 10-15 секунд между страницами, капча мне за несколько дней не выдавалась.

  2. admin 2 августа, 2010

    И для просмотра отдаваемых кук незаменим плагин для FireFox – FireBug. Ставишь плагин. Запускаешь его. Парсишь яндекс , получаешь капчу. Входишь на яндекс, вводишь капчу, кука меняется. Надо посмотреть что firefox отдает яндексу. Для этого FireBug должен быть запущен, и активен. Заходишь на главную яндекса, вводишь оттуда запрос. Смотришь в Firebug вкладку сеть. Раскрываешь вкладочку с запросом и смотришь что отправили в яндекс. Будет там параметр и cookie. Я его просто копирую, подставляю в переменную и отправляю curl скрипта. Очень удобно.

  3. arbuzzz 19 августа, 2010

    К сожалению способ не срабатывает, если соединение идет с сервера и потом через проксю к яндексу. Подстановка fuid01 взятого с локальной машины не спасает.

  4. admin 19 августа, 2010

    я заметил что после капчи количество кук отдаваемых яндексу меняется. может появляться кука “spravka”, “yabs-frequency”, “L” , поэтому теперь просто копирую параметр cookie целиком из firebug и скармливаю курлу. проблем нет. с вордстатом проблем нет вообще никаких, с парсингом серпа такой куки может хватать до 2000 запросов.

    правда я парсю с локальной машины из под денвера и без проксей. толку от проксей никакого, куки все равно приходится менять.

  5. Дмитрий 26 апреля, 2012

    хи-хи ) ребят, попробуйте все-таки брать автоматически куки при каждом запросе, а не вручную подставлять из фаерфокса ))

Есть что сказать по теме статьи? Пожалуйста - пишите!