Парсинг поисковой выдачи

Все мы так или иначе сталкиваемся с поисковыми системам Google или Yandex. Кто-то ограничивается поиском фильмов для вечернего просмотра, кто-то использует их в поисках информации по работе или бытовым вопросам, ну а кто-то решает ряд бизнес задач.

Уже и представить сложно как оперативно искать нужную информацию без этих интернет гигантов.

По данным сайта Alexa.com ежедневное время на сайте поисковой системы Google, которое проводит среднестатистический пользователь равняется 13:54 минутам, на сайте Яндекс - 5:09.

Каждую секунду Google обрабатывает  40000 поисковых запросов со всего мира (данные internetlivestats.com).

Практически любой современный человек так или иначе связан с использованием данных из поисковых систем. В этой статье я расскажу о парсинге поисковых запросов: зачем он нужен, какие бизнес задачи способен решить, основные проблемы, с которыми Вы можете столкнуться в процессе и пути их решения.

Зачем парсить поисковые системы

Для начала определимся с основными понятиями.

Парсинг - это процесс сбора данных с последующей их обработкой и анализом.

Поисковая выдача - страница результатов поиска или страница, генерируемая поисковой системой в ответ на поисковый запрос пользователя.

Если Вы используете поисковик исключительно для поиска незначительного количества информации или фильмов для досуга, то, вряд ли, Вам потребуется автоматическое извлечение его данных.

Однако с помощью парсинга можно решить ряд бизнес задач.

Сбор базы потенциальных клиентов

Больше подходит компаниям, которые работают в B2B сегменте. С помощью поисковых систем можно собрать дополнительно около 30-50% компаний, которые не размещены в Яндекс Справочнике, 2Gis, Google картах, прочих каталогах компаний.

Безусловно есть ряд сложностей, связанных с этой задачей: в поисковой выдаче будет размещено большое количество неподходящих информационных сайтов. Поэтому очень важно умение профессионально использовать все возможности поисковых систем.

Для отсеивания большого количества информационных сайтов, необходимо освоить эффективный поиск в поисковых системах с использованием специальных поисковых операторов.

Формирование списка конкурентов

Эта задача не отличается от предыдущей и требует таких же навыков.

Анализ компаний

Анализ компаний через поисковики может проводиться по ряду направлений: предоставляемые услуги, продаваемые товары и конкретные бренды, определенные партнеры, наличие специфических разделов и страниц на сайте: блог, партнерская программа, прочее.

К примеру, Вам нужно определить предоставляет ли организация определенный вид услуг, тогда используем оператор site: и осуществляем поиск только по сайту анализируемой компании.

Формирование списков сайтов с информацией о компании

С помощью поисковых систем Вы можете собрать сайты с отзывами о конкурентах, клиентах, партнерах, а также Вашей компании, что поможет Вам в анализе слабых и сильных сторон бизнеса, продукта, слабых мест в Вашей репутации.

Пример пары запросов для поиска информации.

Сбор информации для проведения исследований

К примеру, Вы хотите узнать каково реальное отношение людей к каким-либо законам, нововведениям, строительству объектов инфраструктуры, реальный объем заработной платы в различных отраслях и многое другое. Составляете запрос на поиск новостной информации с возможностью комментирования или форумов с этим же вопросом. И у Вас есть большое количество комментариев, форумных тем с обсуждениями этих вопросом.

Классификация сайтов по типу: информационные площадки, рейтинги, блоги, каталоги компаний

Каждый тип сайтов имеет определенный набор однотипных признаков, которые можно классифицировать и использовать для поиска тех площадок, которые Вам необходимы в данный момент. Это могут быть параметры в ссылках, к примеру blog для блогов; определенные ключевые фразы на странице, в заголовках...

Поиск тематических публикаций и сайтов для проведения медийной рекламной кампании

Для поиска подобных площадок необходимы сперва собрать темы статей, которые подходят Вам для размещения там своей рекламы, определить тематику блогов, информационных порталов, а также сформировать признаки компаний и коммерческих организаций, чтобы можно было составить поисковый запрос и исключить все коммерческие сайты.

Формирование списка блогеров и лидеров мнений

Этот пункт похож с предыдущим, однако более сложен в реализации, так как в случае с лидерами мнений требует дополнительной работы с социальными сетями: анализ аккаунтов, сбор информации.

Способы парсинга поисковых запросов

В предыдущей части мы кратко разобрались с основными задачами, которые можно решать с помощью парсинга поисковых систем. Теперь же разберем основные способы сбора информации из выдачи поисковиков, их плюсы и минусы.

Ручной сбор данных поисковой выдачи

Плюс этого способа один - бесплатность. Но он требует больших временных затрат. Вы, конечно, можете использовать расширения для браузеров типа imacros для автоматизации различных действий в интернете, но если необходимо обработать сотни или тысячи запросов - разница во времени с последующими способами будет колоссальной.

Цена - 0 рублей.

Когда стоит отдать предпочтение ручному методу сбора? В случае, если Вы начинающий вебмастер, специалист без бюджета, а собрать информацию необходимо, или если Вам нужно обработать всего пару запросов.

Готовые парсеры поисковых систем

Казалось бы самые очевидные варианты. Однако, кроме преимуществ они имеют также и ряд недостатков.

Плюсы:

  1. Разработчики уже решили ряд проблем: стабильность работы, производительность, многопоточность, интеграция сервисов по разгадыванию капчи, прокси и так далее.
  2. Часто разовая оплата с добровольной платной подпиской на обновления.
  3. Наличие дополнительных функций для манипуляций с результатами парсинга.
  4.  Разный формат экспорта данных.
  5. Возможность установки на сервер и автономной работы.

Минусы:

  1. Высокая стоимость для разовых задач или парсинга в небольшом объеме.
  2. Дополнительные затраты на прокси, разгадывание капчей.
  3. Необходимо время для освоения, если Вы не работали с различным софтом смежной направленности ранее.

Цена софта - 100-300$.

Когда стоит отдать предпочтение готовым парсерам? В случае, если Вы намереваетесь обрабатывать большие объемы данных на постоянной основе или периодически.

Известный софт - a-parser, zennoposter + шаблон парсинга поисковых систем, софт от Netpeak.

Скрипты парсинга поисковых запросов

Кроме софта, Вы можете заказать скрипт парсинга поисковой выдачи на одной из бирж фриланса и установить его на свой сервер.

Плюсы:

  1. Скрипт будет написан полностью по Вашему техническому заданию с включением любого дополнительного функционала.
  2. Возможность интегрировать в сайт компании для простого доступа сотрудников.

Минусы:

  1. Необходимость периодического обслуживания: если поисковик что-то меняет в структуре страницы с результатами поиска, придется обновлять скрипт.
  2. Дополнительные затраты на прокси, разгадывание капчей.
  3. Высокая стоимость разработки.

Цена скрипта - определяется в зависимости от ТЗ и уровня программиста. Ориентировочно - от 50 до 500$.

Когда стоит отдать предпочтение скриптам: если Вам не хватает функционала готовых парсеров, а также необходима интеграция с сайтом компании для возможности работы со скриптом сотрудников организации.

Сервис Clients Plus для парсинга поисковых запросов

Наш сервис имеет необходимый для решения этой задачи функционал. Подробнее о возможностях модуля читайте в этой статье.

Плюсы:

  1. Автономность.
  2. Возможность работы любого количества сотрудников компании.
  3. Дополнительный функционал по очистке дубликатов, удаление сайтов, которые есть в Вашей базе.
  4. Низкая цена обработки запросов.
  5. Возможность парсинга сразу двух поисковых систем: Яндекс и Гугл.

Минусы:

  1. Высокая цена в случае обработки очень большого объема запросов.
  2. Ограниченность созданным функционалом.

Цена сервиса - от 2,50 рублей за запрос до 50 копеек при пополнении счёта на 10 001 рубль.

Когда стоит отдать предпочтение Clients Plus? В случае, если количество запросов невелико: до нескольких тысяч, или Вам нужен сервис для разовой задачи.