воскресенье, 16 июня 2013 г.

Общие правила и советы по использованию булева поиска

Я опять обращаюсь к одной из своих старых и очень интересных тем. В последнем своем посте о булевом поиске (Boolean search) я писал о применении его в профессиональной сети LinkedIn. Сейчас же мне бы хотелось поговорить об этой технике в общем, рассказать об особенностях и некоторых правилах использования ее, о том, что до сих пор не упоминал. Не ищите связь между отдельными пунктами поста, мне просто нужно было собрать недостающие фрагменты картины. Все же, думаю, пост будет полезным как начинающим, так и практикующим пользователям (хотя бы для своей проверки). Пусть это будет эскиз, набросок, или мозаика из правил и советов по использованию булева поиска.



1. Операторы булева поиска в различных поисковых системах и прочих средах отличаются

При использовании операторов поиска необходимо помнить об особенностях той или иной поисковой системы. Операторы и их значение отличаются в Google, Яндекс, Bing. В поисковой системе Blekko (есть такая экзотическая американская поисковая система, в которую инвестировал “Яндекс”) логика поиска основана на использовании слештегов. Использование булевой логики поиска возможно совершенно в разных средах, поддерживающих ее. Использование поисковых операторов возможно далеко не только в поисковых системах. Кроме поисковых систем, булевы операторы и булева логика применяются в поисковых модулях ATS (я писал о Taleo), сайтах поиска работы (Monster), социальных/профессиональных сообществах (LinkedIn, GitHub) и прочих сайтах, где есть необходимость структурировать большой массив данных.

Основные операторы во многих системах похожи, от этого может сложиться впечатление, что и в целом техника может быть одной, но это не так. К примеру, в Google и Яндекс оператор поиска по типу файлов выглядит как filetype и mime соответственно. Таких несовпадений много. Думаю, когда попробую поиск в Bing, определю отдельный пост для таблицы сравнения операторов в разных поисковых системах.

2. Многообразие поисковых операторов дополняется необходимостью следить за их правильным написанием

Очень важно писать операторы правильно. Обычно поисковые системы не учитывают регистр слов, но поисковые операторы, такие как AND, OR, NOT, должны быть написаны именно так, большими буквами. Также важно следить за пробелами между операторами и ключевыми словами для поиска. Если оператор AND отделяется от слов поиска одним пробелом, то, к примеру, оператор поиска по сайту site: пробелом после него не отделяется site:ya-recruiter.blogspot.com. При неправильном использовании нужные результаты получены не будут.

Еще один случай связан с копированием уже использованных поисковых запросов. Очень часто исследователь должен записывать свои поисковые запросы для использования в будущем. В этом случае следует аккуратно выбирать место хранения. Например, при обычных настройках в Word кавычки сохраняются в определенном формате и при обратном копировании в поисковую строку не воспринимаются как оператор поиска.

3. Нет универсальных поисковых запросов, которые можно использовать для всех случаев

Техника булева поиска может быть совершенно разной и индивидуальной для каждого конкретного случая. Это значит, что нельзя взять готовый запрос, подставить слова и получить желаемый результат. Также это значит, что желаемый результат можно получить используя разные поисковые запросы. До сих пор продолжается дискуссия о лучшем поисковом запросе для X-ray поиска по LinkedIn. Специалисты заметили отдельные особенности страниц этой профессиональной сети и используют их для создания разных поисковых запросов. К примеру, рекрутеру, прежде всего, интересны профили потенциальных кандидатов, но не интересны прочие страницы - общие результаты поиска, страницы компаний и др. Можно увидеть, что публичный профиль пользователя, найденный через Google, имеет характерную фразу people you know, и использовать ее для отсекания нерелевантных результатов поиска. Существует и вторая точка зрения на лучший поисковый запрос для LinkedIn. Дело в том, что URL страниц профиля содержит уникальные элементы, позволяющие определить, что это страница с профилем пользователя, а не общая страница пользователя. Этот элемент URL - частицы in или pub, все прочие содержат частицы dir. Таким образом, для отсеивания лишних результатов нужно включить первые два варианта и исключить третий. Сравните два метода X-Ray поиска:

site:linkedin.com “people you know” javasite:linkedin.com/in OR site:linkedin.com/pub -pub/dir java4. Поисковые системы позволяют использовать ограниченное количество слов в своих запросах

Для любителей создавать подробные запросы и включать в них все мыслимые критерии это плохая новость. Google позволяет использовать лишь 32 слова при написании запроса, и этим придется ограничиться. Система игнорирует все лишние слова в запросе, о чем сразу предупреждает.

У Яндекса ограничение - 40 слов.


Если говорить о поисковой строке LinkedIn, то здесь никаких ограничений вы не заметите. Пользователь может использовать столько слов, сколько захочет (на самом деле ограничение есть, но его трудно достичь). Это значит, что можно за один запрос получить результаты с названием 100 компаний-конкурентов или профили, включающие 50 различных ключевых слов. Нужно только использовать эту возможность с умом и помнить, что поиск не должен быть слишком узким.

5. Внешний булев поиск (x-ray search) часто эффективнее внутренних поисковых возможностей сайтов

Об этом можно много и долго читать в блогах гуру рекрутинга и об этом я напишу не один пост в будущем. Здесь можно увидеть огромное поле для различного рода экспериментов, но уже сейчас можно сказать, что x-ray search, или поиск по сайтам с использованием поисковых систем, является во многих случаях эффективнее внутреннего поиска. В качестве примера можно привести социальную сеть Google+. Думаю, многие заметили, как сложно там что-то найти, как Google навязывает свою логику поиска. Однако тот же Google позволяет индексировать страницы пользователей и каждый легко может найти человека по ключевым словам, используя обычную поисковую строку в Google. Так же у x-ray поиска есть преимущества и при использовании его в LinkedIn, хотя бы для получения сразу полных имен и профилей пользователей. Что лучше, внутренние возможности поиска LinkedIn или x-ray поиск через Google, все еще остается предметом обсуждения.

6. Выключайте персонализированный поиск.

Современные поисковые системы с гордостью заявляют о своей “продвинутости”, “умный поиск” стал частью нашей работы в Интернете. Google, Яндекс и другие поисковые сервисы стараются определить вкусы и предпочтения пользователей, “навязывают” результаты поиска, согласно нашей-своей логике. В итоге рекрутер рискует получить ограниченную по содержанию и ранжированную выдачу. Заметно, к примеру, как Google “любит” результаты из Google Plus (ничего странного, конечно), также он может использовать информацию, полученную из аккаунта Facebook и других сетей. Яндекс постоянно улучшает персональную поисковую логику. Вот, например, один из недавних релизов, на видео все хорошо показано.

Обратной стороной персонального поиска является запланированная выдача. Для более объективной выдачи необходимо выключить функцию персонализации, возможно, использовать режим инкогнито, выйти из социальных сетей.


Пока все о булевом поиске, но новые посты совершенно точно будут. Поиск как таковой - интереснейшая тема для меня.
Blog Widget by LinkWithin

3 комментария:

  1. Максим - молодец! Спасибо за эту полезную информацию)

    ОтветитьУдалить
    Ответы
    1. Спасибо, Дим! Скоро все будут пробовать и использовать)

      Удалить