Сайт, продвижение, создание, безопасность -

Полная новость

Какие слова индексирует поисковый робот?

22.12.2011, 16:17

Добавлена в: Поисковые системи от vova74

комментариев (1)

Как мы писали в предыдущих статьях, поисковый робот должен иметь представление о том, какие слова необходимо индексировать, а какие нет.

Что такое слово в понимании поискового робота?

К примеру, возьмем слово с дефисом – светло-серый или что-нибудь. Как воспримет его поисковый робот, как одно или как два? А числа он воспринимает, как слова или отправляет их в корзину, как мусор? Также возникает вопрос о словах на других языках, их оставлять или лучше переводить на русский? Также возникает вопрос о буквенно-численных комбинациях, адресах электронной почты, датах, интернет адресах и т.д.

Разработчики различных поисковых машин решают эти вопросы по-разному. Да нам и не удастся найти ответы на данный вопрос, так как алгоритмы поисковых машин изменяются раз в месяц, так как регулярно вводятся в эксплуатацию новые версии поисковых машин. Гораздо проще сделать проверку самостоятельно, если это необходимо.

Как это проверить?

Как мы уже сказали, вы можете самостоятельно проверить, как разработчики поисковых систем обрабатывают слова с дефисом, числа, числено-буквенные слова. Это сделать просто – введите в строку поиска интересующее слов и посмотрите, что выдаст вам поисковая система. Если поисковик выдаст вам результат и подсветит вам заданное слово, то вы сможете увидеть, в каком виде они сохраняются в индексе и выдаются в результате поиска.

Разделители в словах поисковых систем.

Как известно, поисковики не индексируют служебные символы, которые принято называть разделителями. Это пробелы, знаки препинания, символы, теги, которые составляют конструкцию Html языка. Попробуйте ввести в запрос поисковика () и вы убедитесь, что выдача поиска будет пуста. При этом поисковики уведомят вас о существующей ошибке. Ведь искать точку в сети интернета очень энергозатратно и этот знак препинания присутствует в любом тексте.

Что такое стоп-слова?

Существуют слова, которые поисковые системы не индексируют вовсе.

Как мы знаем, индекс представляет собой сжатые, хорошо упакованные, вывернутые на изнанку странички Интернета, о которых знает поисковая система. Поисковые роботы максимально хотят «познать» весь интернет, но для этого необходимы колоссальные ресурсы.

В былые времена поисковые системы старались экономить на объемах своих серверов и поэтому отбрасывали ненужную информацию и слова. Такие слова назывались – стоп-слова. Это различные предлоги, союзы, числа, сокращения и т.д. также поисковики отбрасывали и цифры.

Но дальше выяснилось, что пользователи очень часто используют данные слова в своих запросах и разработчики поисковых систем решили хранить их в индексе. Это очень важно при поиске точных цитат, которые включают служебные слова. К этому решению подтолкнул и тот факт, что цена хранения 1 мегабайта информации существенно уменьшилась, а жесткие диски начали падать в стоимости. Поэтому на сегодняшний день поисковые системы принимают к индексации все слова без исключения. Индексируются также числа и цифры, буквенно-цифровые комбинации. Хотите немного поэкспериментировать, то задайте в поиске предлог «в» и вы узнаете сколько результатов вам выдаст поисковик.