Какие слова индексирует поисковый робот?
Как мы писали в предыдущих статьях, поисковый робот должен иметь представление о том, какие слова необходимо индексировать, а какие нет.
Что такое слово в понимании поискового робота?
К примеру, возьмем слово с дефисом – светло-серый или что-нибудь. Как воспримет его поисковый робот, как одно или как два? А числа он воспринимает, как слова или отправляет их в корзину, как мусор? Также возникает вопрос о словах на других языках, их оставлять или лучше переводить на русский? Также возникает вопрос о буквенно-численных комбинациях, адресах электронной почты, датах, интернет адресах и т.д.
Разработчики различных поисковых машин решают эти вопросы по-разному. Да нам и не удастся найти ответы на данный вопрос, так как алгоритмы поисковых машин изменяются раз в месяц, так как регулярно вводятся в эксплуатацию новые версии поисковых машин. Гораздо проще сделать проверку самостоятельно, если это необходимо.
Как это проверить?
Как мы уже сказали, вы можете самостоятельно проверить, как разработчики поисковых систем обрабатывают слова с дефисом, числа, числено-буквенные слова. Это сделать просто – введите в строку поиска интересующее слов и посмотрите, что выдаст вам поисковая система. Если поисковик выдаст вам результат и подсветит вам заданное слово, то вы сможете увидеть, в каком виде они сохраняются в индексе и выдаются в результате поиска.
Разделители в словах поисковых систем.
Как известно, поисковики не индексируют служебные символы, которые принято называть разделителями. Это пробелы, знаки препинания, символы, теги, которые составляют конструкцию Html языка. Попробуйте ввести в запрос поисковика () и вы убедитесь, что выдача поиска будет пуста. При этом поисковики уведомят вас о существующей ошибке. Ведь искать точку в сети интернета очень энергозатратно и этот знак препинания присутствует в любом тексте.
Что такое стоп-слова?
Существуют слова, которые поисковые системы не индексируют вовсе.
Как мы знаем, индекс представляет собой сжатые, хорошо упакованные, вывернутые на изнанку странички Интернета, о которых знает поисковая система. Поисковые роботы максимально хотят «познать» весь интернет, но для этого необходимы колоссальные ресурсы.
В былые времена поисковые системы старались экономить на объемах своих серверов и поэтому отбрасывали ненужную информацию и слова. Такие слова назывались – стоп-слова. Это различные предлоги, союзы, числа, сокращения и т.д. также поисковики отбрасывали и цифры.
Но дальше выяснилось, что пользователи очень часто используют данные слова в своих запросах и разработчики поисковых систем решили хранить их в индексе. Это очень важно при поиске точных цитат, которые включают служебные слова. К этому решению подтолкнул и тот факт, что цена хранения 1 мегабайта информации существенно уменьшилась, а жесткие диски начали падать в стоимости. Поэтому на сегодняшний день поисковые системы принимают к индексации все слова без исключения. Индексируются также числа и цифры, буквенно-цифровые комбинации. Хотите немного поэкспериментировать, то задайте в поиске предлог «в» и вы узнаете сколько результатов вам выдаст поисковик.
-
Бизнес в интернете. Что такое PHP? Как выбрать партнерку? Накрутка групп и страничек в контакте. Взлом Windows Phone 7 Kinect попал в продажу уже взломанным. Партнерки или торговля чужими товарами. SEO WordPress - оптимизация заголовков Социальные сети России. Алеха Ранк - Опис системи Адреса, влияющие на индексацию сайта. Выслеживаем шпионские программы в Windows Как часто поисковый бот обходит Интернет? Обзор модулей Drupal, которые помогают оптимизировать сайт. Методика подбора ключевых слов для поисковиков Как заработать на партнерках? Хороший текст для сайта. Просування сайту - аудит Обход локскрина на Ipfone Что такое скорость сайта?
[21.12.2011] | |
Определение главного зеркала сайта с помощью панели Яндекс.Вебмастер (25) |
[21.12.2011] | |
UXcamp Dnepropetrovsk 2011 (0) |
[17.01.2012] | |
Дюжина ошибок сисадмина (0) |
[17.01.2012] | |
Компания с нуля (0) |
[22.01.2012] | |
Создаем сайт на MotoCMS (1) |
1