Какие слова индексирует поисковый робот?

Как мы писали в предыдущих статьях, поисковый робот должен иметь представление о том, какие слова необходимо индексировать, а какие нет.
Что такое слово в понимании поискового робота?
К примеру, возьмем слово с дефисом – светло-серый или что-нибудь. Как воспримет его поисковый робот, как одно или как два? А числа он воспринимает, как слова или отправляет их в корзину, как мусор? Также возникает вопрос о словах на других языках, их оставлять или лучше переводить на русский? Также возникает вопрос о буквенно-численных комбинациях, адресах электронной почты, датах, интернет адресах и т.д.
Разработчики различных поисковых машин решают эти вопросы по-разному. Да нам и не удастся найти ответы на данный вопрос, так как алгоритмы поисковых машин изменяются раз в месяц, так как регулярно вводятся в эксплуатацию новые версии поисковых машин. Гораздо проще сделать проверку самостоятельно, если это необходимо.
Как это проверить?
Как мы уже сказали, вы можете самостоятельно проверить, как разработчики поисковых систем обрабатывают слова с дефисом, числа, числено-буквенные слова. Это сделать просто – введите в строку поиска интересующее слов и посмотрите, что выдаст вам поисковая система. Если поисковик выдаст вам результат и подсветит вам заданное слово, то вы сможете увидеть, в каком виде они сохраняются в индексе и выдаются в результате поиска.
Разделители в словах поисковых систем.
Как известно, поисковики не индексируют служебные символы, которые принято называть разделителями. Это пробелы, знаки препинания, символы, теги, которые составляют конструкцию Html языка. Попробуйте ввести в запрос поисковика () и вы убедитесь, что выдача поиска будет пуста. При этом поисковики уведомят вас о существующей ошибке. Ведь искать точку в сети интернета очень энергозатратно и этот знак препинания присутствует в любом тексте.
Что такое стоп-слова?
Существуют слова, которые поисковые системы не индексируют вовсе.
Как мы знаем, индекс представляет собой сжатые, хорошо упакованные, вывернутые на изнанку странички Интернета, о которых знает поисковая система. Поисковые роботы максимально хотят «познать» весь интернет, но для этого необходимы колоссальные ресурсы.
В былые времена поисковые системы старались экономить на объемах своих серверов и поэтому отбрасывали ненужную информацию и слова. Такие слова назывались – стоп-слова. Это различные предлоги, союзы, числа, сокращения и т.д. также поисковики отбрасывали и цифры.
Но дальше выяснилось, что пользователи очень часто используют данные слова в своих запросах и разработчики поисковых систем решили хранить их в индексе. Это очень важно при поиске точных цитат, которые включают служебные слова. К этому решению подтолкнул и тот факт, что цена хранения 1 мегабайта информации существенно уменьшилась, а жесткие диски начали падать в стоимости. Поэтому на сегодняшний день поисковые системы принимают к индексации все слова без исключения. Индексируются также числа и цифры, буквенно-цифровые комбинации. Хотите немного поэкспериментировать, то задайте в поиске предлог «в» и вы узнаете сколько результатов вам выдаст поисковик.
-
Как увеличить посещаемость сайта Бесплатно ускоряем индексацию сайтов Что такое индекс поисковой машины? Некоммерческие сайты. SEO WordPress - оптимизация ссылок Панасотовая связь. Что такое root? Продвижение сайта в ТОП самостоятельно Нюансы текстового контента. Методика подбора ключевых слов для поисковиков тИЦ (Тематический индекс цитируемости) Адреса, влияющие на индексацию сайта. Типология поисковых запросов. Контекстная реклама VS поисковая оптимизация Уязвимые места Android Обзор программ для мониторинга API-вызовов. Какой бывает контент? Выслеживаем шпионские программы в Windows Реклама в соцсетях Известные хакеры нашего времени. Деннис Ритчи.
[21.12.2011] | |
Определение главного зеркала сайта с помощью панели Яндекс.Вебмастер (4) |
[21.12.2011] | |
UXcamp Dnepropetrovsk 2011 (0) |
[17.01.2012] | |
Компания с нуля (0) |
[17.01.2012] | |
Дюжина ошибок сисадмина (0) |
[23.01.2012] | |
Самостоятельная раскрутка и продвижение сайтов (5) |
1