Какие слова индексирует поисковый робот?

Как мы писали в предыдущих статьях, поисковый робот должен иметь представление о том, какие слова необходимо индексировать, а какие нет.
Что такое слово в понимании поискового робота?
К примеру, возьмем слово с дефисом – светло-серый или что-нибудь. Как воспримет его поисковый робот, как одно или как два? А числа он воспринимает, как слова или отправляет их в корзину, как мусор? Также возникает вопрос о словах на других языках, их оставлять или лучше переводить на русский? Также возникает вопрос о буквенно-численных комбинациях, адресах электронной почты, датах, интернет адресах и т.д.
Разработчики различных поисковых машин решают эти вопросы по-разному. Да нам и не удастся найти ответы на данный вопрос, так как алгоритмы поисковых машин изменяются раз в месяц, так как регулярно вводятся в эксплуатацию новые версии поисковых машин. Гораздо проще сделать проверку самостоятельно, если это необходимо.
Как это проверить?
Как мы уже сказали, вы можете самостоятельно проверить, как разработчики поисковых систем обрабатывают слова с дефисом, числа, числено-буквенные слова. Это сделать просто – введите в строку поиска интересующее слов и посмотрите, что выдаст вам поисковая система. Если поисковик выдаст вам результат и подсветит вам заданное слово, то вы сможете увидеть, в каком виде они сохраняются в индексе и выдаются в результате поиска.
Разделители в словах поисковых систем.
Как известно, поисковики не индексируют служебные символы, которые принято называть разделителями. Это пробелы, знаки препинания, символы, теги, которые составляют конструкцию Html языка. Попробуйте ввести в запрос поисковика () и вы убедитесь, что выдача поиска будет пуста. При этом поисковики уведомят вас о существующей ошибке. Ведь искать точку в сети интернета очень энергозатратно и этот знак препинания присутствует в любом тексте.
Что такое стоп-слова?
Существуют слова, которые поисковые системы не индексируют вовсе.
Как мы знаем, индекс представляет собой сжатые, хорошо упакованные, вывернутые на изнанку странички Интернета, о которых знает поисковая система. Поисковые роботы максимально хотят «познать» весь интернет, но для этого необходимы колоссальные ресурсы.
В былые времена поисковые системы старались экономить на объемах своих серверов и поэтому отбрасывали ненужную информацию и слова. Такие слова назывались – стоп-слова. Это различные предлоги, союзы, числа, сокращения и т.д. также поисковики отбрасывали и цифры.
Но дальше выяснилось, что пользователи очень часто используют данные слова в своих запросах и разработчики поисковых систем решили хранить их в индексе. Это очень важно при поиске точных цитат, которые включают служебные слова. К этому решению подтолкнул и тот факт, что цена хранения 1 мегабайта информации существенно уменьшилась, а жесткие диски начали падать в стоимости. Поэтому на сегодняшний день поисковые системы принимают к индексации все слова без исключения. Индексируются также числа и цифры, буквенно-цифровые комбинации. Хотите немного поэкспериментировать, то задайте в поиске предлог «в» и вы узнаете сколько результатов вам выдаст поисковик.
-
Как сделать качественный сайт самостоятельно? Mail.ru перегоняет Яндекс Спрос на facebook-почту. Реклама в соцсетях Известные хакеры нашего времени. Деннис Ритчи. Предмет, рисующий траекторию (скрипты) Модуляция энд демодуляция. Просування сайту без передоплати SEO оптимизация тегов - Title Детально про контекстну рекламу Розкручування сайту в пошукових системах - практична конференция Что нам дает качество сайта? Бизнес в интернете. Панасотовая связь. Як зробити правильну SEO-статью? тИЦ (Тематический индекс цитируемости) SEO -копирайтинг? Как работают поисковики? Какой бывает контент? PHP в Web-приложениях.
[21.12.2011] | |
Определение главного зеркала сайта с помощью панели Яндекс.Вебмастер (4) |
[21.12.2011] | |
UXcamp Dnepropetrovsk 2011 (0) |
[17.01.2012] | |
Компания с нуля (0) |
[17.01.2012] | |
Дюжина ошибок сисадмина (0) |
[23.01.2012] | |
Самостоятельная раскрутка и продвижение сайтов (5) |
1