Как работают поисковики?
Многим будет интересно найти ответ на данный вопрос и поэтому мы решили написать статью про работу поисковых машин. Что такое поисковая машина? Это специальная программа, работа которой направлена на составление и хранение предметного указателя в Интернете. Также она способна обрабатывать поисковые запросы и выдавать нужную информацию за короткий промежуток времени. Поиск в поисковиках основан на задании ключевых слов и фраз. Для того, чтобы облегчить себе работу и ускорить процесс, программа формирует индекс.
Давайте разберемся, из чего состоит процесс составления индекса и как работает поиск?
Как собираются адресные ссылки в Интернете?
Для того чтобы составить индекс программа должна определить, какие страницы ей необходимы. Для этого формируется список страниц, который представлен в виде набора адресных ссылок, по которым будет составляться будущий индекс.
Можно только представить насколько разбросаны страницы в Интернете, что порождает хаос. И поэтому поисковой машине, чтобы навести порядок в этой неразберихе, необходимо с чего-то начать. Обычно создатели поисковых машин загружают в нее определенное количество адресов сайтов, например, взятый из какого-то каталога. Далее поисковый робот начинает сбор гипертекстовых ссылок с данных сайтов, на которых он находит ссылки и на другие сайты в сети. Так пополняется ссылочный список в поисковой машине. Список постоянно растет и пополняется новыми адресами. На сегодняшний день поисковые роботы способны посещать и индексировать миллиарды страниц в Интернете.
Очень важно отметить, что страницы, на которые никто не ссылается, могут долго ждать индексации и вообще не попасть в индекс поисковых систем. Дело в том, что на данном этапе работы поисковых машин, разработчики не в состоянии вручную добавить ссылки в начальный список адресов, так как о них ничего не известно. А по ссылкам поисковый робот к ним будет добираться очень долго и нудно, так как на данный ресурс в сети имеется малое количество ссылок. Возможно, поисковый робот и посетит ваши странички, но это произойдет не сразу.
Странички, на которые не ведет из сети ни одна из ссылок, могут не попасть в индекс вообще. Для того чтобы этого не произошло необходимо приложить некоторые усилия.
Конечно, некоторые хозяева сайтов могут произвести добавление ссылок на свой сайт вручную при помощи специальных генерирующих инструментов, которые имеются в арсенале многих поисковых систем.
Как поисковый робот выкачивает интернет страницы с сайтов?
Для того чтобы составить индекс робот должен поработать с текстом страницы, на которую ведет определенная ссылка.
Для этого поисковик выкачивает текст с вашей страницы, то есть она производит запрос на данную страницу сайта. Выкачивание страниц производится специальным модулем, который называется поисковый «паук». Также этот модуль принято называть поисковым роботом. Поисковый робот обходит страницы сайтов и выкачивает гигантские объемы информации с данных страниц, а также формирует список ссылок для дальнейшей работы. Этот выкачанный текст принято называть «сырым», так как он хранится на дисках серверов поисковых систем и только потом передается на индексацию.
Как выполняется индексация сайтов?
Для составления индекса индексный робот производит выборку всех слов с текста и располагает их в алфавитном порядке с нумерацией страниц и определенной служебной информацией о каждой из страниц.
Для этого индексный робот пробегает по всем выкачанным поисковым роботом страницам и производит нумерацию всех страниц. Это необходимо для того, чтобы не запутаться в таком количестве информации и быстро находить нужные страницы. Кроме этого робот производит удаление ненужной информации, так называемого «мусора», к примеру, ему не нужна разметка MTHL. После этого из текста производится извлечение слов и помещение их в индекс. При этом слова снабжаются информацией о страницах, с которых они «вынуты».
Про устройство индекса мы расскажем вам в других статьях.
Поиск в Интернете.
Все то, что мы описали выше не заметно для обычного пользователя в Интернете. Все эти операции и процессы выполняют поисковые машины (роботы). А вот сам поиск – это та составляющая Интернета, которую наблюдает любой пользователь. Каждый пользователь интернета имеет возможность воспользоваться поисковой системой, в которую он вводит свой запрос (слово или словосочетание). Поисковая система же выдает целый ряд результатов и ссылок на данный запрос.
Многие из вас спросят, а как это работает? Когда пользователь вводит запрос в строку поиска, то поисковая машина обращается к сформированному индексу, в котором она находит записи о заданном запросе. При этом робот извлекает целый список страниц, которые имеют отношение к поставленному запросу (слову или словосочетанию) и выводит на дисплей пользователя результаты поиска. Это и является список сайтов или страниц, на которых размещена нужная информация.
В списке результатов мы видим заголовок страницы (обычно это название – титул), дату создания страницы или материала, ее ссылку или адрес, а также краткую цитату, выбранную из текста, в которой подсвечены ключевые слова поискового запроса. В дальнейших статьях мы расскажем вам, где берет поисковый робот цитаты из текста и как он их формирует.
Если поисковый запрос содержит несколько слов, то поисковый робот методом сравнения перебирает список ссылок на страницы для определенных слов и выбирает только те страницы, номера которых дублируются, то есть имеются в каждом списке страниц для определенного слова. В результате поиска выдаются только те страницы, в которых имеются все слова, введенные в строку поиска.
В данном разделе мы изложили только суть механизма поисковой системы по индексу, то есть ее основной принцип работы, но в реальной жизни разработчики поисковых систем используют различные методики и ухищрения (в дальнейших статьях мы расскажем о некоторых из них).
Качество поисковых систем обусловлено результативностью выдачи страниц, которые относятся к поисковому запросу. Такие страницы называются «правильными» и основным показателем их качества является релевантность. Релевантность страницы – это уместность и отношение к делу.
Чтобы полностью разобраться в релевантности страниц, выданных поисковыми системами, необходимо знать, как устроен индекс поисковой машины.
-
SEO WordPress - оптимизация заголовков Накрутка групп и страничек в контакте. Типология поисковых запросов. Что нам дает качество сайта? Баг в PGP 7.1 SEO -копирайтинг? Фрикнуть телефонную карточку. Как выбрать партнерку? SEO WordPress - оптимизация ссылок Раскручиваем сайт в поисковых системах Как продавать информацию? Власти Украины закрыли крупный файлообменник Ex.ua Стратегия низкобюджетного продвижения сайтов в поисковиках Пользователь = запрос. Поиск и поисковые машины. Продвижение сайта в ТОП самостоятельно Yazzle - программа SEO анализа и продвижения сайтов Интернет сервис SeoBudget Яндекс вебмастер - инструмент анализа для SEO Реклама в соцсетях
[21.12.2011] | |
Определение главного зеркала сайта с помощью панели Яндекс.Вебмастер (25) |
[21.12.2011] | |
UXcamp Dnepropetrovsk 2011 (0) |
[17.01.2012] | |
Дюжина ошибок сисадмина (0) |
[17.01.2012] | |
Компания с нуля (0) |
[22.01.2012] | |
Создаем сайт на MotoCMS (1) |
Комментариев нет