Сайт, продвижение, создание, безопасность -

Полная новость

Что такое индекс поисковой машины?

22.12.2011, 16:36

Добавлена в: Поисковые системи от vova74

комментариев (2)

Индекс – это элемент, который часто встречается в поисковых системах. Многие пользователи сети до сих пор не имеют правильного представления, что это такое. Хотя ничего сложного в этом понятии нет, и это понятие существует много веков. Более того, каждый из нас сталкивался с индексом в виде предметного указателя в книгах, и он существовал задолго до появления Интернета.

В данной статье мы решили рассказать вам о процессе индексирования текста, расположенного на ваших сайтах, а также об устройстве индекса.

Конверсия чистого текста поисковыми роботами.

Перед тем как приступить к работе с текстом поисковый робот производит очистку интернет страницы от ненужного нетекстового «мусора» - графики, Html разметки (тегов), и других элементов. В результате поисковый «паук» получает чистый текст, с которым он впоследствии будет работать.

Как поисковый робот выбирает слова?

В своей работе с чистым текстом поисковый робот выбирает все слова, чтобы потом распределить их по алфавиту. Поэтому машина должна иметь представление о том, что является словом. В поисковых машинах слово – это последовательность букв (определенного алфавита (по языкам), числа, буквенно-численная последовательность, слова, в которых присутствует дефис и т.д. Также поисковый робот должен обходить те элементы, которые не считаются словом – знаки препинания, пробелы и т.д. В дальнейших статьях мы расскажем об этом более подробно.

На сегодняшний день каждая поисковая система имеет собственное представление о том, что является словом, и что нет. К сожалению стандарта не существует.

Поэтому поисковые роботы выбирают все, что они считают словами и помещают их в отдельный список.

Обработка текста поисковиками по лингвистике.

Большинство поисковых роботов не заносят в список слова, в том виде, в котором они представлены в тексте.

Для обработки слов каждая поисковая система использует свой алгоритм лингвистической обработки слов, то есть они обрабатывают слова и приводят их к первозданным грамматическим формам или, как принято называть, к основам, то есть к именительному падежу. Такой механизм в поисковых системах называется машинная морфология. Это предусмотрено для экономии места в индексе, а также для более точного подбора результатов в поиске.

Существует немало мифов и доводов, что касается машинной морфологии в поисковых системах и мы постараемся вам рассказать о них отдельно в других статьях. Основное, что мы хотим вам сейчас сказать, это то, что поисковые системы используют морфологию для замены существующих в тексте слов их основами в индексе.

Формирование индекса в поисковых системах.

Все слова, которые собрал поисковый робот в текстах поступают в индекс – специальный словарь поисковой системы, в котором слова распределены в алфавитном порядке, а каждая «основа» имеет идентификатор (ссылку на страницу с которой она взята). Идентификация производится в виде нумерации страниц и места нахождения этого слова (номер вхождения). Для удобства поиска все слова расположены в алфавитном порядке.

Вот примерная структура индексной записи:

ОСНОВА – номер страницы+номер вхождения – номер страницы+номер вхождения и т.д.

Разработчики поисковых систем постоянно модернизирую систему поиска и усложняют ее, что приводит к экономии места и увеличению скорости поиска результатов. Например, вместо основ в индексе могут хранится только их номера, так как это сокращает объемы, а сами основы хранятся в отдельной директории. Номера страниц прописываются один раз для определенной основы и для всего текста страницы. Далее индекс упаковывается, для экономии места, а потом архив дополнительно индексируется. Это необходимо для ускорения доступа.

Примерно так выглядит общая структура индексации всех поисковых систем.

Что такое координатный индекс?

Первые поисковые системы не записывали месторасположение слова на странице и в индекс заносились только страницы, на которых расположено данное слово. Это было необходимо для экономии места и быстрого доступа к индексу.

Но такой подход не мог гарантировать высокого уровня релевантности страницы во время поиска. Ведь поисковая система не могло качественно распознать краткое вложение слов в запросе, когда они находятся рядом в строке запроса. Также поисковая система тех времен не могла найти слова разбросанные на расстоянии в одном тексте.

Поэтому краткие запросы имели в поисковых системах низкий уровень релевантности. На таких принципах работал поисковик Рамблер вплоть до 1999 года.

С ростом кратких запросов и по мере развития поисковых систем, многие поисковики решили перейти на индекс, который записывает координаты слова на странице. Такой индекс называется координатным.

Такой индекс позволяет поисковой системе более тщательно взвешивать релевантность страницы и показывать оптимальную цитату, взятую из текста страницы.

Таким образом мы видим, что индекс представляет собой «вывернутый» на изнанку Интернет, то есть все страницы опубликованные в сети. Если в интернете мы загружаем страницу и переходим к чтению текста, то поисковая система идет от слова к странице, на которой расположен текст. Поэтому индекс был назван инвертируемым или инвертным, что означает «перевернутый, обращенный».

Но где же берется цитата в выдаче поисковой системы? Ведь поисковый робот не запоминает порядок слов на странице текста. Может поисковая система восстанавливает текст по данному «вывернутому» индексу?

Нет конечно, хотя технически это возможно. Для экономии поисковик хранит второй вариант индекса, который имеет название прямой. Этот индекс по сути является сжатой копией всего Интернета.

Что такое прямой индекс?

Для того чтобы пользователь смог увидеть в результате поиска цитаты текста поисковые системы хранят все странички интернета в сжатом виде. Тогда получается, что поисковые системы на своих серверах хранят информацию со всего Интернета, которая выкачивается туда поисковым «пауком». Например, Google хранит текстовую копию всей сети (той части, где побывал его «паук»), а поисковая система Яндекс все русские странички сети.

Для хранения текстовых файлов инверсный индекс не годится, так как его работа будет затянута в обратной конвертации текста из индекса. Оптимальным вариантом является организация второго индекса, который народ прозвал прямым. Это сжатые копии текстов страниц, которые робот скачал в систему поисковика. Такие тексты очищены от различного мусора и для экономии объема упакованы в архивы.

Присутствие таких текстовых копий позволяет поисковым машинам формировать цитаты в результатах выдачи поисковой системы. Также существует возможность восстановить текст, в случае, если страница на момент поиска удалена или недоступна. В Яндексе например есть ссылка – «Сохраненная копия», а Google предлагает воспользоваться ссылкой – «Сохранено в кэш».

Многие поисковые системы хранят текстовые страницы без графики и лишнего «мусора». Яндекс с 2006 года предлагает полностью сохраненную копию текстовой страницы. Google также предлагает странички в первозданном виде и даже позволяет пользователю увидеть дизайн оформления страницы, не переходя по ссылке.