Как работают поисковые машины? Из каких компонентов состоят? Где они ищут нужную пользователю информацию? В очередном выпуске рассылки «Тайны создания и продвижения сайтов в Интернете» я постараюсь ответить на эти и другие вопросы, касающиеся принципов работы и устройства поисковых машин.
Как работают поисковики
Интернет не стоит на месте. С каждым днем увеличивается не только количество веб-ресурсов и опубликованных на них веб-страниц, но и число пользователей сети, которые хотят быстро и просто получать ту информацию, которая им нужна в данный момент времени. Поэтому основная задача любой поисковой системы – оперативно предоставить точный (релевантный) ответ на запрос пользователя. Рассмотрим, как осуществляется поиск, анализ, сбор и предоставление нужной информации поисковой системой.
Некоторые пользователи полагают, что поисковик, получив определенный запрос, начинает «путешествовать» по глобальной сети в поисках нужной информации. На самом деле этот процесс выглядит несколько иначе. Получив от пользователя запрос, поисковик анализирует информацию из своих баз данных. Как они формируются?
Из чего состоят
У любой поисковой машины есть так называемая программа-паук («спайдер», «spider», «робот-паук» – названия разные, но суть от этого не меняется). Этот «паук» обходит нужные интернет-страницы и скачивает их в собственные систематизированные базы данных. Робот может находиться на разных серверах и при этом выполнять разные многоплановые задачи. У большинства спайдеров отправной точкой их работы являются самые крупные и самые известные сервера, а также очень популярные веб-страницы. Паук, изучая такой веб-сайт, фиксирует и скачивает все найденные страницы и продолжает свое движение далее, по ссылкам на другие интернет-порталы. Чтобы более наглядно понять и представить, чем занимается «паук» и как он это делает, вы можете в своем браузере загрузить любой сайт из Интернета. Процесс загрузки любой веб-страницы и процесс работы «паука» идентичны по своей сути.
Другой программой, помогающей «пауку», является программа «сrawler» (червяк или путешествующий паук). Она находит на изучаемой веб-странице все ссылки и определяет куда дальше должен пойти главный «спайдер».
Индексатор («indexer») – еще одна программа, помогающая поисковым системам «переваривать» существующие сайты. Эта программа «потрошит» веб-страницы на составные части, анализирует и фиксирует их в базах данных. Таким образом изучаются заголовки страниц и документов, ссылки, сам текст, выделенные разным шрифтом текстовые части и т.д.
Все то, что поисковая система обнаружила, собрала и проанализировала, помещается в Базы Данных («Database») поисковика. Для хранения и обработки информации, размещенной в базе данных, требуются огромные энергоресурсы и мощности, коими обладают все более-менее известные поисковые системы. Ведь от этого зависит скорость предоставления ответов конечным пользователям.
Ну а то, с чем работает пользователь Интернета, называется Системой Выдачи Результатов Поиска («Search Engine Results Engine»). Именно она получает запрос от пользователя и решает, какие страницы в ответ на этот запрос стоит показывать, а какие – нет.
Основные характеристики
Главные параметры, по которым оцениваются поисковые системы:
1)Полнота поиска
Это величина определяется отношением числа найденных релевантных (подходящих) документов к общему количеству подходящих под запрос документов, расположенных в сети Интернет. Отсюда вытекает вывод о том, что чем полнее поиск, тем больше вероятность нахождения нужного документа пользователем.
2)Точность поиска
Другими словами, насколько найденные документы соответствуют запросу или запросам пользователя. Чем выше точность, тем меньше времени тратит человек на поиск нужной информации.
3) Скорость поиска
По некоторым данным, самые популярные поисковики получают от 60 до 100 запросов в секунду (!). При таких невероятных нагрузках поисковая машина должна не просто быстро, а мгновенно быстро обрабатывать запросы и предоставлять необходимую информацию пользователям. Чтобы их не «задерживать» и оперативно переходить к выполнению следующих запросов.
4) Актуальность предоставленной информации
Этот параметр характеризуется временем, которое проходит с момента размещения документа в Интернете, до момента размещения этого документа в базе данных поисковика. Естественно, что чем меньше это время, тем актуальней получает информацию пользователь, делающий запрос.
5)Наглядность предоставляемой информации
Наглядность – это то, что видит пользователь в результатах выдачи по своему запросу. Этот вид должен быть удобным для человека и максимально информативным. Ведь не секрет, что зачастую мы сами проводим дополнительный поиск среди предоставленных поисковиком документов, поэтому поисковые машины стараются облегчить эту «работу» своим пользователям.
|