С каких сайтов поисковым машинам выгодней начинать краулинг? Twitter
или Facebook? Wikipedia или Mahalo? DMOZ или Yahoo Directory?
Сеть обновляется с невообразимой скоростью, добавляются новые
страницы, удаляются старые, и слова льются рекой в блогах, новостных
сайтах и на других страницах. В интернет-магазинах появляются новые
товары и убираются старые. Запускаются новые сайты и истекают сроки
регистрации старых доменов.
Поисковые машины стараются поддерживать свои индексы сети в
настолько свежем состоянии, насколько это возможно, и потому рассылают
своих пауков для обнаружения новых страниц, а также изменений и
исчезновений ранее существовавших. В случае неудачи подобного процесса
данные поисковых машин устареют и они будут отправлять людей на
удаленные страницы и переписанный контент, а новые сайты просто не
появятся в выдаче.
Когда поисковая машина начинает процесс краулинга сети, то отправной
точкой служит сид-сайт, по ссылкам с которого паук проходит в первую
очередь. Но как поисковые машины выбирают эти сид-сайты?
Сид-сайтами могут быть Open Directory Project или Yahoo directory,
которые полны ссылок на сайты различной тематической направленности и
географического расположения. Но поисковой машине не обязательно
использовать именно их, и выбор может пасть на другие сайты.
Выбор сид-сайтов может иметь огромнейшее влияние на качество работы
поисковой машины и широту освещения в ее индексе различных тем и
географических территорий. Плохой выбор сид-сайтов может привести к
плохим результатам поиска и увеличению количества спама в поисковой
выдаче.
Патент Yahoo описывает как поисковая машина может выбирать сид-сайты для обнаружения адресов других страниц в сети.
Алгоритм выбора сидов на основе хостов для веб-краулеров
Изобретатель: Pavel Dmitriev
Принадлежит Yahoo
US Patent Application 20100114858
Опубликовано 6 мая 2010
Подано на рассмотрение 27 октября 2008
Отрывок
Процесс выбора сидов на основе хостов при принятии решения об
использовании хоста в качестве сида учитывает факторы вроде качества,
важности и потенциальной отдачи хостов.
Определяется подмножество множества хостов, включая некоторые но не
все из множества хостов, соответственно показаниям важности хостов,
соответственно ожидаемой отдачи новых документов для хостов, и
соответственно предпочтений рынков к которым принадлежат хосты.
Как минимум один сид генерируется для каждого хоста из определенного
подмножества хостов, где каждый сгенерированный как минимум один сид
включает показатель документа в связанной базе данных документов. К
сгенерированному сиду предоставляется доступ краулеру базы данных.
Регулярное посещение сид-сайтов может не привести к нахождению
большого количества новых адресов. Ожидающий решения патент Yahoo
позволяет взглянуть на то, как может производиться сравнение и выбор
среди потенциальных сид-сайтов.
В патенте говорится, что процесс выбора сид-сайта может быть улучшен если выбор определенных сидов приводит к:
1. Обнаружению в процессе сравнительно большого количества не найденных ранее документов.
2. Краулингу сравнительно большего количества более важных хостов и
документов и меньшего количества менее важных хостов и документов.
3. Желательному распределению по рынкам или категориям сайтов.
Кандидаты в сид-сайты могут оцениваться на основе измерений:
• Качества
• Важности
• Потенциальной отдачи хостов
Качество (или недостаток качества) сайта как потенциального сида может определяться по таким параметрам как:
• Количество исходящих ссылок,
• Спам-страницы или ссылки на спам-страницы,
• Порнографический контент.
В патенте говорится, что в качестве сидов выбираются сайты с высоким
качеством, так как в случае начала краулинга на низкокачественном сайте
велика вероятность получения в результате множества низкокачественных
страниц.
Важность сид-сайта может определяться по значению рейтинга "доверия
хосту” или другому параметру, связанному с хостом, что обычно
показывает:
• Популярность
• Насколько хост заслуживает доверия
• Надежность
• Качество
• Другие характеристики хоста
Одним из показателей в данном случае может быть PageRank, но могут учитываться и другие факторы.
Потенциальная отдача документов, или потенциал обнаружения новых
адресов с хоста, может подсчитываться на основе предыдущих проходов по
этому хосту.
Также говорится, что обычно рынки распределены географически, так
что процесс выбора сид-сайта, через который планируется получить много
новых адресов, может также зависеть от географического расположения
сайтов в различных странах и регионах.
При обработке сид-сайтов различных рынков могут использоваться
различные подходы, так как некоторые рынки менее доминантны и могут
содержать меньше хостов и меньше "важных” хостов. Это необходимо для
того, чтобы доминирующие рынки не стали столь влиятельны, что вытеснили
бы все сиды других рынков.
Выводы
Я не уверен, что видел ранее детальное обсуждение, будь то в патенте
или статье, того, как какая-либо поисковая машина может подходить к
выбору сид-сайтов для процесса краулинга.
В большинстве обсуждений процесса веб-краулинга в качестве примера
точек входа и обнаружения новых страниц в сети используются Yahoo
directory или DMOZ.
Из-за столь малого количества данных по теме довольно интересно было
увидеть обсуждение некоторых критериев, которые поисковые машины могут
использовать при определении сид-сайта отличного от упомянутых
каталогов. Стала бы Wikipedia хорошим сид-сайтом? Возможно. А что
насчет Twitter или Facebook? Тут я не так уверен.
Мы знаем, что поисковые машины сейчас особое ударение ставят на
быстром получении и добавлении в индекс контента с сайтов вроде
Twitter, чтобы предоставить нам ощущение получения наиболее свежей
информации. А следуют ли они по ссылкам с этих сервисов для обнаружения
новых страниц и контента, считая их сид-сайтами? И что если да?
|