С каких сайтов поисковым машинам выгодней начинать краулинг? Twitter или Facebook? Wikipedia или Mahalo? DMOZ или Yahoo Directory?
Сеть обновляется с невообразимой скоростью, добавляются новые страницы, удаляются старые, и слова льются рекой в блогах, новостных сайтах и на других страницах. В интернет-магазинах появляются новые товары и убираются старые. Запускаются новые сайты и истекают сроки регистрации старых доменов.
Поисковые машины стараются поддерживать свои индексы сети в настолько свежем состоянии, насколько это возможно, и потому рассылают своих пауков для обнаружения новых страниц, а также изменений и исчезновений ранее существовавших. В случае неудачи подобного процесса данные поисковых машин устареют и они будут отправлять людей на удаленные страницы и переписанный контент, а новые сайты просто не появятся в выдаче.
Когда поисковая машина начинает процесс краулинга сети, то отправной точкой служит сид-сайт, по ссылкам с которого паук проходит в первую очередь. Но как поисковые машины выбирают эти сид-сайты?
Сид-сайтами могут быть Open Directory Project или Yahoo directory, которые полны ссылок на сайты различной тематической направленности и географического расположения. Но поисковой машине не обязательно использовать именно их, и выбор может пасть на другие сайты.
Выбор сид-сайтов может иметь огромнейшее влияние на качество работы поисковой машины и широту освещения в ее индексе различных тем и географических территорий. Плохой выбор сид-сайтов может привести к плохим результатам поиска и увеличению количества спама в поисковой выдаче.
Патент Yahoo описывает как поисковая машина может выбирать сид-сайты для обнаружения адресов других страниц в сети.
Алгоритм выбора сидов на основе хостов для веб-краулеров
Изобретатель: Pavel Dmitriev
Принадлежит Yahoo
US Patent Application 20100114858
Опубликовано 6 мая 2010
Подано на рассмотрение 27 октября 2008
Отрывок
Процесс выбора сидов на основе хостов при принятии решения об использовании хоста в качестве сида учитывает факторы вроде качества, важности и потенциальной отдачи хостов.
Определяется подмножество множества хостов, включая некоторые но не все из множества хостов, соответственно показаниям важности хостов, соответственно ожидаемой отдачи новых документов для хостов, и соответственно предпочтений рынков к которым принадлежат хосты.
Как минимум один сид генерируется для каждого хоста из определенного подмножества хостов, где каждый сгенерированный как минимум один сид включает показатель документа в связанной базе данных документов. К сгенерированному сиду предоставляется доступ краулеру базы данных.
Регулярное посещение сид-сайтов может не привести к нахождению большого количества новых адресов. Ожидающий решения патент Yahoo позволяет взглянуть на то, как может производиться сравнение и выбор среди потенциальных сид-сайтов.
В патенте говорится, что процесс выбора сид-сайта может быть улучшен если выбор определенных сидов приводит к:
1. Обнаружению в процессе сравнительно большого количества не найденных ранее документов.
2. Краулингу сравнительно большего количества более важных хостов и документов и меньшего количества менее важных хостов и документов.
3. Желательному распределению по рынкам или категориям сайтов.
Кандидаты в сид-сайты могут оцениваться на основе измерений:
• Качества
• Важности
• Потенциальной отдачи хостов
Качество (или недостаток качества) сайта как потенциального сида может определяться по таким параметрам как:
• Количество исходящих ссылок,
• Спам-страницы или ссылки на спам-страницы,
• Порнографический контент.
В патенте говорится, что в качестве сидов выбираются сайты с высоким качеством, так как в случае начала краулинга на низкокачественном сайте велика вероятность получения в результате множества низкокачественных страниц.
Важность сид-сайта может определяться по значению рейтинга “доверия хосту” или другому параметру, связанному с хостом, что обычно показывает:
• Популярность
• Насколько хост заслуживает доверия
• Надежность
• Качество
• Другие характеристики хоста
Одним из показателей в данном случае может быть PageRank, но могут учитываться и другие факторы.
Потенциальная отдача документов, или потенциал обнаружения новых адресов с хоста, может подсчитываться на основе предыдущих проходов по этому хосту.
Также говорится, что обычно рынки распределены географически, так что процесс выбора сид-сайта, через который планируется получить много новых адресов, может также зависеть от географического расположения сайтов в различных странах и регионах.
При обработке сид-сайтов различных рынков могут использоваться различные подходы, так как некоторые рынки менее доминантны и могут содержать меньше хостов и меньше “важных” хостов. Это необходимо для того, чтобы доминирующие рынки не стали столь влиятельны, что вытеснили бы все сиды других рынков.
Выводы
Я не уверен, что видел ранее детальное обсуждение, будь то в патенте или статье, того, как какая-либо поисковая машина может подходить к выбору сид-сайтов для процесса краулинга.
В большинстве обсуждений процесса веб-краулинга в качестве примера точек входа и обнаружения новых страниц в сети используются Yahoo directory или DMOZ.
Из-за столь малого количества данных по теме довольно интересно было увидеть обсуждение некоторых критериев, которые поисковые машины могут использовать при определении сид-сайта отличного от упомянутых каталогов. Стала бы Wikipedia хорошим сид-сайтом? Возможно. А что насчет Twitter или Facebook? Тут я не так уверен.
Мы знаем, что поисковые машины сейчас особое ударение ставят на быстром получении и добавлении в индекс контента с сайтов вроде Twitter, чтобы предоставить нам ощущение получения наиболее свежей информации. А следуют ли они по ссылкам с этих сервисов для обнаружения новых страниц и контента, считая их сид-сайтами? И что если да?
|