[Image] Пятница, 29.03.2024, 13:06 [Image]
SEO, технологии, игры, IT новости
[Image] Главная Регистрация Вход [Image]
[Image] Приветствую Вас, Гость · RSS [Image]
Меню сайта

Форма входа
Логин:
Пароль:
 Блог
Главная » 2010 » Май » 20 » Как может определяться сид-сайт для пауков поисковых машин?
11:11
Как может определяться сид-сайт для пауков поисковых машин?

С каких сайтов поисковым машинам выгодней начинать краулинг? Twitter или Facebook? Wikipedia или Mahalo? DMOZ или Yahoo Directory?

Сеть обновляется с невообразимой скоростью, добавляются новые страницы, удаляются старые, и слова льются рекой в блогах, новостных сайтах и на других страницах. В интернет-магазинах появляются новые товары и убираются старые. Запускаются новые сайты и истекают сроки регистрации старых доменов.

Поисковые машины стараются поддерживать свои индексы сети в настолько свежем состоянии, насколько это возможно, и потому рассылают своих пауков для обнаружения новых страниц, а также изменений и исчезновений ранее существовавших. В случае неудачи подобного процесса данные поисковых машин устареют и они будут отправлять людей на удаленные страницы и переписанный контент, а новые сайты просто не появятся в выдаче.

Когда поисковая машина начинает процесс краулинга сети, то отправной точкой служит сид-сайт, по ссылкам с которого паук проходит в первую очередь. Но как поисковые машины выбирают эти сид-сайты?

Сид-сайтами могут быть Open Directory Project или Yahoo directory, которые полны ссылок на сайты различной тематической направленности и географического расположения. Но поисковой машине не обязательно использовать именно их, и выбор может пасть на другие сайты.

Выбор сид-сайтов может иметь огромнейшее влияние на качество работы поисковой машины и широту освещения в ее индексе различных тем и географических территорий. Плохой выбор сид-сайтов может привести к плохим результатам поиска и увеличению количества спама в поисковой выдаче.

Патент Yahoo описывает как поисковая машина может выбирать сид-сайты для обнаружения адресов других страниц в сети.
Алгоритм выбора сидов на основе хостов для веб-краулеров
Изобретатель: Pavel Dmitriev
Принадлежит Yahoo
US Patent Application 20100114858
Опубликовано 6 мая 2010
Подано на рассмотрение 27 октября 2008

Отрывок
Процесс выбора сидов на основе хостов при принятии решения об использовании хоста в качестве сида учитывает факторы вроде качества, важности и потенциальной отдачи хостов.

Определяется подмножество множества хостов, включая некоторые но не все из множества хостов, соответственно показаниям важности хостов, соответственно ожидаемой отдачи новых документов для хостов, и соответственно предпочтений рынков к которым принадлежат хосты.

Как минимум один сид генерируется для каждого хоста из определенного подмножества хостов, где каждый сгенерированный как минимум один сид включает показатель документа в связанной базе данных документов. К сгенерированному сиду предоставляется доступ краулеру базы данных.

Регулярное посещение сид-сайтов может не привести к нахождению большого количества новых адресов. Ожидающий решения патент Yahoo позволяет взглянуть на то, как может производиться сравнение и выбор среди потенциальных сид-сайтов.

В патенте говорится, что процесс выбора сид-сайта может быть улучшен если выбор определенных сидов приводит к:
1. Обнаружению в процессе сравнительно большого количества не найденных ранее документов.
2. Краулингу сравнительно большего количества более важных хостов и документов и меньшего количества менее важных хостов и документов.
3. Желательному распределению по рынкам или категориям сайтов.

Кандидаты в сид-сайты могут оцениваться на основе измерений:
• Качества
• Важности
• Потенциальной отдачи хостов

Качество (или недостаток качества) сайта как потенциального сида может определяться по таким параметрам как:
• Количество исходящих ссылок,
• Спам-страницы или ссылки на спам-страницы,
• Порнографический контент.

В патенте говорится, что в качестве сидов выбираются сайты с высоким качеством, так как в случае начала краулинга на низкокачественном сайте велика вероятность получения в результате множества низкокачественных страниц.

Важность сид-сайта может определяться по значению рейтинга "доверия хосту” или другому параметру, связанному с хостом, что обычно показывает:
• Популярность
• Насколько хост заслуживает доверия
• Надежность
• Качество
• Другие характеристики хоста

Одним из показателей в данном случае может быть PageRank, но могут учитываться и другие факторы.

Потенциальная отдача документов, или потенциал обнаружения новых адресов с хоста, может подсчитываться на основе предыдущих проходов по этому хосту.

Также говорится, что обычно рынки распределены географически, так что процесс выбора сид-сайта, через который планируется получить много новых адресов, может также зависеть от географического расположения сайтов в различных странах и регионах.

При обработке сид-сайтов различных рынков могут использоваться различные подходы, так как некоторые рынки менее доминантны и могут содержать меньше хостов и меньше "важных” хостов. Это необходимо для того, чтобы доминирующие рынки не стали столь влиятельны, что вытеснили бы все сиды других рынков.

Выводы
Я не уверен, что видел ранее детальное обсуждение, будь то в патенте или статье, того, как какая-либо поисковая машина может подходить к выбору сид-сайтов для процесса краулинга.

В большинстве обсуждений процесса веб-краулинга в качестве примера точек входа и обнаружения новых страниц в сети используются Yahoo directory или DMOZ.

Из-за столь малого количества данных по теме довольно интересно было увидеть обсуждение некоторых критериев, которые поисковые машины могут использовать при определении сид-сайта отличного от упомянутых каталогов. Стала бы Wikipedia хорошим сид-сайтом? Возможно. А что насчет Twitter или Facebook? Тут я не так уверен.

Мы знаем, что поисковые машины сейчас особое ударение ставят на быстром получении и добавлении в индекс контента с сайтов вроде Twitter, чтобы предоставить нам ощущение получения наиболее свежей информации. А следуют ли они по ссылкам с этих сервисов для обнаружения новых страниц и контента, считая их сид-сайтами? И что если да?


Категория: Оптимизация сайта | Просмотров: 961 | Добавил: witkom8382 | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Copyright MyCorp © 2024
Категории
Оптимизация сайта [589]
Создание сайтов [355]
Заработать в интернете [505]
Технологии [44]
Полезное [366]
Услуги и сервисы [308]
Автоблог [100]
Скрипты для Ucoz [39]
Движок на сайт [10]
Все о Joomla и Drupal [20]
Все о PHP [91]
Поиск
Пользовательский поиск
Статистика


Онлайн всего: 2
Гостей: 2
Пользователей: 0
Seo сайт, технологии продвижения, мета теги, оптимизация сайтов, новости сео, Скрипты, Ucoz

Рейтинг@Mail.ru