Как может определяться сид-сайт для пауков поисковых машин? - 20 Января 2014 - SEO Продвижение и оптимизация сайта

Пятница, 12.09.2025, 00:30

SEO, технологии, игры, IT новости

Регистрация

Приветствую Вас, Гость · RSS

Меню сайта

Форма входа

Главная » » Как может определяться сид-сайт для пауков поисковых машин?

16:08 Как может определяться сид-сайт для пауков поисковых машин?
С каких сайтов поисковым машинам выгодней начинать краулинг? Twitter или Facebook? Wikipedia или Mahalo? DMOZ или Yahoo Directory? Сеть обновляется с невообразимой скоростью, добавляются новые страницы, удаляются старые, и слова льются рекой в блогах, новостных сайтах и на других страницах. В интернет-магазинах появляются новые товары и убираются старые. Запускаются новые сайты и истекают сроки регистрации старых доменов. Поисковые машины стараются поддерживать свои индексы сети в настолько свежем состоянии, насколько это возможно, и потому рассылают своих пауков для обнаружения новых страниц, а также изменений и исчезновений ранее существовавших. В случае неудачи подобного процесса данные поисковых машин устареют и они будут отправлять людей на удаленные страницы и переписанный контент, а новые сайты просто не появятся в выдаче. Когда поисковая машина начинает процесс краулинга сети, то отправной точкой служит сид-сайт, по ссылкам с которого паук проходит в первую очередь. Но как поисковые машины выбирают эти сид-сайты? Сид-сайтами могут быть Open Directory Project или Yahoo directory, которые полны ссылок на сайты различной тематической направленности и географического расположения. Но поисковой машине не обязательно использовать именно их, и выбор может пасть на другие сайты. Выбор сид-сайтов может иметь огромнейшее влияние на качество работы поисковой машины и широту освещения в ее индексе различных тем и географических территорий. Плохой выбор сид-сайтов может привести к плохим результатам поиска и увеличению количества спама в поисковой выдаче. Патент Yahoo описывает как поисковая машина может выбирать сид-сайты для обнаружения адресов других страниц в сети. Алгоритм выбора сидов на основе хостов для веб-краулеров Изобретатель: Pavel Dmitriev Принадлежит Yahoo US Patent Application 20100114858 Опубликовано 6 мая 2010 Подано на рассмотрение 27 октября 2008 Отрывок Процесс выбора сидов на основе хостов при принятии решения об использовании хоста в качестве сида учитывает факторы вроде качества, важности и потенциальной отдачи хостов. Определяется подмножество множества хостов, включая некоторые но не все из множества хостов, соответственно показаниям важности хостов, соответственно ожидаемой отдачи новых документов для хостов, и соответственно предпочтений рынков к которым принадлежат хосты. Как минимум один сид генерируется для каждого хоста из определенного подмножества хостов, где каждый сгенерированный как минимум один сид включает показатель документа в связанной базе данных документов. К сгенерированному сиду предоставляется доступ краулеру базы данных. Регулярное посещение сид-сайтов может не привести к нахождению большого количества новых адресов. Ожидающий решения патент Yahoo позволяет взглянуть на то, как может производиться сравнение и выбор среди потенциальных сид-сайтов. В патенте говорится, что процесс выбора сид-сайта может быть улучшен если выбор определенных сидов приводит к: 1. Обнаружению в процессе сравнительно большого количества не найденных ранее документов. 2. Краулингу сравнительно большего количества более важных хостов и документов и меньшего количества менее важных хостов и документов. 3. Желательному распределению по рынкам или категориям сайтов. Кандидаты в сид-сайты могут оцениваться на основе измерений: • Качества • Важности • Потенциальной отдачи хостов Качество (или недостаток качества) сайта как потенциального сида может определяться по таким параметрам как: • Количество исходящих ссылок, • Спам-страницы или ссылки на спам-страницы, • Порнографический контент. В патенте говорится, что в качестве сидов выбираются сайты с высоким качеством, так как в случае начала краулинга на низкокачественном сайте велика вероятность получения в результате множества низкокачественных страниц. Важность сид-сайта может определяться по значению рейтинга “доверия хосту” или другому параметру, связанному с хостом, что обычно показывает: • Популярность • Насколько хост заслуживает доверия • Надежность • Качество • Другие характеристики хоста Одним из показателей в данном случае может быть PageRank, но могут учитываться и другие факторы. Потенциальная отдача документов, или потенциал обнаружения новых адресов с хоста, может подсчитываться на основе предыдущих проходов по этому хосту. Также говорится, что обычно рынки распределены географически, так что процесс выбора сид-сайта, через который планируется получить много новых адресов, может также зависеть от географического расположения сайтов в различных странах и регионах. При обработке сид-сайтов различных рынков могут использоваться различные подходы, так как некоторые рынки менее доминантны и могут содержать меньше хостов и меньше “важных” хостов. Это необходимо для того, чтобы доминирующие рынки не стали столь влиятельны, что вытеснили бы все сиды других рынков. Выводы Я не уверен, что видел ранее детальное обсуждение, будь то в патенте или статье, того, как какая-либо поисковая машина может подходить к выбору сид-сайтов для процесса краулинга. В большинстве обсуждений процесса веб-краулинга в качестве примера точек входа и обнаружения новых страниц в сети используются Yahoo directory или DMOZ. Из-за столь малого количества данных по теме довольно интересно было увидеть обсуждение некоторых критериев, которые поисковые машины могут использовать при определении сид-сайта отличного от упомянутых каталогов. Стала бы Wikipedia хорошим сид-сайтом? Возможно. А что насчет Twitter или Facebook? Тут я не так уверен. Мы знаем, что поисковые машины сейчас особое ударение ставят на быстром получении и добавлении в индекс контента с сайтов вроде Twitter, чтобы предоставить нам ощущение получения наиболее свежей информации. А следуют ли они по ссылкам с этих сервисов для обнаружения новых страниц и контента, считая их сид-сайтами? И что если да? SEO Продвижение и оптимизация
1 2 3 4 5 Категория: Вебпланета \| Просмотров: 1090 \| Добавил: witkom \| Рейтинг: 0.0/0

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Copyright MyCorp © 2025

Категории

Вебпланета [1803]

Онлайн сервисы [260]

Поисковые системы [646]

Seo новости [95]

Обзоры игр [301]

Интервью о SEO [100]

Новинки Кино [38]

Поиск

Пользовательский поиск

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Seo сайт, технологии продвижения, мета теги, оптимизация сайтов, новости сео, Скрипты, Ucoz