Мэт
Катс (Matt Cutts) — один из ведущих программистов Google. В прошлом был
инженером NASA, считается одним из основных разработчиков поискового
движка Google. Matt Cutts начал работать в Google в январе 2000 года.
До Google, он работал над докторской степенью в компьютерной графике в
University of North Carolina at Chapel Hill, а также имеет степени
бакалавра, как в математике так и в компьютерных науках University of
Kentucky. Эрик Эндж: давай немного поговорим о таком понятии
как «краулинговый бюджет». Мое понимание состоит в том, что Googlebot
приходит на сайт с заданным количеством страниц, которые надо записать
за
день, и сразу его покидает как только выполняет заданное количество. Мэтт Каттс:
я постараюсь объяснить несколько вещей, которые стоит иметь в виду.
Первое – на самом деле нет такого понятия как «потолок индексации».
Многие люди думают, что с домена проиндексируется только определенное
число страниц, но это работает немного не так. Также нет
жесткого лимита краулинга. Наиболее точное понимание состоит в том, что
количество страниц, которое мы краулируем, приблизительно
пропорционально вашему PageRank. Таким образом, если у вас есть
огромное количество входящих ссылок на корневую страницу, мы
определенно доберемся до нее. Когда ваша корневая страница ссылается на
другие страницы, те страницы получат PageRank и мы также прокраулируем
их. Тем не менее, при проникновении глубже и глубже в сайт, PageRank
имеет тенденцию снижаться.
Другой способ представить себе это:
низкий PageRank страниц вашего сайта соревнуется с большим пулом
страниц такого же или высшего PR. Существует огромное количество
страниц веб, которые имеют весьма низкий или близкий к нулю PageRank.
Страницы, на которые часто ссылаются, имеют тенденцию открываться и
краулироваться достаточно быстро. Страницы с более низким PageRank
краулируются не так часто. С точки зрения краулингового
бюджета интересна следующая вещь: несмотря на то, что жестких лимитов
на краулинг нет, существует понятие нагрузки на ведущий узел (host
load). Нагрузка на ведущий узел это максимальное число одновременных
соединений, которое может выдержать конкретный сервер. Представьте, что
ваш веб-сервер может принять только одного бота за раз. Это позволит
достигать сайты только постранично, и будет очень-очень большая
нагрузка на ведущий узел, в тоже время
такие сайты как Facebook или Twitter могут иметь высокую нагрузку на
ведущий узел, потому что они могут принять множество соединений
одновременно. Ваш
сайт может быть на виртуальном узле наряду с множеством других сайтов,
имеющих тот же IP-адрес. Теоретически, вы можете попасть в лимит из-за
того что ваш сайт очень трудно краулировать. Если мы можем получить
только две страницы с сайта за раз, и мы краулируем только определенные
промежутки времени, это может создать некоторый верхний предел
количества страниц, которые мы можем получить с этого узла. Эрик Эндж:
таким образом, в основном, у вас есть два фактора. Один - чистый
PageRank, который заранее устанавливает объем краулинга, который будет
выполнен на вашем сайте. Но также на него может повлиять нагрузка на
ведущий узел. Мэтт Каттс: Это правильно.
Несомненно, подавляющее большинство сайтов находятся в первой группе,
для которой меру того, как глубоко мы пойдем на сайт, определяет
PageRank плюс другие факторы. Тем не менее, нагрузка на узел также
может повлиять на этот фактор. Это больше относится к теме дубликатного
контента. Представьте, что мы краулировали три страницы с сайта, а
потом выяснилось, что две страницы были копиями третьей. Мы выбросим
две из трех страниц и сохраним только одну, и будет выглядеть так, что
у сайта не очень хороший контент. Возможно, впредь мы не будем
краулировать так много с этого сайта. Если
вы ограничены нагрузкой узла, и так получилось, что попали в рамки
ограниченного количества страниц, которые мы можем достичь на вашем
веб-сервере, факт наличия дублированного контента и выбраковки страниц
означает, что вы упустили прекрасную возможность показать в индексе
другие страницы с хорошим, качественным и
уникальным контентом. Эрик Эндж: это
классический совет, который мы даем людям: ценой за дублированный
контент является напрасная трата краулингового бюджета. Мэтт Каттс:
Да. Идея состоит в том, что если у вас есть определенный показатель
PageRank, мы только за прокраулировать как можно больше с этого сайта.
Однако некоторые из этих страниц могут быть выбракованы, что будет, в
некоторой степени, напрасной тратой. Также сайт может относиться к
группе, ограниченной нагрузкой узла, и мы не сможем достичь такого
большого количества страниц. Эрик Эндж: Другим
основополагающим понятием, о котором мы поговорим, является понятие
«растраты ссылочного веса». Я собираюсь использовать термин PageRank,
но в более широком смысле я подразумеваю ссылочный вес, который,
возможно, больше соотносится с такими
понятиями как доверие и авторитетность сайта, чем оригинальная
концепция PageRank. Когда с одной страницы вы ссылаетесь на
страницу-дубликат, вы рассеиваете часть вашего PageRank, правильно? Мэтт Каттс:
Так может быть. Обычно, дублированный контент не является самым крупным
фактором, определяющим какое количество страниц будет прокраулировано,
но он может быть фактором. Мой общий совет заключается в том, что
огромную помощь оказывает предварительное определение четкой структуры
сайта, потому что это избавляет от последующих треволнений по поводу
проблем дублирования контента и всех вытекающих из этого вещей. Вы
можете использовать 301 редиректы для дублированных URL, чтобы склеить
их в один общий URL. Если вы не можете использовать 301 редирект, тогда
вы можете прибегнуть к rel=canonical. Некоторые люди не могут
получить доступ к веб-серверу,
чтобы установить 301, может быть они на школьном аккаунте, бесплатном
хостинге или что-то вроде того. Но если они могут предотвратить это в
архитектуре сайта, это предпочтительнее последующих «латаний» при
помощи 301 или rel=canonical. Эрик Эндж:
Правильно, это определенно «золотой стандарт». Скажем, у вас есть
страница, на которую ссылаются другие десять страниц. Если три из них
на самом деле являются дубликатами, которые выбракуются, значит ли это,
что вы потеряли три рекомендации? Мэтт Каттс:
Ну, не обязательно. Это тот случай, когда люди могут
экспериментировать. Мы стараемся склеивать страницы, а не выбрасывать
полностью. Если вы ссылаетесь на три страницы, которые являются
дубликатами, поисковая система может понять, что эти три страницы –
дубликаты и передать входящий ссылочный вес склеенным страницам. Необязательно это будет тот случай, когда PageRank
полностью растрачен. Это зависит как от поисковика, так и от
реализации. Принимая во внимание, что каждый поисковик может
реализовывать вещи по-разному, определенно предпочтительней, если вы
сможете сделать так, чтобы все ваши ссылки шли на единственную страницу. Эрик Эндж: Мы можем немного поговорить о Session ID?
Мэтт Каттс: не используйте их. Сегодня у многих людей должна быть кипа
идей о том, как сделать сайт, который не требует Session ID. На этом
этапе многие производители программного обеспечения должны думать об
этом, не только с точки зрения поисковиков, но также с точки зрения
юзабилити. Пользователи склонны кликать по ссылкам, которые лучше
выглядят и они склонны запоминать ссылки, которые лучше выглядят.
Тем не менее, если вы не можете их избежать, сейчас
Google предлагает инструмент работы с Session ID. У людей все еще есть
возможность, которую раньше предлагал Yahoo!, к примеру, если параметры
URL могут быть проигнорированы, бесполезны или не приносят
дополнительной ценности, их можно переписать в более привлекательную
URL. Google предлагает такую опцию, и хорошо, что мы так делаем.
Некоторые другие поисковые системы тоже делают такое, но если вы можете
обойтись без Session ID, обычно это лучший вариант. Эрик Эндж: В конечно счете, существует риск, что это закончится тем, что будет рассматриваться как дублированный контент. Мэтт Каттс:
Да, именно, поисковики хорошо справляются с этим в большинстве случаев.
Простые случаи, как правило, не проблема, но я видел случаи, когда
множественные версии страницы были проиндексированы с различными
Session ID. Всегда лучше позаботиться об
этом на своем сайте самому, а не ждать, когда об этом позаботятся
поисковики. Эрик Эндж:
Давай затронем партнерские программы. Вы говорите другим людям посылать
вам свой трафик, а они добавляют к URL параметр. Обычно вы сохраняете
параметр на протяжении всего визита на ваш сайт. Поисковые системы
хорошо обрабатывают это, или есть реальный риск получить дублированный
контент? Мэтт Каттс: Дублирование контента
может случиться. Если вы управляете чем-то типа co-бренда, где
единственным отличием страницы является логотип, большинство
пользователей будут считать это точно такой же страницей. Поисковые
системы обычно хорошо справляются с тем, чтобы склеивать подобные вещи,
однако другие сценарии, конечно, могут вызвать появление проблем
дублированного контента. Эрик Эндж: Существует
классический SEO-совет, который
гласит, что нужно позволить поставить параметр в URL, но когда
пользователь кликает по ссылке на ваш сайт, сделать 301 редирект на
страницу без параметра, а параметр «сбросить» в куки. Мэтт Каттс:
так можно сделать. Аналогичный прием может сработать для целевых
страниц в рекламе, к примеру. Вы можете сделать рекламу целевых страниц
в партнерской программе в отдельной URL директории, которую затем
можете заблокировать, к примеру, через robots.txt. Как и реклама, в
большинстве своем партнерские ссылки создаются для пользователей, а не
поисковых систем. Поэтому их очень легко отследить, и вам не нужно
волноваться о том, что партнерские коды «просочатся» и создадут
проблемы дублированного контента, если эти страницы никогда не
краулируются в первую очередь. Эрик Эндж: Если Googlebot видит партнерскую ссылку,
как он рассматривает ее: как поддержку или как рекламу? Мэтт Каттс:
Обычно, мы будем рассматривать такой вид ссылок соответственно. В
огромном количестве случаев это значит, что ссылка в основном ставится
ради денег, поэтому обычно мы не будем рассматривать ее как поддержку. Эрик Эндж:
Давай поговорим о фасетированной навигации. К примеру, на Zappos, люди
могут купить обувь по размеру, цвету, бренду, и один и тот же продукт
перечислен в разных списках 20 раз, что может быть затруднительно. Что
вы думаете по поводу таких видов сценариев? Мэтт Каттс:
Фасетированная навигация сама по себе может быть хитрой. Не все
пользователи хорошо понимают ее и чувствуют себя немного потерянными.
Способов навигации по одному участку контента может быть множество, но
желательно, чтобы каждая страница контента имела свою
URL. Есть множество способов «нарезать» данные. Если вы можете
самостоятельно решить, какой способ подачи отдельного участка контента
самый важный, то тогда вы можете попытаться создать некую иерархию
параметров URL. Например,
первым параметром будет категория, вторым цена. Даже если кто-то
осуществляет навигацию по ценовому признаку, а затем кликает по
категории, вы можете сделать так, чтобы нужная вам иерархия
категоризации отображалась в параметрах URL. Таким образом,
самая важная категория – первая, вторая по важности - вторая. Такой
порядок вещей помогает некоторым поисковым системам чуть лучше находить
контент, потому что они могут понимать, что удаляя этот последний
параметр, они все равно могут получить полезный контент. В общем,
фасетированная навигация – сложная проблема, потому что вы создаете
множество способов, при помощи которых
кто-то может найти страницу. У вас может быть множество промежуточных
путей, прежде чем пользователи придут к оплате. Если
это возможно, хорошей практикой будет организация более простых
промежуточных страниц. Если кому-то придется кликнуть семь раз через
семь слоев навигации, чтобы добраться до одного единственного продукта,
он может просто потерять терпение. С точки зрения поисковой системы
пройти через семь-восемь слоев промежуточной фасетированной навигации,
чтобы добраться до продукта, также достаточно странно. В некотором
смысле, это куча кликов и куча PageRank, которые используются на
промежуточных страницах, не предлагающих специфического продукта к
покупке. Каждый из этих кликов – возможность рассеивания небольшого
процента PageRank. Вместе с тем, фасетированная навигация может
быть хороша для некоторых пользователей и, если вы можете определиться
с собственной иерархией категорий страниц и постараться обеспечить
относительную простоту фасетированной навигации, эти практики могут
быть полезны для помощи поисковикам лучше находить продукты. Эрик Эндж:
Если у вас есть страницы, на которых в основном одни и те же продукты,
или весьма схожие продукты в разном порядке, это хорошая точка
приложения canonical tag? Мэтт Каттс:
Возможно, или вы можете представить изменение позиций параметров
самостоятельно. В общем, идея canonical tag состоит в том, чтобы дать
вам возможность показать поисковым системам, что две страницы контента
являют собой одно и то же. Возможно, вы не хотите ставить различия
между красной и черной версиями продуктов, если у вас в наличии продукт
11 разных цветов. Вы можете хотеть создать только одну страницу
продукта по умолчанию, которая будет умно организована
с выпадающим меню или чем-то в этом роде. Хороший способ использования
rel=canonical tag – это показывать минимальные различия продукта и
отметить все эти страницы rel=canonical. Эрик Эндж: Давай поговорим о влиянии на PageRank, краулинг и индексирование основных инструментов. Начнем с любимого 301 Redirect. Мэтт Каттс:
Обычно 301 Redirect передает PageRank. Он может быть очень полезным
инструментом для миграции между страницами сайта и даже между сайтами.
Многие люди используют его, и кажется, он работает относительно хорошо,
та как его эффект достаточно быстро проявляется по месту назначения. Я
сам использовал его, когда хотел перейти на mattcutts.com с
dullest.com, и этот переход прошел просто отлично. Мое собственное
тестирование показало, что он был достаточно удачен. Фактически, если
вы зададите site:dullest.com прямо
сейчас, вы не увидите ни одной страницы. Все страницы мигрировали с
dullest.com на mattcutts.com. По крайней мере для меня, 301 работает
так, как я и ожидал. Если вы проводите постраничную миграцию на новый
сайт, он переведет все страницы, в которых вы заинтересованы, и таким
образом, может стать мощным инструментов в вашем арсенале. Эрик Эндж: Представим,
вы переходите с одного домена на другой и самостоятельно пишете
маленькую инструкцию, которая говорит поисковой системе и любому
юзерагенту как пересоставить карту с одного домена на другой. Будет ли
в таком сценарии потеря PageRank, которая случится просто из-за того
что пользователь, который в оригинале поставил ссылку на сайт, не
ссылается на новый домен? Мэтт Каттс: это
хороший вопрос, и я на уверен на 100% по поводу ответа. Я понимаю, где
именно может быть некоторая
потеря PageRank. Я не уверен на 100%, что команды краулинга и
индексирования внедрили такой вид натурального снижения PageRank,
поэтому мне нужно будет проверить этот конкретный случай. (Примечание:
в последующем письме Мэтт подтвердил, что в этом случае действительно
так происходит. Существует определенная потеря PR через 301).
|