[Image] Суббота, 23.11.2024, 22:40 [Image]
SEO, технологии, игры, IT новости
[Image] Главная Регистрация Вход [Image]
[Image] Приветствую Вас, Гость · RSS [Image]
Меню сайта

Форма входа
 
Главная » 2010 » Ноябрь » 22 » Яндекс может вычислить продажные ссылки
07:05
Яндекс может вычислить продажные ссылки

10 сайтов, которые ежедневно сканировались на протяжении 7 месяцев. Общее число сканируемых страниц – 5000 (менялось в зависимости от изменений на сайтах). Ежедневно на сайтах размещалось 5500 ссылок. Параллельно сканировались естественные ссылки с этих сайтов.

Исследование ротации (чередования, смены) ссылок

Ротация ссылок за 7 месяцев:
коэффициент ротации ссылок за 7 месяцев

где Кr – коэффициент ротации ссылок;
L1 – число ссылок, размещенных в данный момент;
L7 – общее число ссылок, размещенных  за 7 месяц наблюдений.
Ротация ссылок за 1 месяц:

коэффициент ротации ссылок за 1 месяц

Krm – коэффициент ротации ссылок за 1 месяц.

В результате получилась интересная табличка:

статистика ротации продажных ссылок

Но он нам не чем не говорит, если мы не знаем какая ротация у естественных ссылок.

Далее была замерена ротация естественных ссылок – Kr_n, которая рассчитывалась аналогично как и Kr.  Для всех сайтов этот параметр был не более 0,01, а для большинства вообще 0.

Коэффициент ротации ссылок за месяц (Krm_n) получился не более 0,002. Сравните эти цифры с цифрами в таблице для покупных ссылок.

Получается, что ссылки на сайтах, которые не участвуют в биржах стоят очень долго, большинство не пропадает и не меняется вообще.

Но сайты бывают разных типов. Поэтому была проверена ротация на динамических сайтах. Были выбраны популярные форумы, блоги и новостные сайты. Коэффициент ротации вырос, но остался намного меньше, чем у сайтов продающие ссылки. Krm_n для динамических сайтов равнялся 0,05.

Выходит таким не хитрым образом уже можно отсечь продажные ссылки. Если коэффициент ротации выше 0,1 то это с большой долей вероятности продажная ссылка.

Также можно считать продажными ссылки в тех местах на сайте, где коэффициент ротации превысит допустимую отметку. Если в подвал ссылки часто меняются, а в теле статьи нет, то подвальные ссылки будут спамом, а те, что в теле страницы – нет.

Моя заметка: как видно, ссылки с любой биржи можно вычислить на раз-два, но, тем не менее, они все еще работают. Представители Яндекса уже не раз говорили, что они уменьшают влияние таких ссылок. Скорее всего, они отключают их влияние потихоньку, чтобы не допустить коллапс в своей выдаче. Возможно, в это же время MatrixNet обучается нормально ранжировать документы без учета «отрезанной» части влияния ссылок.

Однако большинство условно вечных ссылок это не должно коснутся, несмотря на то, что их можно купить. Также это не должно коснуться каталожных ссылок, ссылок из пресс-релизов, досок объявлений и т.п. Каталожные и т.п. ссылки работают и теперь, просто развелось очень много линокпомоек, которые не дают никакого эффекта.

Вывод: стремимся к вечным ссылкам: рабочие каталоги, релизники,доски объявлений, все их можно найти в сервисе maketrust. Также можно купить ссылки, которые очень будут похожи на естественные в miralinks, gogetlinks или по-дешевле в блогуне.

Тематическая близость ссылок и сайта.

В исследовании тематической ссылке дано такое определение: это ссылка, тематика которой совпадает или близка к тематике страницы, на которой она размещена.
Тематика определялась по методике, описанной в литературе [10].

Среди продажных ссылок L1 (5476) тематических (T) оказалось всего 242. Далее был высчитан процент тематических ссылок Tlink по формуле:

процент тематических ссылок

Результаты в таблице:

результаты исследования тематических ссылок

Получается, что только 1 из 22 продажных ссылок имеет тематику.

Для естественных ссылок аналогичный показатель Tlink_n оказался равным 80%. Но в тоже время этот показатель для сайтов с каталогами ссылок процент тематических линков оказался маленьким. При большом каталоге на сайте показатель был менее 1%.

Заметка: насчет естественности ссылок в каталогах можно еще поспорить. Зависит от каталога, если это ЯК, то вопросов нет. А если немодерируемый ГС-каталог, то какая тут может быть естественность…
В исследовании делается вывод о том, что тематичность нельзя использовать для выявления продажных ссылок. Но этот параметр можно использовать в комплексе с другими для более точного вычисления продажности ссылок.

Вывод: нужны ссылки с тематически-близких сайтов и страниц. Плюс к этому нужно чтобы у них не было большой ротации. Выход тот же – хорошие модерируемые каталоги. Ну а в miralinks, gogetlinks или  блогун нужно еще потрудиться и выбрать тематически близких доноров.
P.S. Вспоминаем доклад Яндекса в Мадриде.

Тематическая близость в блоке продажных ссылок

Объяснять не нужно – это классические ссылки из биржи, размещенные в одном блоке. Исследование блочности ссылок и их тематичности в блоках показано в таблице:

анализ продажных ссылок в блоке

Из 1023 групп спам-ссылок, только в 178 группах оказалось по одной тематической ссылке (17.4 % от количества групп ссылок), в 16 группах – по две и более тематических ссылок (1.6 %). Из 443 одиночных ссылок только 29 оказались тематическими, что составляет всего 6.5 % от числа одиночных ссылок.
Мало того, что ссылки отличаются от тематики страницы, они еще отличаются по тематике и между собой в блоке.

Вывод: плюс ко всему стараемся избегать блочных ссылок.

Время жизни продажных ссылок

Dlink – время жизни ссылки – это время с момента простановки ссылки до момента ее снятия. Зачастую ссылки мигают. В исследовании если ссылка пропадала и не появлялась в течение 10 суток, она считалась удаленной.

Ниже на графике распределение времени жизни продажных ссылок за 1 год:

эксперимент по времени жизни ссылок
Как видим, очень мало ссылок стоит хотя бы 1 год. К концу 2 года остается всего 1-2 ссылки.
Еще ниже показан процентный состав времени жизни ссылок, сгруппированных по месяцам.

время жизни ссылок по месяцам

Уже после 2 месяцев 50% ссылок пропадет. Практически 90% пропадет через полгода.
Если ваша ссылка стоит в блоке долго, то это не значит, что все хорошо. Ваша ссылка не пропадает, но могут меняться ссылки вокруг нее, что служит поводом для подозрения вашей ссылки как продажной.

Время жизни естественных ссылок (Dlink_n) приближается к времени жизни страницы, на которой она размещена. При проведении исследования, подавляющее большинство ссылок находилось на своих местах все время.

Таким образом, можно с большой уверенностью расценивать ссылки, которым менее 6 месяцев, как продажные.

Вывод: стремится к «вечным» ссылкам. А арендованные ссылки не снимаем без резких на то причин.

Перемещение ссылок по сайту

Под перемещением тут понимается удаление с одной страницы и появление на другой. Такие явление может наблюдаться на сайтах с динамическим контентом: форумы, блоги, новостные сайты и другие.

За все время исследования среди покупных ссылок зафиксировано всего 3 перемещения. Ссылки привязаны к конкретным страницам и при перемещении основного контента страницы, ссылка не перемещается.

Естественные ссылки в этом время перемещаются по страницам вместе с перемещением основного контента.

Динамические характеристики

Был использован алгоритм, работающий на основе метода опорных векторов [11].  Расширили количество признаков. До этого применялись признаки, которые имели статический характер. Теперь к ним были добавлены признаки, которые описывают динамические характеристики ссылок:

  • коэффициент ротации ссылок на сайте;
  • коэффициент ротации ссылок на странице;
  • время жизни ссылки на странице;
  • время жизни ссылок на сайте;
  • время жизни исследуемой ссылки;
  • показатель перемещения ссылки по сайту.

Используемые метрики для анализа качества работы алгоритма:

динамические характеристики ссылок

Значение метрик находится в таблице 5:

метрики для анализа качества алгоритма ссылок

Сравнивая полученные данные с данными прошлых лет [9] и [11] можно заметить, что наблюдается улучшение всех метрик. Т.е. продажные ссылки стали распознаваться еще лучше. Также снизились показатели ошибочного отнесения естественных ссылок к покупным.

Заметка: получается все-таки некоторые естественные ссылки распознаются как продажные…

Выводы

  1. Сайты, продающие ссылки обладают коэффициентом ротации более 0.1.
  2. В среднем менее 5% продажных ссылок имеют тематическую близость к страницам, на которых размещены.
  3. Более 90% продажных ссылок живет меньше 6 месяцев.
  4. Такие ссылки не перемещаются по сайту вместе с основным контентом. Они жестко привязаны к конкретной странице.

В последнем абзаце исследования говорится о том, что при помощи динамических характеристик можно достичь полноты обнаружения  продажных ссылок 92% с точностью 96%.

Мои выводы на текущий момент:

Поисковики постепенно уменьшают работоспособность продажных ссылок. В это же время можно покупать ссылки, которые по всем перечисленным  факторам сложно отнести к продажным. Не нужно ограничиваться одной сапой или подобной биржей, есть еще и другие альтернативы. Если верить всему выше написанному, то в будущем будут рулить «вечные» ссылки.

Что насчет размещения статей с помесячной оплатой? Даже если вы не будете снимать свою статью, ротация будет присутствовать на сайтах-донорах, т.к. многие оптимизаторы будут снимать со временем размещенные статьи. Тематическая близость вашей ссылки к странице, где она размещена, будет. Отсутствие блочности. Оплачивать размещение статьи нужно минимум 6-7 месяцев.

Литература

[1]
Becchetti L., Castillo C., Donato D., Leonardi S., Baeza-Yates R. Link analysis for web spam detec-tion// ACM Trans. Web 2. – 2008. – V. 1. – P. 1-42.

[2]
Davison B.D. Recognizing nepotistic links on the web//AAAI-2000 Workshop on Artificial Intelli-gence for Web Search, Austin, TX, 2000. – P. 23-28.

[3]
Fetterly D., Manasse M., Najork M. Spam, damn spam, and statistics – using statistical analysis to locate spam web pages//Proc. the 7th Int. Workshop on the Web and Databases (WebDB), Paris, France, 2004.

[4]
Gyongyi Z., Berkhin P., Garcia-Molina H., Pedersen J. Link spam detection based on mass estima-tion//32nd Int. Conf. on Very Large Data Bases (VLDB 2006), September 12 – 15, 2006, Seoul, Korea.

[5]
Gyongyi Z., Garcia-Molina H. Web spam taxonomy//First Int. Workshop on Adversarial Informa-tion Retrieval on the Web (AIRWeb 2005), May 10 – 14, 2005, Chiba, Japan.
[6]
Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam web pages through content analy-sis// Proc. of the 15th Int. World Wide Web Con-ference, Edinburgh, Scotland, May 2006. – P. 83-92.

[7]
Gan Q., Suel T. Improving web spam classifiers using link structure// Proc. in Third Int. Workshop on Adversarial Information Retrieval on the Web (AIRWeb ’07), May 2007, Banff, Alberta, Canada.

[8]
Wu B., Davison B. D. Identifying link farm pages// Proc. of the 14th Int. World Wide Web Conference (WWW), 2005.

[9]
Шарапов Р.В., Шарапова Е.В. Обнаружение ссылочного спама // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Десятой Всерос. науч. конф. RCDL’2008, Дубна, Россия, 7 – 11 октября 2008 г. – Дубна: ОИЯИ, 2008. – С. 191-196.

[10]
Шарапов Р.В., Шарапова Е.В. Алгоритм обнаружения ссылочного спама // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной межд. конф. «Диалог 2009» (Бекасово, 27 – 31 мая 2009 г). – М: РГГУ, 2009. – Вып. 8 (15). – С. 537-542.


Категория: Поисковые системы | Просмотров: 1204 | Добавил: witkom | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Copyright MyCorp © 2024
Категории
Вебпланета [1802]
Онлайн сервисы [256]
Поисковые системы [646]
Seo новости [95]
Обзоры игр [299]
Интервью о SEO [100]
Новинки Кино [38]
Поиск
Пользовательский поиск
Статистика


Онлайн всего: 16
Гостей: 15
Пользователей: 1
DilliMax
Seo сайт, технологии продвижения, мета теги, оптимизация сайтов, новости сео, Скрипты, Ucoz

Рейтинг@Mail.ru