7 февраля 2012 года, во Всемирный день безопасного Интернета, главный инженер и глава подразделения по борьбе с вебспамом Google Мэтт Каттс (Matt Cutts) ответил на вопрос пользователя из Цюриха, касающийся особенностей работы «Безопасного поиска Google».
Отвечая на вопрос: «Как работает Безопасный поиск Google (включая фильтр по словам и изображениям)», Мэтт Каттс обратился к началу 2000-х годов. Когда фильтр только запускался, инженеры поисковика присваивали определенный вес конкретным словам в документе. В зависимости от этого оценивалось и качество всего документа. «Если в документе насчитывается определенное количество слов с определенным весом – алгоритмы Google фильтруют контент и по сей день. Безусловно, сегодня они существенно усложнились, однако концепция работы фильтра осталась прежней», - заявил представитель Google.
«Безусловно, встречаются и случаи, когда алгоритмы Безопасного поиска расценивают слова определенного содержания как сигналы о порнографическом контенте, имеющемся на странице. Так, например на сайте может идти речь о сексуальном просвещении подростков или о раке груди, в то же время поисковик может расценить их как «запрещенные». В такой ситуации вебмастер может смело сообщать о «баге» в поисковике инженерам Google», - сообщает г-н Каттс.
«В отличие от первых поисковых систем, таких как Alta Vista, стремившихся просто выдать определенное количество результатов по конкретному поисковому запросу, Google пошел дальше. Сначала мы стали скрывать нежелательный контент от пользователей, а затем начали учитывать не просто «запрещенные слова», но и различные их вариации (пример с сексуальным просвещением подростков) с тем, чтобы научиться отличать неприемлемый контент от разрешенного и полезного.
Сегодня над проблемой улучшенного распознавания подобных слов трудится целая команда высококлассных инженеров, постоянно дорабатывая и совершенствуя алгоритмы. Однако обычное сканирование слов, которым присвоен определенный вес, на каждой странице сайта, как и в 2000 году, позволяет распознать наличие на ресурсе информации порнографического содержания», - завершает свой рассказ главный инженер Google.
|