Как поисковая машина решает, когда показывать новости в ответ на поисковый запрос, а когда не показывать?
Если вы живете в Билтоне, штат Вирджиния, есть вероятность того, что
вас вряд ли заинтересуют новости об аварии в Бруклине, когда вы ищете
информацию о Бруклине. Если вы проживаете в Бруклине и хотите найти
туристическую информацию о парках Висконсина, вас, скорее всего, не
интересуют результаты последнего розыгрыша висконсинской лотереи.
Однако, когда кто-то сейчас ищет информацию о штатах, граничащих с
Мексиканским заливом, его могут заинтересовать новости об утечке нефти
в регионе.
В недавно опубликованном патенте Yahoo описано, как машина может
использовать систему прогнозирования, основанную на логах запросов
поисковой машины, чтобы решить, выводить новости или нет. Система
прогнозирования использует географическую информацию, имеющую отношение
к запросам и тем, кто вводит поисковые запросы, чтобы определить,
насколько место, информацию о котором ищут, «достойно» того, чтобы о
нем выводились новости. В патенте говорится о возможности создания
похожих моделей прогнозирования, чтобы определить, показывать или нет
другие типы информации наряду с новостями.
Патент:
Система и метод прогнозирования, основанного на географической информации, при выборе результатов поиска
Изобретатели: Rosie Jones, Fernando Diaz, Ahmed Hassan Awadallah
Патент США 20100161591
Опубликовано 24 июня 2010 года
Подано на рассмотрение 22 октября 2008 года
Отрывок
Раскрыты система и метод для определения прогнозного измерения, или
мер, с использованием информации, основанной на геопространственных
данных, которую можно применить для определения того, включать или нет
определенные типы информации в результаты поиска.
Прогнозное измерение включает в себя измерение вероятности того, что
будет отобрана единица определенного типа информации, для которой
определяется прогнозное измерение, или пользователь перейдет по ссылке,
если единица этого типа информации включена в результаты поиска.
Подобный тип информации может быть, но не ограничен, новостями.
В тексте патента показано, как система прогнозирования может
анализировать запросы, чтобы определить вероятность того, что кого-то
заинтересуют новости, показанные в результатах поиска. Чтобы решить,
какой тип информации выводить, она рассмотрит запрос, введенный
пользователем, а также историю, в которую входят предыдущие запросы.
История берется из логов запросов, сделанных за определенное
количество времени. Она может содержать несколько миллионов запросов,
сделанных за это время, и включать информацию, связанную с каждой
цепочкой запросов, например:
• Использованные в запросе ключевые слова;
• Результаты поиска, показанные пользователю;
• Детали о типах страниц, включенных в те результаты;
• Были ли показаны новости в ответ на запрос, и если были, по какой ссылке перешли, если перешли;
• IP-адрес или другую информацию, указывающую на местоположение пользователя;
• Информацию о запросе, переходе или отборе;
• Информацию о населении того места, где проживает пользователь;
• Информацию о плотности населения в регионах, фигурирующих в поисковых запросах;
• Географическую информацию, взятую из запроса, например, название местности;
• Расстояние между местом жительства пользователя и местом, фигурирующем в поисковом запросе.
Географическое положение запроса может быть определено с помощью
процессов, описанных в патенте Yahoo Получение географической
информации, в котором описано, как машина рассматривает названия мест,
фигурирующие в запросах, и ранжирует их по вероятности того, что они
могут быть местами, которые есть в базе данных географических названий.
Авторы патента говорят, что тестирование показало наличие
взаимосвязи между «достоверностью места запроса» и вероятностью того,
что пользователь перейдет по новостной ссылке. Например, в патенте
говорится, что поисковые запросы, содержащие название местности, в
ответ на которые поисковая машина выводит новости, увеличивают в два
раза вероятность того, что пользователь перейдет по ссылке этих
новостей, по сравнению с запросами, не содержащими географических
названий.
Пользователи чаще используют название штата или страны, когда ищут
новости, и названия городов, когда ищут информацию, не связанную с
новостями – например, об услугах или предприятиях города.
Географическому названию также может быть присвоена величина
вероятности того, что пользователь перейдет по ссылкам на новости,
показанным в ответ на запрос, содержащий это название. Вероятность
этого иногда называют "newsworthiness” или же "новостная ценность”.
Вероятность перехода по ссылке новостей о местности может
определяться количеством достойных освещения в прессе событий,
случившихся в этой местности. В патенте есть несколько примеров.
Например, вероятность того, что пользователь перейдет по ссылке на
новости, показанные в ответ на поисковой запрос, в котором есть слова
«Косово» или «Пакистан», более высока, чем с такими словами, как «Юта»
или «Седар Поинт».
Плотность населения местности, где живет пользователь, информация о
которой берется из таких источников, как данные Бюро переписи населения
США, также может помочь определить вероятность того, что пользователь
перейдет или не перейдет по ссылке на новости, выведенной в результатах
поиска. В патенте говорится, что новости о местностях с высокой
плотностью населения интересуют людей на 20 процентов больше, чем
новости о местностях, где плотность населения ниже.
Данные о расстоянии между местом жительства пользователя и местом,
упомянутом в поисковом запросе, могут быть использованы для того, чтобы
спрогнозировать вероятность перехода по ссылке с новостями. Например,
некоторые новости могут интересовать людей на национальном или
региональном уровне, например, новости о крупных природных катаклизмах.
Невелика вероятность того, что пользователь, проживающий далеко, может
заинтересоваться маловажными новостями другой местности – о розыгрыше
лотереи или автомобильной аварии.
Заключение
Во многих патентах и статьях разработчиков поисковых машин об
универсальном поиске или поиске смешанного типа, где новости могут идти
вперемешку с другими результатами поиска, говорилось, что решение о
включении таких типов результатов основывается на факторе релевантности.
В этом патенте показано, что поисковая машина может рассмотреть
другие типы информации, чтобы принять более взвешенные решения о том,
показывать или нет новости среди результатов поиска, например, чтобы
показывать только местные новости «местным» пользователям.
Возможно, что похожие модели прогнозирования могут использоваться
поисковиками Google или Bing, и не только для того, чтобы решить,
показывать или не показывать новости вместе с результатами поиска.
Например, кто-то может воспользоваться Google, чтобы найти местную
фирму, и ему покажут карту с соответствующей отметкой среди других
результатов поиска.
Другой пример. Когда я при поиске в Google использую термины
«Нью-Йорк» или «Новый Орлеан», мне показывают новости в результатах
поиска. Когда я ввожу в форму «Уоррентон, Вирджиния», мне не выводят
новости. Потому ли это, что Google считает, что мне более интересны
новости о населенных пунктах с большей плотностью населения? Или
потому, что в Уоррентоне происходит не так много событий, достойных
упоминания? Оба варианта возможны.
|