Поможет ли алгоритм “Колибри” оценить компетентность автора, материалы которого отображаются в блоке “углубленные статьи по теме” (in-depth article), или предсказать возможное будущее параметра Author Rank? В случае с контентом автора, использующего концептуальную модель базы знаний, это вполне возможно.
Последнее обновление алгоритма Google — “Колибри” — не только направлено на более точное понимание длинных и сложных запросов, например, голосовых, но и на понимание концепций, тематик и соцсигналов, таких как посты в Google+ и комментарии к ним, твиты, статусы в Facebook и другие короткие сообщения без дополнительного контекста.
Таблица ниже показывает примеры концепций, которые могут сойти за твиты в ходе их анализа с помощью базы знаний Probase (из исследования “Концептуализация коротких сообщений с использованием вероятностных знаний”):
Примеры концептуализации Twitter:
Твиты | Концепции |
---|---|
Google: гендиректор Эрик Шмидт ушел в отставку, сооснователь Лари Пейдж вступил в должность. | (1) “Google”: поисковая система; компания; лидирующий поисковик; конкурент ... (2) “гендир”: компания; пост; должность; звание; топ-менеджер; лидер; директор...(3) “Эрик Шмидт”: руководитель; спикер; гендир; лидер компании; успешный человек...(4) “сооснователь”: высокопоставленный чиновник; директорская должность; лидерство; бизнес-ангел... (5) “Лари Пейдж”: топ-менеджер; человек; инвестор; умный человек; успешный человек… |
Facebook — место для новых знакомств, а Twitter — место для создания новых отношений. | (1) “Facebook”: социальная сеть; соцмедиа; веб-сайт; сервис; социальная медиаплатформа... (2) “место”: обстоятельство; фактор; событие; фактор окружающей среды; критерий... (3) “Twitter”: социальная сеть; соцмедиа; сервис; платформа... (4) “новые отношения”: жизненные изменения; серьезный вопрос; деликатная тема; вызов… |
“Экономика США снова растёт, но недостаточно быстро”, — заявил президент Барак Обама. | (1) “США”: страна; рынок; валюта; народ; регион; западная страна; экономика... (2) “экономика”: расположение; отрасль; территория ... (3) “Президент Барак Обама”: лидер; демократы; политик; чиновник; лидер демократов; федеральный чиновник; знаменитость; национальный лидер.. |
Партия республиканцев отклонила законопроект президента о реформе здравоохранения. Что теперь? | (1) “Обама”: демократы; политик; лидер; кандидат; президент; сенатор; сторонник... (2) “реформа здравоохранения”: вопрос; законодательство; острый вопрос; вопрос о здравоохранении; политическая инициатива; правительственная программа... |
Google показывает “панели знаний” вместе с результатами поиска, если запрос включает в себя название объекта. Например, по запросу «Джерри Льюис» Google представляет факты о Джерри Льюисе, которые поисковик выбрал с разных веб-страниц. Они включают материалы из Википедии, предстоящие выступления комика, фильмы и телешоу, в которых он участвовал, а также других людей, таких как Дин Мартин, Боб Хоуп, Тони Кёртис, Милтон Берле и других, которых часто ищут в связке с ним.
Поищите Кени Веста, и вы увидите результаты, включающие факты из его жизни, песни, альбомы и других людей, которых могут искать вместе с ним.
Google распознаёт название объекта в запросе и ищет в своей базе информацию для этих “панелей знаний”. Он также может использовать эти данные для обычных результатов поиска. Но Google наверняка будет делать нечто большее, чем просто искать по объектам. Поисковик может также осуществляет поиск по концепциям и свойствам объектов, учитывая предыдущие запросы пользователей.
База знаний, которая включает объекты и их свойства, концепции и ключевые слова, полезна при расширении запросов для показа большего количества релевантных результатов, как в примере выше с Probase.
Построение концептуальной модели базы знаний
За прошлый год Google получил несколько патентов на различные методы разработки концептуальной модели базы знаний, а также на методы более четкого понимания запросов. Документ о Probase под названием “Концептуализация коротких сообщений с использованием вероятностных знаний” описывает некоторые из этих моментов. Вот небольшой отрывок:
“Мы работаем над улучшением понимания текста с помощью вероятностной базы знаний, которая сопоставима с нашим мозгом с точки зрения концепций (словесных фактов), которые она содержит. Затем мы разрабатываем байесовский механизм выводов для концептуализации слов и короткого текста. Мы провели комплексные эксперименты по концептуализации текстовых терминов и кластеризации коротких сообщений, таких как сообщения из Twitter.
В сравнении с чисто статистическими методами, такими как латентно-семантический анализ, или методами, которые используют существующие базы знаний (например, WordNet, Freebase и Wikipedia), наш подход даёт значительные преимущества в понимании короткого текста, что выражается в точности кластеров”.
Авторство и определение компетентности
Программа авторства Google (Google Authorship) позволяет пользователям “подписывать” свой контент, который они создают в cети, в Google Plus и в других онлайн-источниках. Вероятно, Google исследует способы анализа сообщений (постов, статей), написанных не анонимными авторами, чтобы оценить и отсортировать их на основе освещаемых ими тематик.
Чтобы использовать репутацию и компетентность автора как факторы ранжирования с разным приоритетом по разным темам, Google должен понимать концепции, которые описывают люди, а также их отношение к различным темам. Google объясняет на своей странице, как попасть в блок с “углубленными статьями” в результатах поиска:
“Маркер авторства помогает нашим алгоритмам найти и представить нужных авторов и экспертов в результатах поиска Google”.
Чтобы определить компетентность автора в определённой теме, Google должен понимать, о чём он пишет. А также определять, как уровень компетентности можно сравнить с другими авторами, которые пишут на схожие темы. Вот что сказал по этому поводу Мэтт Каттс во время своей презентации на Pubcon 2013:
“Мы изучали вопрос определения и повышения авторитетности. Взять, к примеру, медицину. Если вы обладаете авторитетом в этой сфере, мы хотим это знать и ранжировать ваши тексты выше при запросах на данную тематику. Мы не делаем это вручную, мы не выбираем отдельные тематические области. Мы работаем с тысячами различных тематических областей.
Если вы авторитетный автор в той или иной теме — продолжайте писать, продолжайте развиваться, продолжайте наращивать контент. Вы должны стать источником по-настоящему полезной информации, вы должны быть экспертом в данной теме. И когда это произойдет, вы с большей вероятностью сможете ранжироваться выше”.
Заключение
В обновленном Google алгоритме “Колибри” велики шансы того, что концептуальная модель базы знаний будет использована для лучшего понимания социальных сигналов, например, обсуждений и комментариев в Google+ с целью определения авторитетности темы.
Отрывок из документа Microsoft о базе знаний Probase показывает, как концепции могут быть извлечены из коротких социальных сообщений с помощью такой базы знаний, которая смогла бы работать не только с наименованиями объектов, но и с атрибутами (имеющими отношение к этим объектам/концепциям), описанными в этих коротких сообщениях. В случае если в этой базе знаний не найдены ассоциации с объектом/атрибутом, ведется работа с ключевыми словами из сообщений.
Имейте в виду, что Google активно строит собственную базу знаний, и по мере её роста будет создаваться всё больше ассоциаций, включающих вышеперечисленные элементы.
Статьи выпуска: