Google создала Wikilinks Corpus, который поможет компьютерам лучше понимать человеческий язык
Google представила инструмент, который поможет разработчикам «обучить» свои приложения пониманию запросов и команд на естественном языке, с использованием многозначных слов. Бесплатный набор данных Wikilinks Corpus, разработанный специалистами университета Массачусетса, представляет собой коллекцию из 40 млн многозначных слов (упоминаний, как их называют создатели, — от англ. mention).
Этот огромный набор упоминаний сформирован из слов, встречающихся на 10 млн веб-страниц и являющихся ссылками на статьи в «Википедии» с одноименными заголовками. Анализируя контекст каждого упоминания одновременно с анализом статьи в «Википедии», можно достаточно точно определять значения многозначных слов и находить разные веб-страницы, на которых эти упоминания используются в одинаковом значении.
Люди довольно точно воспринимают неоднозначности, вызываемые употреблением одинаковых слов, например, «коса» как прическа или «коса» как часть суши у моря или «чайка» как птица и «чайка» как название автомобиля. Такое восприятие связано с опытом использования языка, применением слов в разных контекстах. Аналогичный алгоритм положен в основу Wikilinks Corpus.
В базе Wikilinks Corpus насчитывается 40 млн терминов, найденные на 10 млн веб-страниц. Это в 100 раз больше, чем вторая по величине база неоднозначностей, содержащая только 100 тыс. упоминаний.
Разработчикам приложений и исследователям, работающим с большими базами данных, рекомендуем ознакомиться с постом в официальном блоге Google Research.
Комментарии Facebook
Комментарии ВКонтакте