Google создала Wikilinks Corpus, который поможет компьютерам лучше понимать человеческий язык

Google представила инструмент, который поможет разработчикам «обучить» свои приложения пониманию запросов и команд на естественном языке, с использованием многозначных слов. Бесплатный набор данных Wikilinks Corpus, разработанный специалистами университета Массачусетса, представляет собой коллекцию из 40 млн многозначных слов (упоминаний, как их называют создатели, — от англ. mention).

Оцените:

Этот огромный набор упоминаний сформирован из слов, встречающихся на 10 млн веб-страниц и являющихся ссылками на статьи в «Википедии» с одноименными заголовками. Анализируя контекст каждого упоминания одновременно с анализом статьи в «Википедии», можно достаточно точно определять значения многозначных слов и находить разные веб-страницы, на которых эти упоминания используются в одинаковом значении.



Люди довольно точно воспринимают неоднозначности, вызываемые употреблением одинаковых слов, например, «коса» как прическа или «коса» как часть суши у моря или «чайка» как птица и «чайка» как название автомобиля. Такое восприятие связано с опытом использования языка, применением слов в разных контекстах. Аналогичный алгоритм положен в основу Wikilinks Corpus.


В базе Wikilinks Corpus насчитывается 40 млн терминов, найденные на 10 млн веб-страниц. Это в 100 раз больше, чем вторая по величине база неоднозначностей, содержащая только 100 тыс. упоминаний.


Разработчикам приложений и исследователям, работающим с большими базами данных, рекомендуем ознакомиться с постом в официальном блоге Google Research.

Оцените:

Комментарии Facebook

Комментарии ВКонтакте