Глоссарий


#1

Есть ли на свете какой-нибудь единый англо-русский глоссарий терминов компьютерной лингвистики/NLP? Если нет, не попробовать ли завести?

Например:
vector space model – векторная модель
parsing, syntactic analysis – синтаксический анализ
part-of-speech tagging – частеречная разметка (weird!)
feature learning, representation learning – обучение представлений (?)

Подумалось в связи вот с чем. Да, можно считать, что это второй вопрос : )


#2

Некоторые термины представлены на http://aot.ru/, но сейчас сервер лежит. Мне кажется, что подобный глоссарий будет очень полезен сообществу при подготовке статей, отчётов и докладов. Добавлю несколько терминов:

  • graph-based model — теоретико-графовая модель
  • noun phrase — именная группа
  • similarity measure — мера близости
  • bag-of-words — мешок слов
  • skip-gram — skip-грамма (?)

#3

в 2011 был проект разработки англо-русского тезауруса компьютерной лингвистики. К сожалению, я не могу найти работающей ссылки на него, но точно помню, что кусочек - конечно, тогда не полный и с неточностями, - видела доступным онлайн.
Сходу находится статья про разработку этого тезауруса - вот, например http://ceur-ws.org/Vol-803/paper2.pdf


#4

Да, спасибо. На мой взгляд, интерес представляет не тезаурус, а плоский словарь, в который можно заглянуть и получить «правдивый» перевод термина. Можно обратить внимание на проект OntoMathPro, хотя он больше про математику.


#5

Про глоссарий ничего не могу посоветовать, а по поводу второго вопроса:

Это всё три разных термина.

Векторная модель - это представление данных в виде векторов; вернее в виде больших таблиц, которые затем объявляются матрицами и к ним применяются разные матричные операции. Применяется для самых разных задач, например в информационном поиске, где про семантику вообще нет ни слова.

Дистрибутивная семантика - это направление в компьютерной лингвистике, которое направлено на автоматическое извлечение семантики языковых единиц из текста на основе их взаимной дистрибуции. При этом могут использоваться векторные модели, но это не обязательно. Например, сейчас появляется все больше исследований в дистрибутивной семантике с использованием нейронных сетей.

Word embedding - это новомодный термин, который даже не знаю, как перевести. Суть этого подхода, опять же, в том, что слова представляются на основе их дистрибуций в тексте, но представляютс не в виде простых таблиц, а в виде более хитрых моделей, в которых изначальные данные уже сжаты и преобразованы. Использоваться может как для задач дистрибутивной семантики, так и для других задач автоматической обработки текста, например, для синтаксического разбора.

Вот по поводу этого последнего термина у меня есть некоторые сомнения - действительно ли это что-то принципиально новое, или просто развитие старых добрых векторных моделей. С другой стороны, термин активно вводится в оборот и с этим приходится считаться. Точно так же, deep learning - это новое имя для нейронных сетей. Когда техника анализа достигает определенного развития, ее начинают называть новым именем, чтобы подчеркнуть выход на новый этап.


#6

Если я не ошибаюсь, есть разница между semantic similarity и semantic distance. Семантическая близость - это как раз вторая, а первая - это семантическое сходство, что ли.


#7

Увы, это не та область, в которой я могу дискутировать. Быть может, здесь ответит @panchenko?


#8

Это противоположные вещи: чем больше similarity, тем меньше distance. Например, если брать коминусную метрику, то при наибольшем сходстве она равно 1 (это similarity), а distance можно считать 1 - similarity, при наибольшем сходстве будет 0, что логично.
То есть принципиальной разницы нет, но некоторые алгоритмы (и пакеты) предполагают, что на вход подается либо расстояние, либо степень подобия. Главное, не запутаться, что требуется в конкретном случае.