Контролируемый Русский Язык (КРЯ)


#1

Цель проекта - создание такого подъязыка литературного русского, который “понимался бы и машинами и людьми”.
Здесь мы похоже отстаём. Для английского языка есть более 40-а CNL версий, включая широко известный в узких кругах ACE.
Одно из очевидных требований к грамматике КРЯ - однозначное построение дерева подчинения слов предложения. Несколько лет назад к этому близко подошла группа Кирилла Боярского из Питера. Но они тогда не ставили задачу “зафиксировать” КРЯ. Фактически они решали много более трудную задачу - алгоритм построения дерева подчинения для литературного русского.
Суть идеи именно в ограничении (упрощении) синтаксиса РЯ.
Эта задача вполне лингвистическая: если человеку (в крайнем случае филологу) дать предложение КРЯ он построит дерево подчинения, а алгоритм построит такое же.
Может быть у кого-то есть такой алгоритм?


#2

Привет!

Задача: написать простенькую онтологию простенькой языка с простенькой онтологией мира, чтобы работа резонёра вывела неочевидное но логичное

например, ввод дополнительного описания мира (и языка) - через парсер, дающий отношение типо “буква (название буквы) на позиции (номер позиции буквы в тексте)”

запуск резонёра должен вывести параграф, абзац, предложение, слово, коень, суффикс, спряжение клонение и “кто разводит рыбу” :smile:

для простоты делаем так:

  1. стартуем онтолию КРЯ, например, здесь
    http://webprotege.stanford.edu/#Edit:projectId=66c57014-9c61-4043-9d9b-de9e373f0899

дописываем вместе

  1. грузим Протеже с резонёрами отсюда http://protege.stanford.edu/ и запускаем какой-то резонёр -смотрим, что вышло

обсуждаем, что куда добавить

годится?


#3

вот такой примерчик “человек смертен. Сократ человек.”

можно написать для начала добавить в скобках то, что предполагается по умолчанию

“(класс)человек (подкласс класса) (класс)смертен. (индивидуал)Сократ (индивидуал класса) (класс)человек”

надо, чтобы резонёр синтаксически разобрал эту пару предложений и вывел логическое следствие ОДНОВРЕМЕННО

потом для общего впечатления сделаем так же историю про Незнайку, его друзей и рыбку Эйнштейна


#4

Добрый день!

Различные предикаты из текста можно извлекать с использованием морфосинтаксических шаблонов при помощи, например, Томита-парсера.

Мне известны работы по разработке русского UNL (Диконов, 2013), преследующие подобную цель. Вы пытались адаптировать эти результаты? https://github.com/dikonov/Universal-Dictionary-of-Concepts


#5

Юрий, дружище! Ты бы запостил отдельную тему.

Я в своей теме хотел обсудить строго одну идею:
Техническое задание,а за тем стоимость работ по написанию алгоритма, созданию информационной системы, которые разбирают широкий класс правильных предложений РЯ и строят дерево подчинения.

КРЯ!


#6

Добрый день!

Нам нужна программа, ИС которые правильно разбирают подмножество РЯ. Сам я её сделать не пытался ибо делаю язык в который надо будет транслировать КРЯ: YAFOLL. Кое-кто (не будем показывать пальцем) стал бы транслировать в OWL2, CL…
Такая программа либо есть (вход - предложение РЯ, выход - дерево подчинения) либо нет.
Если есть мы её используем по договорённости с автором.
Если же адаптировать нечто, то начнём, наверно, с GF - Grammatical Framework - там есть РЯ.
А с нуля я бы стал писать КСГ РЯ и уже по ДРВ строить дерево подчинения.

Спасибо за ссылки!


#7

Grammatical Framework имеет поддержку русского языка (ParadigmsRus.gf), но факты использования этого инструмента мне неизвестны. На NLPub есть каталог синтаксических анализаторов, возможно стоит обратить внимание на другие решения.

Техническое задание, составленное по ГОСТ, требуется в достаточно небольшом количестве случаев. Мне кажется, лучше организовать работу в форме постановок задач. Ваша работа открыта?


#8

Конечно надо будет посмотреть и другие варианты.
Хочу отметить важный нюанс - для предложения РЯ, деревьев разбора/вывода (ДРВ) может быть столько сколько грамматик, а дерево подчинения одно:-)
У ДРВ в узлах - не листьях - нетерминалы грамматики и только листья - слова предложения.
А в дереве подчинения в каждом узле по слову предложения.
:smile:

Конечно оформлять ТЗ по ГОСТ-34 не обязательно. Можно и задачу поставить, т.е. я думал что она в посте поставлена. Ну по крайней мере содержится.

Проект предполагается с открытым кодом:-)


#9

Привет снова

по делу:

  1. транслировать КРЯ в YAFOLL- это хорошо, но что птом с этим делать? а если транслировать в OWL2 (для описания того, что имеет смысл описывать), то потом можно запускать кучу (три) резонёров и получать логические выводы см. http://feofan.com

а так, YAFOLL годится (как и любой другой язык формальной логики какого-то уровня-порядка) - только где он? где машины вывода? так что кроме OWL2 - пока реальных кандидатов нет

  1. то, что я предложил - это тоже по делу

простейшая парадигма описания (предложения) в OWL2 и КРЯ - это триада “субъкт объект предикат”

мама моет раму
дом имеет окна
окна имеют рамы

вот хотя бы такие предложения разобрать и представить в виде онтологии
то есть нужно дополнительно описать число, род, склонение

так вот - этот твой проект я только что (здесь вчера) начал и это пока ничего не стоит :smile:

парсить уже существующий ря не имеет смысла - очень дорого и 80% успеха будет мечтой

а во строить шаг за шагом онтологию по простым парадигмам предложений русского языка - это правильный путь

спорим? :smile:

ПС Исходный код «Томита-парсера» закрыт и принадлежит ООО «ЯНДЕКС».


#10

Я сейчас к 22 сентября пишу short paper про YAFOLL из неё будет видно как и что на нём можно делать :wink:
А твоему подходу я уже давно рукоплещу!


#11

22 сентября - какого года? :wink:

и заодно пиши машину вывода!

а я сейчас прям тут напишу short message про “умный русский язык” УРЯ - то есть подверсию OWL2 (похожий на РЯ), так, чтобы сегодня он что-то сообразил

щас сделаю отдельную ветку - по твоему совету - чтобы не засорять эту

ПС ритмичный РЯ сделаем позже - машины тоже хотят сочинять и понимать стихи


#12

Года этого - http://bionetics.org/2015/show/workshop-bcbi


#13

European Alliance for Innovation - в декабре в Нуорке??? брррр… хотя это на любителя - перед рождеством - лампочки всякие переливаются - главное, чтоб снегом не засыпало :smile:


#14

Если бы при синтаксическом разборе не возникала проблема неоднозначности, то компьютерная лингвистика давно решила бы свою задачу как наука. Не стоит так сильно доверять парсерам.

Обычно работа ведётся следующим образом. Создаётся репозиторий, разрабатывается прототип, потом этот прототип представляется публике. До этого момента стоит надеяться только на себя.


#15

да-да-да! именно!

поэтому нужно не анализировать а синтезировать! и смыслы, и синтаксис, и морфологию, и звуки… ну всё, что уже сделано природой в естественных языках

от простого - к сложному!

читаем Вольфрама!

сколько людей - столько и языков (в некотором смысле)

поэтому “правильным” будет язык, который выработается для удобства общего дела

вот давайте делать общеедело - язык УРЯ (синтез понятий о буквах, словах, предложениях и мире) - и будет нам счастье - т.е. машинный русский язык!

начать можно с DL и работающих уже резонёров под онтологией на КРЯ-OWL2 - но это только для старта - потом все платформы и логики можно растить во все стороны - куды ума и интересу хватить :smile:

для этого нужно научиться запускать эти инструменты в работу и спорить по существу вопроса (а не вообще)

предлагаю Protege и онтологию http://bb.feofan.com/srulang.owl (стартануть Протеже, загрузить онтологию и запустить резонер и посмотреть на жолтенькое)

потом можно добавлять “буквы” как онтологии - будет работать!

кто сможет это сделать? у Алекса - аллергия… Дмитрий?


#16

Так начинайте. Я видел ваш постер в списке принятых на KESW 2015. Это отличное место для того, чтобы представить и обсудить работу.


#17

кажется мы с тобой забили эту ветку - мой ответ нарывается на 500


#18

Послал ответ почтой - сервер гонит 500


#19

Маловероятно, что дело в забитой ветке. Воспроизводится ли проблема сейчас?


#20

я уже купил билет в Трансаэро но (говорят, что Трансаэро почти банкрот - как бы чего не вышло :slight_smile: самый лучший вариант, чтобы в Москву успеть влететь, а оттуда - не вылететь :slight_smile:

жалко денег на регистрацию - не понятно за что платить 100 евро? потому что (предполагаю) реакция будет примерно такая же как здесь - типо “пилите Шура, пилите”

а они ж такИ золотые - т.е. русский язык плюс знания в одном флаконе (в онтологии)

вот я сейчас думаю, а что нужно написать в онтологии, чтобы сказка про курочку рябу, (введённый по буквам, желательно), выдал какой-нибуть нетривиальный логический вывод?

ладно, пока вы идею не поняли… что тут обсуждать? трясти надо!
сделаю пример - доложу суда, хоть вы все (два) тут большие лентяи (не умеете и не хотите запустить резонёр на онтологии - угадал?)

а тратить время на поливание сухой ветки - времени не жаль?

это я по теме - что ветка забита

вэбсайт хорош - спору нет

а вот народу мало, причем и те кто есть - скушно и редко пишуть

так что давайте беречь то что есть

не буду вас обижать - пойду думу думать и дело делать

введу букву как понятие (класс) и реальность (индивидуала) в “онтологию номер раз” (это был давно такой старый спектакль “коммуна номер раз” - на основе книжки про первую коммуну батьки Махно - я думаю это от одесского выражения “рассказ номер раз”)

ладно, сухая ветка сухого куста (ресурса) не может отсохнуть - она может только расцвести если повезёт, конечно :smile:

доброе утро (вечер)