Русский корпус с именованными сущностями


#1

Существует ли открытый русскоязычный корпус, на котором можно обучить NER-r?


#2

В качестве корпуса текстов можно использовать материалы Википедии. Это не всегда точно, зато дёшево. Если нужны просто данные для построения модели, то можно посмотреть на недавно опубликованный JRC-Names.


#3

С большой вероятностью мы (OpenCorpora) до конца года начнём разметку сущностей. Следите за анонсами :smile:


#4

Как я и говорил, мы начинаем краудсорсинг разметки сущностей в нашем корпусе. Присоединиться можно здесь, предварительно просим прочесть инструкцию.


#5

Да, круто. Стоял рядом с вашим постером на RuSSIR :slight_smile:

Мне кажется, наблюдаются какие-то проблемы с производительностью. Страницы еле открываются. Слишком много пользователей пришло попробовать новый интерфейс?


#6

Оценил твою иронию. Нет, производительность в целом в норме, но иногда (редко) я запускаю тяжёлый процесс, который подвешивает всё на пару минут. Вот минут пять назад запускал.


#7

Никакой иронии. Сейчас попробую ещё раз.


#8

@granovsky в инструкции сказано, что результаты деятельности человека размечаются как title, однако программное обеспечение и прочие сущности размечаются как misc. К какому типу относятся, например, наименования техники? IBM ThinkPad T43 — это title или misc?


#9

Инструкция не окончательная, внёс твой вопрос в список для обсуждения.
Пока можно поставить и title, и misc.