Краудсорсинг для лингвистики


#1

Предлагаю собрать здесь список всех известных проектов, посвящённых созданию ресурсов для русского языка при помощи краудсорсинга. Это важно для 1) привлечения новых участников, 2) повышения доступности материалов.


#2

OpenCorpora — открытый корпус русского языка, создаваемый при помощи краудсорсинга.

Yet Another RussNet — открытый тезаурус русского языка, создаваемый при помощи краудсорсинга.

NLPub — каталог и сообщество русских лингвистических ресурсов.


#3

Sociation.org — ассоциативный словарь русского языка.

Сентинет — словарь тональности русского языка. Предполагается ли открытие данных?


#5

Сейчас проект Сентинет находится на этапе обработки данных и пополнения списка прилагательных. По завершению проекта Сентинет мы планируем открыть данные любому желающему в двух форматах - база данных и сырые таблицы.


#6

Создание подобных ресурсов — сложный и длительный процесс. Ни один из приведённых выше проектов до сих пор не завершился (даже OpenCorpora с морфологической разметкой, существующий с 2009 года).

Можно узнать чуть подробнее о текущем состоянии Сентинета? Вы только вносите данные для разметки или уже обрабатываете полученные результаты? Чем раньше материалы, даже самые сырые, будут доступны, тем большее количество участников вы сможете привлечь. Если это для вас важно, то сейчас рецензенты на конференциях уделяют существенное внимание открытости ресурса и возможности его повторного использования.

Из открытых ресурсов, мне известно о корпусе твитов с разметкой тональности и списке оценочных слов.


#7

Linis Crowd — открытый словарь тональности русского языка от лаборатории Интернет-исследований ВШЭ. Разные группы внутри Вышки не могут договориться между собой?


#8

sentimeter – инструмент для краудсорс разметки сообщений социальных сетей по тональности. Все размеченные коллекции будут выложены в открытый доступ.


#9

Спасибо! Добавил в каталог ресурсов. Сейчас я насчитываю три разных проекта по разметке тональности для русского языка: Сентинет, Linis Crowd, sentimeter.