MTsar и TurboText


#1

Нужно разметить 1000 групп Вконтакте по 3 темам (группа может не относиться ни к одной теме, либо относиться сразу к нескольким, так что это multiple choice). Разметка будет производиться средствами MTsar + Boyarin (спасибо автору за отличные инструменты!), аннотаторы привлекаются через TurboText. Авторизация в MTsar - через facebook/vk.

1, Сделать 1 задание в Турботексте на разметку 1000 групп и один процесс в MTsar.
2. Сделать 10 заданий в Турботексте на разметку 100 групп каждое и 10 процессов в MTsar.
3. Сделать 1 задание в Турботексте на разметку 100 групп, которое можно выполнять сколько угодно раз, и 1 процесс в MTsar.

Первый вариант наиболее удобен для обработки, но на разметку 1000 групп может уйти несколько дней - кажется, это многовато для микротаска.

Буду благодарен за соображения по поводу того, какой из вариантов лучше выбрать, и как наладить взаимодействие между Turbotext и MTsar.


#2

Когда я выполнял разметку на TurboText, то для объединения заданий в пулы задавался параметр tasksPerPage в JSON-поле options таблицы stages.

Всё проходило в единственной микрозадаче, для которой задавалось ограничение на общее количество выполнений. Если интересно, могу показать скриншоты. Основной сложностью было успевать принимать и подтверждать ответы.


#3

Дима, а сколько всего было заданий и какие ограничения ты ставил и из каких соображений? И еще, качество разметки как-то проверялось? В принципе аннотаторы же могут выбирать ответы случайно - так будет быстрее.


#4

В пул входило пятнадцать заданий. Каждое задание выполнялось не менее, чем пятью разными участниками с использованием FixedNumberAllocator. Кроме того, для агрегации ответов использовался метод ZenCrowd, оценивающий сложность заданий, компетентность участников, и взвешивающий ответы на основе этой информации (см. таблицу 4 в статье). Я запускал три разных процесса, вместе состоящих из 2558 заданий.