Хранение наборов данных


#1

Компьютерная лингвистика очень сильно зависит от доступных наборов данных: словарей, тезаурусов, корпусов, и других ресурсов.

Часто люди хотят опубликовать данные, полученные в рамках своих исследований. Это прекрасно, но материалы оказываются выложены на различные файлообменники или бесплатные хостинги. За пару лет на файлообменнике заканчивается место и он начинает стирать непопулярные файлы. В итоге, страдают все.

Имеет ли смысл открыть при NLPub удобный сервис хранения наборов данных? Кто готов присоединиться к инициативе?


#2

Привет!

Хранить можно что-нибудь маленькое можно и на github-e. Проблема возникает с большими архивами и корпусами (корпуса в десятки и сотни гигабайт).


#3

@panchenko, спасибо за ответ! Да, похоже, что пока сложно предложить что-то стоящее.

Я вижу две проблемы, связанные с GitHub. Во-первых, мне иногда кажется, что люди очень боятся им пользоваться. Во-вторых, git рассчитан на работу с текстовыми файлами, и с достаточной неприязнью относится к хранению бинарных данных: файлы постоянно будут перезаписываться, место будет тратиться крайне неэффективно, да и вытягиваться репозиторий будет неприлично долго. Тем не менее, для относительно небольших наборов текстовых данных он подойдёт хорошо. Особенно благодаря GitHub Pages.

Надо отметить, что ZENODO позволяет хранить файлы размером до двух гигабайт и даже назначает им DOI. Не уверен, что это нужно для каждой публикуемой коллекции. Это отличный сервис, но лично я не всегда способен плыть по их интерфейсу.

Корпуса в десятки и сотни гигабайт — до сжатия, или после? В любом случае, сегодня у нас на это мощностей не хватит.


#4

Мне кажется, что большинство лингвистических данных закодировано (или должно быть закодировано) в небинарном формате. С трудом могу представить что это должны быть за данные для которых нужен был бы сложный бинарный формат.

Больших корпусов много, например Librusec это более 200 Гб в разжатом виде. Корпус постов фейсбука потянет на Тб, все посты ВК это десятки Тб.

Такого рода данные хорошо хранить в gz. Тогда они занимают меньше места и их можно потоково читать.