Словарь имен на русском языке


#1

Кто-нибудь может подсказать словарь мужских и женских имен на русском языке?


#2

При разработке и тестировании Petrovich мы использовали словарь АОТ. Он содержит имена, фамилии и отчества. Файл с выгруженными фамилиями есть в репозитории под названием surnames.tsv.

Некоторое время назад я написал для Ruby библиотеку для работы с морфологическими словарями под названием Myasorubka. С её помощью можно работать со словарём АОТ очень легко и удобно. Если знаешь Python, то можно освоить Ruby за вечер.


#3

В OpenCorpora имена немного получше, чем у AOT - там, например, есть значительно больше имен в звательном падеже. Из pymorphy2 вытащить их можно так:

names = [p for p in morph.iter_known_word_parses() 
         if {'Name', 'sing', 'nomn'} in p.tag]

это если нужны только в И.п. ед.ч. Как на м/ж разделить, думаю, тоже понятно.

Проверка того, что слово может быть человеческим именем:

any('Name' in p.tag for p in morph.parse(word))

Но там полно имен вроде “адринэ” или “цезарина” (думаю, и у аот тоже) - если нужны только распространенные, лучше либо полученный список как-то отфильтровать (в корпусе поискать?), либо где-нибудь еще список имен искать.


#4

Есть списки фамилий и имен из http://www.speakrus.ru/dict/#fio и онлайн-источников.
Может, пригодится
https://bitbucket.org/gisly/prj_heritage_hg/downloads (names.txt и surnames.txt)

В фамилиях, правда, попадается мусор типа “Аандреева”


#5

Спасибо за ответы. От себя хотел сказать, что есть словари имен извлеенные из соц сетей. Пока не выложил куда-нибудь, но если вам нужно пишите мне.