Структура NLP

0. Количество лемм
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.wordcount int Количество слов в тексте Вася шел с женой в театр смотреть оперу txt.wordcount=8;
1. Основные текстовые поля
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.origtext[id_word] string Оригинальное слово из текста Столом
txt.normtext[id_word] string Нормализованное слово: нижний регистр, ё → е столом
txt.lemma[id_word] string Лемма слова стол
2. Знаки препинания и блоки
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.punct[id_word] char Знак препинания перед словом , "Вася ехал на самокате, а Петя на роликах" / txt.normtext[4]="а"; txt.punct[4]=',';
txt.bound[id_word] int Разделяет ли смысловой блок 1 0 — нет границы, 1 — есть граница
txt.blockstart[id_word] int Индекс начала смыслового блока 0 "Вася ехал на самокате, а Петя на роликах" / txt.blockstart[2]=0; (Слово НА находится в границах смыслового блока который начинается и индекса 0)
txt.blockend[id_word] int Индекс конца смыслового блока 5 "Вася ехал на самокате, а Петя на роликах" / txt.blockend[2]=4; (Слово НА находится в границах смыслового блока который заканчивается на слове с индексом 4)
3. Морфология
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.pos[id_word]intЧасть речиPOS_NOUN
txt.gen[id_word]intРодGEN_MASC
txt.num[id_word]intЧислоNUM_SING
txt.case[id_word]intПадежCASE_NOM
txt.anim[id_word]intОдушевлённостьANIM_ANIM
txt.trans[id_word]intПереходность глаголаTRANS_TR
txt.motion[id_word]intДвижениеMOTION_VERBГлагол движения
txt.refl[id_word]intВозвратностьREFL_TRUE
txt.asp[id_word]intВидASP_PERF
txt.tense[id_word]intВремяTENSE_PAST
4. Сущности
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.ner[id_word]intСловарные сущности (Аббревиатура, Имя, Гео-объект...)NER_NAME
5. Семантика
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.neg[id_word]intИндекс слова-отрицания или -1-1 или индекс слова"Вася не пошел в школу" / txt.neg[2]=1; У слова 'пошел' есть слово отрицание по индексу 1
txt.prep[id_word]intИндекс предлога или -1-1 или индекс слова"Вася на роликах" / txt.prep[2]=1; У слова 'роликах' есть предлог по индексу 1
txt.prontype[id_word]intТип местоименияPRON_PERS
txt.pers[id_word]intЛицоPERS_1
txt.conj[id_word]intТип союзаCONJ_FULL
txt.dep[id_word]intСинтаксическая рольDEP_SUBJ
txt.wh[id_word]stringВопросительное словокто
txt.whrole[id_word]stringРоль вопросасубъект
txt.qsc[id_word]int0 если не ВСК, иначе кол-во слов2"В какое время выпал снег?" / txt.qsc[0]=3; ВСК начинается с слова "В" и размер конструкции 3 слова
6. Местоимения
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.corecount[id_word]intКоличество слов, связанных с местоимениемtxt.corecount[7]=2;"В углу стояла тумбочка и висела картина. Она на ножках" / txt.corecount[7]=2; Местоимение Она имеет 2 кандидата (тумбочка, картина). Сортировка кандидатов от самого вероятного по убыванию
txt.coreidx[id_word][n]intИндексы слов, к которым относится местоимениеtxt.coreidx[7][0]=3; txt.coreidx[7][1]=6;"В углу стояла тумбочка и висела картина. Она на ножках" / txt.coreidx[7][0]=3; txt.coreidx[7][1]=6; Индексты слов кандидатов (тумбочка, картина)
txt.corescore[id_word][n]doubleОценка связи местоимения со словомtxt.corescore[7][0]=0.366; txt.corescore[7][1]=0.207;"В углу стояла тумбочка и висела картина. Она на ножках" / txt.corescore[7][0]=0.366; txt.corescore[7][1]=0.207; Оценки вероятностей слов кандидатов (тумбочка 0.366, картина0.207)
7. Синтаксические связи (граф)
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.count[id_word][DEP_] int Количество слов, связанных с данным словом по типу синтаксической связи 1 "Вася шел в школу" / txt.count[0][DEP_PRED] = 1; Слово "Вася" имеет 1 связь к сказуемому "шел"
txt.connect[id_word][DEP_][n] int Индекс слова, с которым есть синтаксическая связь 1 "Вася шел в школу" / txt.connect[0][DEP_PRED][0] = 1; Слово "Вася" связано с "шел"
txt.connectscore[id_word][DEP_][n] double Оценка силы/вероятности синтаксической связи 1.0 "Вася шел в школу" / txt.connectscore[0][DEP_PRED][0] = 1.0; Полная уверенность в связи
8. Семантические категории
ПолеТип / ЗначениеОписаниеПримерПримечание
txt.catcount[id_word] int Количество семантических категорий слова txt.catcount[5]=3; Количество категорий задается при их определение в assigncats (от 0 до 10). При 0 будут определены только вектора слов
txt.cat[id_word][n] string Название категории txt.cat[5][0]="живопись_графика_коллаж"; txt.cat[5][1]="произведения_киноискусства"; txt.cat[5][2]="части_произведений"; картина - живопись_графика_коллаж ( 0.963 ) , произведения_киноискусства ( 0.936 ) , части_произведений ( 0.911 )
txt.catscore[id_word][n] double Оценка вероятности принадлежности слова к категории txt.catscore[5][0]=0.963; txt.catscore[5][1]=0.936; txt.catscore[5][2]=0.911; картина - живопись_графика_коллаж ( 0.963 ) , произведения_киноискусства ( 0.936 ) , части_произведений ( 0.911 )