| 0. Количество лемм |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.wordcount |
int |
Количество слов в тексте |
Вася шел с женой в театр смотреть оперу |
txt.wordcount=8; |
| 1. Основные текстовые поля |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.origtext[id_word] |
string |
Оригинальное слово из текста |
Столом |
— |
| txt.normtext[id_word] |
string |
Нормализованное слово: нижний регистр, ё → е |
столом |
— |
| txt.lemma[id_word] |
string |
Лемма слова |
стол |
— |
| 2. Знаки препинания и блоки |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.punct[id_word] |
char |
Знак препинания перед словом |
, |
"Вася ехал на самокате, а Петя на роликах" / txt.normtext[4]="а"; txt.punct[4]=','; |
| txt.bound[id_word] |
int |
Разделяет ли смысловой блок |
1 |
0 — нет границы, 1 — есть граница |
| txt.blockstart[id_word] |
int |
Индекс начала смыслового блока |
0 |
"Вася ехал на самокате, а Петя на роликах" / txt.blockstart[2]=0; (Слово НА находится в границах смыслового блока который начинается и индекса 0) |
| txt.blockend[id_word] |
int |
Индекс конца смыслового блока |
5 |
"Вася ехал на самокате, а Петя на роликах" / txt.blockend[2]=4; (Слово НА находится в границах смыслового блока который заканчивается на слове с индексом 4) |
| 3. Морфология |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.pos[id_word] | int | Часть речи | POS_NOUN | — |
| txt.gen[id_word] | int | Род | GEN_MASC | — |
| txt.num[id_word] | int | Число | NUM_SING | — |
| txt.case[id_word] | int | Падеж | CASE_NOM | — |
| txt.anim[id_word] | int | Одушевлённость | ANIM_ANIM | — |
| txt.trans[id_word] | int | Переходность глагола | TRANS_TR | — |
| txt.motion[id_word] | int | Движение | MOTION_VERB | Глагол движения |
| txt.refl[id_word] | int | Возвратность | REFL_TRUE | — |
| txt.asp[id_word] | int | Вид | ASP_PERF | — |
| txt.tense[id_word] | int | Время | TENSE_PAST | — |
| 4. Сущности |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.ner[id_word] | int | Словарные сущности (Аббревиатура, Имя, Гео-объект...) | NER_NAME | — |
| 5. Семантика |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.neg[id_word] | int | Индекс слова-отрицания или -1 | -1 или индекс слова | "Вася не пошел в школу" / txt.neg[2]=1; У слова 'пошел' есть слово отрицание по индексу 1 |
| txt.prep[id_word] | int | Индекс предлога или -1 | -1 или индекс слова | "Вася на роликах" / txt.prep[2]=1; У слова 'роликах' есть предлог по индексу 1 |
| txt.prontype[id_word] | int | Тип местоимения | PRON_PERS | — |
| txt.pers[id_word] | int | Лицо | PERS_1 | — |
| txt.conj[id_word] | int | Тип союза | CONJ_FULL | — |
| txt.dep[id_word] | int | Синтаксическая роль | DEP_SUBJ | — |
| txt.wh[id_word] | string | Вопросительное слово | кто | — |
| txt.whrole[id_word] | string | Роль вопроса | субъект | — |
| txt.qsc[id_word] | int | 0 если не ВСК, иначе кол-во слов | 2 | "В какое время выпал снег?" / txt.qsc[0]=3; ВСК начинается с слова "В" и размер конструкции 3 слова |
| 6. Местоимения |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.corecount[id_word] | int | Количество слов, связанных с местоимением | txt.corecount[7]=2; | "В углу стояла тумбочка и висела картина. Она на ножках" / txt.corecount[7]=2; Местоимение Она имеет 2 кандидата (тумбочка, картина). Сортировка кандидатов от самого вероятного по убыванию |
| txt.coreidx[id_word][n] | int | Индексы слов, к которым относится местоимение | txt.coreidx[7][0]=3; txt.coreidx[7][1]=6; | "В углу стояла тумбочка и висела картина. Она на ножках" / txt.coreidx[7][0]=3; txt.coreidx[7][1]=6; Индексты слов кандидатов (тумбочка, картина) |
| txt.corescore[id_word][n] | double | Оценка связи местоимения со словом | txt.corescore[7][0]=0.366; txt.corescore[7][1]=0.207; | "В углу стояла тумбочка и висела картина. Она на ножках" / txt.corescore[7][0]=0.366; txt.corescore[7][1]=0.207; Оценки вероятностей слов кандидатов (тумбочка 0.366, картина0.207) |
| 7. Синтаксические связи (граф) |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.count[id_word][DEP_] | int | Количество слов, связанных с данным словом по типу синтаксической связи | 1 | "Вася шел в школу" / txt.count[0][DEP_PRED] = 1; Слово "Вася" имеет 1 связь к сказуемому "шел" |
| txt.connect[id_word][DEP_][n] | int | Индекс слова, с которым есть синтаксическая связь | 1 | "Вася шел в школу" / txt.connect[0][DEP_PRED][0] = 1; Слово "Вася" связано с "шел" |
| txt.connectscore[id_word][DEP_][n] | double | Оценка силы/вероятности синтаксической связи | 1.0 | "Вася шел в школу" / txt.connectscore[0][DEP_PRED][0] = 1.0; Полная уверенность в связи |
| 8. Семантические категории |
| Поле | Тип / Значение | Описание | Пример | Примечание |
| txt.catcount[id_word] |
int |
Количество семантических категорий слова |
txt.catcount[5]=3; |
Количество категорий задается при их определение в assigncats (от 0 до 10). При 0 будут определены только вектора слов |
| txt.cat[id_word][n] |
string |
Название категории |
txt.cat[5][0]="живопись_графика_коллаж"; txt.cat[5][1]="произведения_киноискусства"; txt.cat[5][2]="части_произведений"; |
картина - живопись_графика_коллаж ( 0.963 ) , произведения_киноискусства ( 0.936 ) , части_произведений ( 0.911 ) |
| txt.catscore[id_word][n] |
double |
Оценка вероятности принадлежности слова к категории |
txt.catscore[5][0]=0.963; txt.catscore[5][1]=0.936; txt.catscore[5][2]=0.911; |
картина - живопись_графика_коллаж ( 0.963 ) , произведения_киноискусства ( 0.936 ) , части_произведений ( 0.911 ) |