shkolakz.ru 1
Компьютерная грамматика русского языка



Анализ текста естественным образом разбивается на три этапа: анализ отдельного слова, анализ предложения и анализ связного текста. Завершены первые два этапа в создании системы анализа текстов на русском языке. Данная статья является кратким изложением полученных результатов.


На первом этапе каждое слово преобразуется в набор морфо-синтаксических лексем, готовых к взаимодействию друг с другом в предложении. На втором этапе осуществляется их взаимодействие, в процессе которого происходит выбор (как правило единственной) лексемы и связывание выбранных лексем в единую структуру. Основное внимание в статье уделяется второму этапу.

1. Семантика языка и его грамматика. Грамматика языка является абстрактным и в большей или меньшей степени формальным выражением его семантики. Даже такие понятия классической грамматики как дополнение, определение, обстоятельство и т. п. есть абстракции, прямо опирающиеся на смысл слов или словосочетаний. В предложениях – Он говорит с большим художником, Он говорит с большим трудом – невозможно отличить дополнение от обстоятельства без привлечения смысла слов.

Степень адекватности грамматики языка его семантике является критерием ее качества. Грамматика должна служить не столько средством отделения синтаксиса языка от его семантики, сколько средством связывания синтаксических конструкций с их семантикой. Естественное желание оторвать синтаксическую теорию языка от его семантики объясняется либо сугубо теоретическими соображениями, уводящими от решения реальных задач, либо тем, что семантика имеет дело со сложным, трудно формализуемым и потенциально неограниченным множеством значений (смыслов), а синтаксис – с достаточно ограниченным множеством синтаксических конструкций, которое в той или иной степени поддается формализации. Однако невозможно построить адекватную грамматику без формализации множества значений. Суть этой формализации заключается в замене потенциально неограниченного множества значений конечным множеством классов (или типов значений). После этого проблема построения грамматики сводится к увязыванию синтаксических конструкций языка с построенным множеством типов.


Каждый язык содержит составные синтаксические конструкции. Например, фразеологизмы, конструкции типа если … то, ни ... ни и т.п. Но в естественных языках не они являются проблемой для анализа (об этом см. ниже). Основная проблема – анализ простых распространенных предложений. Поэтому грамматика должна связывать с наборами типов каждое отдельное слово. Это означает, что компьютерная грамматика русского языка представляет собой строго формализованный словарь управления с привнесенной в него семантической информацией. Этот словарь назовем синтаксическим.

Синтаксический словарь является частью общего словаря, который содержит всю информацию о слове. Каждое слово в нем описывается набором альтернатив (лексем). Каждая альтернатива представляет собой толкование лексемы на формальном семантическом языке в виде некоторой формулы.


Примеры словарных статей общего словаря.


РАЗБИТЬ г11с \ морфология

1 N%