shkolakz.ru 1 2 3 4
Лингвистическая онтология по

естественным наукам и технологиям для
приложений в сфере информационного-поиска


Б.В. Добров1, Н.В. Лукашевич2


Аннотация

В работе описывается идея, методология и текущее состояние проекта по созданию лингвистической онтологии – специального информационно-поискового тезауруса для автоматической обработки текстов по естественным наукам. В настоящее время ресурс содержит более 30 тысяч понятий, 70,000 терминов для таких научных дисциплин как математика, физика, химия, геология и биология. В статье также рассматриваются типы изменений описаний понятий, происходящих при перемещении описаний из общезначимой лингвистической онтологии в лингвистическую онтологию конкретной прикладной области.


1. Введение


Эффективное решение задач информационного поиска научно-технической информации является одним из условий перехода отраслей экономики на качественно новые технологические уровни.

Большое распространение получили глобальные машины поиска, обеспечивающие поиск на основе лексического совпадения запроса и документа. Для профессионального, в том числе научно-технического, поиска информации требуется обеспечение поиска, основанного на знаниях, – использование синонимов, возможности автоматического расширения запроса, возможностей автоматического анализа результатов запроса и помощь в интерактивном поиске.



Традиционными средствами тематического поиска научной информации в течение многих лет являлись информационно-поисковые тезаурусы. Однако такие тезаурусы создавались для их использования в процессе ручного индексирования и поиска, и не обеспечивают эффективного информационного поиска в автоматических режимах (Salton, 1998; Soergel et.al., 2004).

В настоящее время перспективы организации более качественного, содержательного информационного поиска в сети интернет связываются с разработкой онтологий.


Согласно (Gruber, 1993), под онтологиями понимают систему явной концептуализации предметной области, то есть формального представления предметной области.

Отметим, что существуют разные формальные интерпретации (Guarino, 1998; Hovy, 1998; Stumme, 2001) столь нечеткого определения. Общим для всех формализаций является выделение множества объектов (концептов, понятий), алфавита отношений, правил установления отношений и аксиом, задающих правила вывода на множестве отношений.

С точки зрения использования онтологий в задачах автоматической обработки текста существует два подхода к установлению соответствия между онтологией предметной области и языком предметной области (лексиконом).

С одной стороны, сначала строится система понятий, которым затем приписываются наборы языковых выражений (слов, терминов, словосочетаний). Обнаружение этих выражений в тексте позволяет инициировать соответствующие понятия и связанные с ними правила (Gruber, 1993).

С другой стороны, замечено, что существующие лингвистические ресурсы (словари, глоссарии, тезаурусы) также задают определенную концептуализацию предметной области.

В результате, согласно современным воззрениям, термину «онтология» удовлетворяет широкий спектр структур, представляющих знания о той или иной предметной области. В качестве в разной степени формализованных онтологий рассматриваются (Welty et.al., 1999):


  1. Словарь с определениями,




  1. Простая таксономия,




  1. Тезаурус (таксономия с терминами),


  1. Модель с произвольным набором отношений,


(*)

  1. Таксономия и произвольный набор отношений,




  1. Полностью аксиоматизированная теория.




Одновременно подчеркивается (Gomez-Perez et.al., 2000) различие между фундаментальными онтологиями (fundamental ontologies), которые описывают предметную область максимально полно ((*), п.6), безотносительно к приложениям и обычно с максимальной степенью формализации, и прикладными онтологиями (application ontologies), которые также называются «легкими» онтологиями (lightweight ontologies) и которые формализуются настолько, насколько это необходимо для приложения ((*), пп. 1-5).

Понятно, что создать фундаментальную онтологию для большой области научного знания не представляется возможным в силу существования различных теорий и постоянного изменения трактовки самых базовых понятий.

С другой стороны, степень формализации описания предметных областей в традиционных информационно-поисковых тезаурусах оказалась недостаточной для автоматического расширения запросов в информационном поиске .

Возникает вопрос, какова же должна быть степень формализации предметной области, структура онтологии, чтобы

  • с одной стороны, эту онтологию можно было создать и начать использовать в разумные сроки (2-3 года) относительно небольшим коллективом,

  • с другой стороны, чтобы степень формализации понятийной структуры предметной области обеспечивала возможность содержательного информационного поиска в автоматических режимах.

Как уже указывалось, понятия онтологии, предназначенные для поддержки решения задач информационного поиска, должны быть аккуратно связаны со значениями терминов предметной области. Такого рода онтологии называются лингвистическими онтологиями: главной характеристикой лингвистических онтологий является то, что они связаны со значениями (“are bound to the semantics”) языковых выражений (слов, именных групп и т.п.) (Gomez-Perez et al., 2000)


В качестве примера лингвистической онтологии часто приводится ресурс WordNet (Miller et.al., 1990). Этот ресурс представляет в виде иерархической структуры систему значений слов общезначимого английского языка. Вместе с тем возникает достаточно много проектов, которые описывают на основе модели WordNet терминологические системы конкретных предметных областей, то есть создают лингвистические онтологии этих областей (Buitellar, Sacalenau, 2001; Vossen, 2001; Roventini, Marinelli, 2004).


Под руководством авторов в 2004 году были начаты работы над созданием лингвистической онтологии для автоматической обработки в области естественных наук.

В статье, обобщающей работы (Добров и др., 2005; Добров, Лукашевич, 2006а,б), описывается идея, методология и текущее состояние проекта. Во втором разделе рассматриваются достоинства и недостатки существующих лингвистических ресурсов с точки зрения применимости для автоматической обработки научных текстов в сфере естественных наук. В третьем разделе мы описываем идею и основные положения проекта создания лингвистической онтологии для естественных наук. В следующем разделе описывается ранее созданные авторами онтологии – Тезаурус русского языка РуТез, Общественно-политический тезаурус, на основе методологии создания которых создается и новая лингвистическая онтология. В пятом разделе излагаются этапы построения онтологии, приводятся данные о текущем состоянии ресурса, о способах тестирования создаваемой онтологии. Шестой раздел описывает типы изменений в описаниях понятий, полученных онтологией ОЕНТ из Тезауруса РуТез.


2 Ресурсы для смыслового анализа электронных коллекций


2.1 Традиционные информационно-поисковые тезаурусы

Хронологически первыми ресурсами, служащими для упорядочения работы с электронными коллекциями были информационно-поисковые тезаурусы (ИПТ) (ИНИОН, 1989; Шемакин, 1974; UNBIS Thesaurus, 1976; LIV, 1994), в которых синонимичные термины были собраны вокруг наиболее представительного термина (предпочтительного термина), называемого дескриптором, а между дескрипторами устанавливались отношения.


Однако традиционные информационно-поисковые тезаурусы разрабатывались для ручного индексирования человеком- индексатором, а объем потоков информации в настоящее время значительно превосходит возможности индексаторов по их тематической обработке. Применение традиционных информационно-поисковых тезаурусов при автоматическом индексировании и автоматическом расширении запроса приводит лишь к ухудшению характеристик поиска по сравнению с поиском по словам (Salton, 1989; Voorhees, 1999).

Это связано с тем, что традиционный информационно-поисковый тезаурус описывает по сути дела искусственный язык, служащий для фиксации основной темы документа. Человек-индексатор должен был перевести естественный язык документа на искусственный язык тезауруса. Поэтому вся процедура разработки и использования информационно-поисковых тезаурусов основывалась на лингвистических и предметных знаниях эксперта. Многие решения, принимаемые в процессе создания тезаурусов, были направлены на то, чтобы сделать работу индексатора более удобной и менее субъективной.

Чтобы использоваться в автоматическом режиме традиционным тезаурусам не достает значительного объема информации:


  • описания большого количества понятий более низкого уровня иерархии, чем представленные дескрипторы;

  • намного более подробное описание синонимии терминов;

  • описания многозначности слов;

  • недостаточна также система традиционных отношений между дескрипторами тезауруса и их свойств, базирующая в основном на использовании отношений ВЫШЕ-НИЖЕ и Ассоциация.

В России наиболее известен Тезаурус научно-технических терминов (Шемакин, 1974), который издан в 1972 году. Тезаурус описывает терминологию военно-промышленного комплекса 70-х годов, не соответствует реалиям и технологиям настоящего времени. ВИНИТИ обладает громадным массивом научно-технических текстов, имеются наборы терминов (Белоногов и др., 1993) по научно-техническим отраслям. Но эти термины не организованы иерархическими связями в единый ресурс научно-технической терминологии.



2.2 От информационно-поисковых тезаурусов к фундаментальным онтологиям


Некоторые авторы (Soergel et al., 2004; Tudhope et al., 2001), решая проблему модификации традиционных информационно-поисковых тезаурусов к современным задачам автоматической обработки больших текстовых коллекций, предлагают преобразовать систему отношений тезауруса в более формализованный набор предикатов (уровень формализации 5, см. введение) и описать правила вывода (аксиомы).

Так, например, в работе (Soergel et al., 2004) в качестве примеров модификации информационно-поискового тезауруса по сельскому хозяйству AGROVOC приводятся следующие словарные статьи:

Исходные статьи тезауруса (NT – отношение НИЖЕ, BT - отношение ВЫШЕ):

milk

NT cow milk

NT milk fat

cow

NT cow milk

Cheddar cheese

BT cow milk


Преобразованные словарные статьи выглядят следующим образом:

milk

<includesSpecific> cow milk

<containsSubstance> milk fat

cow

<hasComponent> cow milk

Cheddar cheese

<madeFrom> cow milk


Пример предлагаемых правил вывода:

Правило 1:

Part_X <mayContainSubstance> Substance_Y

IF Animal_W <hasComponent> Part_X

AND Animal_W <ingests> Substance_Y


Правило 2:

Food_Z <containsSubstance> Substance_Y:

IF Food_Z <madeFrom> Part_X

AND Part_X <containsSubstance> Substance_Y

Предполагается, что система, имея такие правила вывода, может автоматически получить, что сыр-чеддер содержит (containsSubstance) молочный жир, и, что если коровы на ферме съели корма, зараженные ртутью, то, сыр, сделанный из этого молока, также, возможно, будет заражен ртутью (Cheddar cheese <mayContainSubstance>mercury).


Однако, чтобы такой вывод действительно отработал, помимо изменений в описании понятий и терминов предметной области, нужно иметь автоматические средства обработки естественно-языковых текстов, позволяющие в неограниченном связном тексте точно и полно извлекать последовательности фактов, уметь прослеживать кореферентность, следить за временем извлекаемых фактов: в корма попала ртуть, эти корма принадлежат данной ферме, коровы этой фермы съели именно эти корма, изготовление сыра чеддер этой фермой произведено в период времени сразу после того, как эти коровы съели эти корма и т.п.

Кроме того, в тексте слова корма и ртуть могут оказаться в разных частях длинного предложения, или в разных предложениях текста, например, из-за использования эллиптической конструкции или местоимения и т.п., что значительно усложнит выявление этого факта.

Понятно, что в настоящее (и ближайшее) время ни одна из существующих систем автоматической обработки текстов, извлечения знаний из текстов не может обеспечить такой уровень точности и полноты получения информации из текстов, на которых надежно можно было обосновывать работу таких правил вывода.

Таким образом, по нашему мнению, значительные трудозатраты на такого рода формализацию информационно-поисковых тезаурусов не приведут к улучшению качества автоматической обработки текстов и созданию ресурсов, лучше приспособленных к автоматическим режимам работы, чем существующие информационно-поисковые тезаурусы.


2.3 Отношения в онтологии, применяемой в неопределенных контекстах

На основе анализа, проведенного в предыдущей секции, можно заметить, что информационно-поисковые онтологии в течение долгого времени будут вынуждены применяться в условиях неопределенного контекста, то есть в условиях, когда ни об одном выявленном в тексте понятии не будет точно и полно известен даже набор явно упоминаемых о нем в тексте фактов и других видов информации. Таким образом, в таких условиях надежно могут использоваться лишь отношения, которые не зависят или слабо зависят от конкретного текста, т.е. которые не исчезают, не меняются в течение всего срока существования любого или подавляющего большинства экземпляров понятия. Например, любой лес всегда состоит из деревьев.


Наиболее известным типом отношения, которое выполняется для всех экземпляров, является таксономическое отношение. Так, если С1 упомянуто в тексте и С1 является видом С2, это означает, что в тексте упомянуто и С2. Если данный текст релевантен запросу о С1, то он будет релевантен и запросу о С2.

В условиях невозможности использования сложных правил вывода, для осуществления вывода по тексту желательно найти другие типы отношений, обладающие свойствами транзитивности и наследования, подобно таксономическим отношениям.

Как представляется, что именно такого рода отношениями являются отношения онтологической зависимости, изучаемые в рамках философской дисциплины «формальная онтология» (Guarino, 1998).

Отношения онтологической зависимости описывают, подразумевает ли существование одного понятия существования каких-либо других понятий. Эти отношения подразделяются на следующие виды:


  • подразумевает ли существование сущности существование чего-либо еще (строгая зависимость – rigid dependence), например, кипение не возможно без существования конкретного объема жидкости, которая кипит;

  • предполагается ли существование примеров некоторого класса (родовая зависимость - generic dependence) некоторых сущностей, как например, возникновение понятия гараж невозможно без существования понятия автомобиль, хотя конкретный гараж может возникнуть безотносительно к конкретному автомобилю;

  • предполагает ли существование Х в некоторый момент времени T, существования Y в некоторый другой момент времени Т1 (историческая зависимость), например, солома исторически зависит от молотьбы, поскольку солома не может возникнуть без предварительного процесса молотьбы, вместе с тем эти работы заканчиваются, а солома длительное время продолжает существовать.

В работе (Gangemi et al., 2001) постулируется транзитивность отношений онтологической зависимости.


В работах (Добров, Лукашевич, 2001; Лукашевич, Добров, 2004) было показано, что отношения строгой и родовой онтологической зависимости эффективны для создания ресурсов для информационного поиска.


2.4 WordNet как лингвистическая онтология


Целью разработки WordNet (Miller et.al., 1990) не являлось описание системы понятий, а установление системы отношений между лексическими значениями.

Между значениями слов и понятиями имеется достаточно сложная взаимосвязь: «значение шире понятия, так как включает в себя оценочный и ряд других компонентов, значение уже понятия в том смысле, что включает лишь различительные черты объектов, а понятия охватывают их наиболее глубокие существенные свойства…» (Гак, 1990).

Наиболее ярко различие между описаниями лексики и иерархии понятий в ресурсах типа WordNet проявляется в расчленении иерархической сети на подсети по частям речи, когда совпадающим по значению, но различающимся по частям речи словам (например, приватизация, приватизировать, приватизационный) соответствуют разные узлы иерархической сети. Ясно, что понятие, соответствующее этим словам, должно быть одно и то же.

Многие типы отношений в ресурсах класса WordNet, такие как отношение антоним, дериват, валентности (Climent et al., 1996), описывают отношения между лексическими единицами, а не понятиями.

В конкретных предметных областях значения предметной лексики и понятия предметной области максимально сближаются, но применяемые при разработке WordNet-подобных ресурсов в конкретных предметных областях методы (модели, отношения) остаются теми же, что и для описания общезначимой лексики.

При создании WordNet-подобных ресурсов в конкретных предметных областях роль концептуального анализа понятийной модели предметной области играет меньшую роль по сравнению с информационно-поисковыми тезаурусами, при разработке которых связь термин-понятие предметной области осознавалась достаточно четко.


В то же время внимание разработчиков WordNet-подобных ресурсов в конкретных предметных областях к каждой языковой единице, работа со значениями предметной лексики являются необходимыми для автоматизации обработки предметных текстов, поскольку путь к понятийному содержанию того или иного текста лежит через совокупность конкретных языковых выражений этого текста.

Итак, подчеркнем, в информационно-поисковых тезаурусах недостаточно представлена связь понятий предметной области с лексикой конкретных текстов, в WordNet-подобных ресурсах ослаблена понятийная сторона описания предметной лексики. Между тем, для успешного автоматического анализа предметно-ориентированных текстов описание «понятие - язык предметной области» должно быть сбалансировано: описание предметной лексики невозможно без анализа понятийной модели предметной области, распознавание понятийного содержания текстов невозможно без качественного описания языка предметной области.

Лингвистической онтологией, в которой была сделана попытка такого сбалансированного подхода к описанию системы значений языковых единиц и связанной с ними системы понятий, является онтология Mikrokosmos (Mahesh, Nirenburg, 1995).


3 Проект разработки новой лингвистической онтологии


В проекте предлагается создать лингвистическую онтологию для обеспечения автоматической обработки научно-технической информации – понятийного индексирования, автоматической классификации потока научно-технической информации.

Создаваемая лингвистическая онтология строится на сочетании трех различных традиций и методологий:


  1. методологии разработки информационно-поисковых тезаурусов;

  2. методологии разработки лингвистических ресурсов типа WordNet (Принстонский университет);

  3. методологии созданий формальных онтологий.


Из методологии разработки информационно-поисковых тезаурусов важны следующие принципы:

  • единицы тезауруса создаются на основе терминологии;


  • описание большого числа многословных выражений, принципы включения (не включения) многословных единиц;

  • простой набор отношений между единицами.


Из методологии разработки лексических ресурсов типа WordNet важны следующие положения:

  • многоступенчатое иерархическое построение лексико-терминологической системы понятий;

  • технология описания значений многозначных слов и выражений.


Из методологии разработки формальных онтологий:

  • разработка лингвистической онтологии как иерархической системы понятий;

      • строгость построения таксономии, отличие истинно таксономических отношений от ролевых отношений;

      • использование для описания нетаксономических отношений онтологической зависимости.

      • в качестве аксиом (правил вывода) использовать свойства транзитивности и наследования таксономических отношений и отношений онтологической зависимости.


Основной процедурой разработки такой лингвистической онтологии является следующая совокупность этапов.

Прежде всего, создается большой корпус текстов, принадлежащий предметной области, для которой создается онтология.

С помощью разного рода автоматизированных процедур из текста извлекаются значимые в предметной области слова и словосочетания.

После этого с корпусом, а также со словарями предметной области начинают работать эксперты.

Основными целями их работы являются следующие:
  • изучая конкретные языковые выражения, их словарные определения, употребление в конкретных текстах определить, какому понятию соответствует значение данного языкового выражения. Если такое понятие уже существует, данное языковое выражение приписывается этому понятию. Для нового понятия создается отдельная единица в иерархической сети;


  • Для каждого понятия по корпусу набирается максимально возможное число различных слов, выражений, значения которых соответствуют этому понятию. Такие языковые выражения называются текстовыми входами понятия или терминами онтологии.

  • Для каждого понятия проводится концептуальный анализ для выяснения его таксономических отношений и отношений онтологической зависимости. Поскольку эти отношения являются наиболее важными для широкого круга понятий, их часто можно выявить на основе анализа определений соответствующих терминов в терминологических словарях, употреблений в текстовых контекстах, сопоставления определений и текстовых контекстов.


Как показывает практика, в связи с многократно описанными проблемами получения знания от экспертов в предметной области (Гаврилова, 2001), наиболее эффективным является максимально полная разработка ресурса на основе анализа текстового корпуса. Далее созданный проект ресурса предъявляется экспертам в предметной области, которые уже достаточно легко находят в нем возможные ошибки и неточности, могут объяснить, почему им не понравилось то или иное отношение.

Следует отметить, что на этапе разработки онтологии в качестве экспертов выступают лингвисты, которые имеют опыт работы с текстовыми корпусами, лексическими значениями. Помимо авторов в разработке онтологии принимали участие эксперты-лингвисты: Штернова О.А., Селиванова Т.М, Каргина И.А.


Основная парадигма авторов проекта состоит в том, что базисом для автоматического смыслового анализа текстов, в том числе для Semantic Web, должны действительно стать онтологии предметных областей, но это должны быть БОЛЬШИЕ онтологии, ориентированные на основную среду обмена информации – текстовую информацию.

Действительно, подробная сетки понятий, описываемые с единых всем понятных “языковых” позиций, должны обеспечивать возможность интеграции онтологий разных предметных областей по пересекающимся понятиям.


Данный вывод авторы проекта делают на основе имеющегося опыта создания больших лингвистических онтологий для нескольких предметных областей: области общественно-политических отношений (лексика правовых документов и материалов СМИ), области технической авиационной документации, области спецификаций на программное обеспечение, области компьютерной безопасности.


4. Отправная точка



следующая страница >>