Технологические решения в УИС РОССИЯ

В рамках проекта разработан комплекс технологий анализа информационных ресурсов большого объема. Под информационными ресурсами большого объема понимаются ресурсы, эффективное извлечение и управление информацией из которых может быть достигнуто только при использовании автоматических методов обработки.

Реализованы следующие приложения:

- программа ведения архива/архивов разнородных документов и предоставления Интернет-доступа;

- комплекс программного обеспечения “очистки данных” для автоматического конвертирования документов в единый формат (HTML), выделения формальных атрибутов;

- технологический комплекс АЛОТ – Автоматизированная Лингвистическая Обработка Текстов - для автоматической обработки и подготовки больших объемов документов для информационной системы;

- средства создания и сопровождения лингвистических ресурсов, используемых при автоматической обработке документов.

В системе действует интегрированный комплекс программ для автоматического анализа документов и ведения ресурсов:

- очистка данных – приведение в единый формат (файлы *.НТМ), допускающий непосредственное отображение стандартными браузерами, выделение формальных поисковых атрибутов (файлы *.HDR);

- лингвистическая обработка – создание поисковых индексов для контекстного (файлы *.LEM) и тематического поиска (файлы *.OUT и *.POD);

- организация поиска по всей коллекции документов, а также поиск с использованием специфических атрибутов для каждой отдельной коллекции;

- средства контроля за соблюдением прав владельцев источников и некоммерческим использованием информации, средства мониторинга нагрузки системы.

Схема обработки документов в УИС РОССИЯ

Информационная система РОССИЯ

Основные характеристики УИС РОССИЯ:

- функционирование под управлением ORACLE8i;

- доступ к документам через Интернет-браузер;

- ведение архивов различных типов, в том числе документов, содержащих изображения, таблицы MS Excel и другую информацию;

- хранение документов в базе данных или на защищенном от прямого доступа пользователей жестком диске;

- наличие средств мониторинга работы пользователей (протоколируется получение каждой страницы, нагрузка на систему) - возможна организация выборочного доступа пользователей в соответствии с привилегиями;

- автоматическая обработка разнородных потоков слабоструктурированных документов (TXT, HTML, MS Word, RTF), с выделением формальных параметров и оценкой тематики документов;

- развитые инструменты поиска и доступа к документам в базе данных.

Основная платформа программного комплекса - Windows NT. Для партнеров выполнялись поставки программного обеспечения для архитектуры, когда ORACLE функционирует под управлением другой операционной системы (в этом случае часть вычислений переносится на Windows-клиента с использованием механизма Java RMI).

В УИС РОССИЯ карточка запроса формируется динамически в зависимости от коллекции документов, позволяя выполнять запросы, специфичные для конкретной коллекции (например, “Номер документа” для нормативных актов, или “Выступающий” для стенограмм ГосДумы). Общим для всех коллекций является поиск по контексту (с учетом морфологии русского языка), поиск по терминам тезауруса (в том числе с расширением по иерархии), по рубрикам (по нескольким рубрикаторам).

Результаты поиска ранжируются в соответствии с оценкой релевантности содержимого документа запросу пользователя.

Клиентская часть УИС РОССИЯ поддерживает оперативное наполнение базы данных. Специально разработанное программное обеспечение позволяет подключать в систему новые коллекции с достаточно сложной структурой формальных параметров.

Очистка данных в УИС РОССИЯ

Разработаны конверторы, преобразующие документы от различных провайдеров информации в единообразный формат хранения (HTML) с одновременным выделением формальных атрибутов документов. Реализованы конверторы для всех коллекций УИС РОССИЯ - нормативных документов, стенограмм заседаний палат парламента, аналитических докладов, научных изданий, СМИ, статистических данных и т.д.

Автоматизированная Лингвистическая Обработка Текстов (АЛОТ)

Программно-лингвистический комплекс АЛОТ производит автоматическую обработку поступающих на вход информационной системы потоков документов. Получая на входе файлы в формате HTML, АЛОТ на выходе выдает текстовые файлы в специальном формате, содержащие морфологический (нормализованные слова документа) и тематический индексы (термины и рубрики), предназначенные для дальнейшей загрузки в базу данных.

Этапы автоматизированной лингвистической обработки:

- Морфологический анализ;

- Терминологический анализ;

- Рубрицирование;

- Аннотирование.

Морфологический анализ

В ходе морфологического анализа всем словам анализируемого текста сопоставляется грамматическая информация (род, число, падеж, категория одушевленности и т.п.). Это позволяет, задавая для поиска одну словоформу, находить документы, содержащие любые возможные словоформы данного слова.

Терминологический анализ

Реализован на основе Тезауруса по общественно-политической тематике АНО Центр информационных исследований (далее – Тезаурус).

На базе Тезауруса осуществляется автоматическое концептуальное индексирование входящего потока текстов - создается список понятий, упомянутых в тексте, и производится процедура разрешения многозначных терминов, что принципиально при поиске по многозначным словам, обозначающим разные понятия в разных контекстах.

Этапы терминологической обработки

На первой стадии анализа в тексте ищутся термины, описанные в Тезаурусе (как слова, так и словосочетания). На основе связей Тезауруса термины группируются по смысловой близости в так называемые "тематические узлы". С учетом свойств связного текста тематические узлы классифицируются на:

-  основные тематические узлы - моделирующие в совокупности основную тему документа;

-  локальные тематические узлы - моделирующие темы, обсуждаемые в документе как второстепенные;

-  все остальные термины - так называемые "упоминавшиеся термины".

Каждое понятия в тексте получает свою оценку релевантности относительно содержания документа, в зависимости от того, элементом какого тематического узла они являются. Максимальный вес получают центры основных тематических узлов, минимальный - упоминавшиеся термины. Понятия с определенной таким образом оценкой релевантности образуют терминологический поисковый образ документа или тематическое представление содержания документа. Тематическое представление является основой для рубрицирования и аннотирования.

Рубрикация текстов

В текущей версии УИС РОССИЯ автоматическое ранжированное рубрицирование осуществляется:

- по рубрикатору нормативных актов, разработанному в Центре информационных исследований (180 рубрик, 3 уровня иерархии);

- по рубрикатору Исследовательской службы конгресса Библиотеки конгресса США (Legislative Indexing Vocabulary, LIV), в интерфейсе ИПС называется (80 рубрик);

- (на стадии тестирования) по Классификатору правовых актов РФ (Указ Президента РФ от 15.03.2000, около 1200 рубрик, 4 уровня иерархии).

Аннотирование текстов

Вычисление основных тем документа позволяет выделить предложения, в которых тематика документа представлена наиболее доказательно. Из таких предложений формируется аннотация документа. Порождаемая аннотация производит впечатление связного текста, значительно облегчая восприятие.

Для текстов некоторых жанров - очень больших текстов, интервью и т.п. - построение хорошей аннотации из фрагментов исходного текста невозможно.

Строится также т.н. “структурная тематическая аннотация”, представляющая содержание текста в виде совокупностей концептуально связанных терминов. Структурная аннотация позволяет зрительно оценить содержание текста с первого взгляда. Структурная аннотация может быть переведена на другой язык путем подстановки соответствующих переводов терминов.

Лингвистические ресурсы Центра информационных исследований

АНО Центр информационных исследований ведет ряд баз данных лингвистических ресурсов собственной разработки

Общественно-политический тезаурус русского языка

Тезаурус - это терминологический ресурс, реализованный в виде словаря понятий и терминов со связями между ними. Основное назначение тезауруса - помощь при информационном поиске: на основе связей тезауруса происходит расширение запроса, навигация по связям тезауруса помогает четче сформулировать сам запрос.

Особенностью иерархии Тезауруса АНО ЦИИ является множественность классификации, то есть для большинства понятий ищется не единственное классифицирующее понятие (связь ВЫШЕ - НИЖЕ), а описываются различные точки зрения на конкретное понятие, например, понятие МАГАЗИН может рассматриваться и как ЗДАНИЕ, и как ТОРГОВАЯ ОРГАНИЗАЦИЯ.

Тезаурус по общественно-политической тематике, включает более 26.000 понятий, 62 000 терминов, 100 000 прямых и 700.000 наследуемых отношений между понятиями. Существующая версия Тезауруса описывает терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы.

Полное название Тезауруса - Информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования. Здесь все определения важны:

- ”информационно-поисковый” – так как разработан специально для использования в информационном поиске для помощи пользователю при формировании (уточнении) запроса и для автоматического расширения условий запроса при поиске;

- ”по общественно-политической тематике” – так как покрывает 95-99% лексики и терминологии русскоязычного текста общественно-политической тематики ;

- ”для автоматического индексирования” – так как является основой для процесса автоматического определения тематики документов - группирования близких по иерархии тезауруса терминов в тематические узлы, автоматического рубрицирования и автоматического аннотирования.

Для многих известных тезаурусов (WordNet, Roget, EuroWordNet) большой проблемой остается автоматический вывод по связям тезауруса - когда расширение на ближайшую окрестность верно, но не полно, а попытки расширить окрестность ведут к ошибкам.

При построении описываемого Тезауруса предпринимались специальные усилия (четкие критерии построения, обратная связь через анализ прозрачных результатов обработки), чтобы добиться удовлетворительных результатов при расширении на всю задаваемую иерархическими отношениями окрестность. Кроме того, разработан комплекс алгоритмов, использующих фундаментальные свойства связного текста, для контроля процедуры вывода по иерархии тезауруса.

Тезаурус протестирован при решении следующих задач:

- организации информационных систем (УИС РОССИЯ);

- построении связных аннотаций, особенно для документов сложных жанров, в том числе англоязычных (задание конференции SUMMAC /DARPA/, 1998. Первое место в номинации “индикативная аннотация оптимальной длины”),

- автоматической рубрикации по рубрикаторам сложной структуры (используется в Аналитическом управлении ГосДумы РФ, 1999-2000; Центризбиркоме РФ, 1997-2000; при рубрицировании потока сообщений СМИ, 1996),

- автоматической рубрикации по Классификатору правовых актов РФ (т.н. “президентский рубрикатор” – 1169 рубрик, 4 уровня вложенности).,

В процессе обработки новых документов в УИС РОССИЯ Тезаурус постоянно дополняется новой терминологией, и тестируется совокупность понятийных связей. Выявляется и исправляется неточность связей, что улучшает результат обработки прежде всего на этапе автоматической рубрикации (на этом этапе неточная связь приводит к неправильной рубрике, и, наоборот, отсутствие связи приводит к потере правильной рубрики).

Тезаурус включает географический подтезаурус и подтезаурус персон. Географический подтезаурус описывает более 6 тысяч географических объектов: города, реки, моря, территории, более подробно - для России и бывшего Советского Союза, а также для наиболее известных географических объектов всего мира. Подтезаурус персон содержит сведения о современных и исторических деятелях, часто упоминаемых в материалах СМИ (более 1000 имен).

Автоматизированное построение тезауруса для новых предметных областей

Разработана технология автоматизированного набора терминоподобных словосочетаний по обрабатываемым текстам. Причем собираются не все словосочетания, но только те, которые удовлетворяют критериям, задаваемым специальным словарем сочетаемости. Это позволяет быстро покрывать терминологию новых областей.

Морфологический словарь русского языка

Морфологический словарь русского языка:

-- 130,000 словарных статей;

-- покрывает более 99.6% лексики нормативных документов и материалов СМИ.

Существует удобная Win32 оболочка ведения морфологического словаря, выдается соответствующая грамматическая информация для вводимого слова по примерам, что позволяет быстро пополнять состав статей морфологического словаря для корпусов текстов новых жанров.

В 1996-2002 годах коллективом УИС РОССИЯ выполнен ряд работ по внедрению технологических решений для Государственной Думы РФ, Центральной избирательной комиссии РФ, Администрации президента РФ, других государственных организаций РФ.

Применяемые научные, технологические и организационные подходы докладывались на российских и зарубежных конференциях, описаны в специальной литературе.