<<<<

Кузнецов Сергей Валентинович

Исследование рисков и поиск возможностей через Интернет. Введение

Словарь

Обучение

Консультирование

>>>>

Технологическая основа базы знаний

Функциональная спецификация

Введение.

Исследования возможностей создания корпоративных баз знаний на основе неструктурированной информации (плоских текстов) были начаты автором в 1996 году с поисковой системы АРТЕФАКТ (разработчик – агентство «Интегрум», www.integrum.ru) и продолжаются по настоящее время. Общее описание предлагаемого подхода дано в статье «Технологии управления знаниями». Вопросы внедрения и практического использования корпоративных баз знаний рассматриваются в статье «Технологии управления, основанного на знаниях».

В этом документе используется терминология из действующих ГОСТов 7.24-90, 7.25-2001, ГОСТ 7.59-90, ГОСТ 7.66-92, ГОСТ 7.73-96, ГОСТ 7.74-96, ГОСТ 7.76-96 с изменениям и расширениями, приведенными в статье «Технологии управления знаниями».

Базы знаний можно формировать с использованием любой высоко функциональной системы управления базами неструктурированных данных (далее «СУБД», поисковой системы, системы документооборота), имеющей модульную структуру и хорошо документированные открытые интерфейсы. Это позволяет как наращивать возможности всей системы, так и заменять старые модули на более функциональные. СУБД «Артефакт», «Яндекс» www.yandex.ru и Convera (www.public.ru) можно использовать в качестве прототипов технологической основы для базы знаний. Кроме всего прочего, нужно просчитать стоимость владения всей системой на период 3-5 лет, технологические и Кадровые риски предлагаемого подхода, а также риски прекращения развития или удорожания поддержки со стороны производителя.

Приведем требования к основным технологическим модулям. Требования условно могут быть разделены на

критические – самостоятельная доработка которых связана с большими рисками, затратами (финансы, время) и снижением срока возврата инвестиций;
перспективные – которые нужны в дальнейшем, но автору на момент подготовки настоящего документа неизвестны СУБД, в которых они корректно реализованы (выделены шрифтом с засечками Times New Roman).

В скобках приводятся пояснения, а иллюстрирующие примеры выделены курсивом с подчеркиванием.

1. Определение кодировки и языка

Модуль одинаково устойчиво работает распознает кодировку и язык неструктурированного текста (Закон РФ № 333-фз от 32.05.1999 «О защите...») и поискового запроса (налог И добавленный НЕ пошлина) на всех кодировках и основных языках (восточные языки + языки стран Евросоюза + языки стран бывшего СССР). Модуль включен во все программные оболочки (включая версию базы знаний на компакт-дисках).

2. Интерпретация текстов

2.1. Интерпретатор текста для конкретного естественного языка поддерживает регулируемый реестр символов – разделителей (пробел, тире, точка, запятая...) лексических единиц (слов, неразрывных комбинаций букв и цифр).

2.2. Интерпретатор текста должен проводить морфологический анализ (разбор словоформ) лексических единиц с использованием нормативного словаря конкретного естественного флективного языка («Грамматический словарь русского языка» А.А.Зализняка) или иными методами. В базовую поставку поисковой системы должны быть включены модули морфологического анализа текстов как минимум на русском и английском языках. Для слов, не вошедших в доступный словарь нормативной лексики, должна применяться псевдонормализация (основа иностранного слова «пертинентность» не входит в словарь Зализняка, однако его словоформы могут быть обработаны по аналогии с словоформами «отчетности», «валентности»...). Неправильные написания слов обязательно связывать с возможными нормальными формами, используя типичные ошибки машинописного набора текстов (налог – нолог, наалог, нлог, наолг, нагол...) или иные методы установления приблизительного соответствия лексических единиц.

2.3. Полнотекстовый контекстно-зависимый индекс формируется интерпретатором текста и хранит информацию обо всех

лексических единицах (п.2.4.),
функциональных полях текста (п. 2.5.), в которых они употребляются;
лексических контекстах (п. 2.6.), в которых они употребляются.

2.4.Информация о лексической единице в полнотекстовом индексе включает

вид лексической единицы(слово, число, денежная единица, ФИО ...)
точную словоформу (идущий),
нормальную форму (если она существует, инфинитив для глаголов: идти),
нормальную форму правильного написания лексической единицы (стекляная - стеклянный);
тип лексики (официальная, разговорная, просторечие, ненормативная...);
окраску лексики (не окрашенная, отрицательно окрашенная, положительно окрашенная).

2.4.1. Поддерживается классификатор видов лексических единиц (слова, даты, римские и арабские числа, десятичные, двоичные и шестнадцатеричные числа, целые числа, рациональные числа, валюты, полные и сокращенные названия единиц измерений, коды классификаторов, имена собственные, географические названия и т.п.) и соответствующие поисковые запросы и правила определения.

2.4.2. Поддерживается классификатор типов лексики (юридическая, официально-деловая, жаргоны...) и соответствующие им словари.

2.4.3. Работает интерпретатор окраски лексики (положительная, отрицательная, нейтральная) и соответствующие словари / приложения (это можно лицензировать).

2.5. Для разграничения функциональных полей текста (заголовок, реферат, аннотация, основной текст, подпись, дата, автор, ключевые слова, часть текста, глава текста, текст приложения...) интерпретатор текста поддерживает пакетное определение наличия поля определенного типа, настройку и выполнение правил и поисковых шаблонов для определения границ конкретного поля. Поисковый шаблон - поисковый микротезаурус, отвечающий за реализацию конкретной функции с любым понятием, оформленный в виде не работающей заготовки запроса конкретной поисковой системы для выбранного естественного языка.

2.6. Для разграничения структурных единиц текста (в одном предложении, в группе предложений, в одном абзаце, в группе абзацев) интерпретатор текста поддерживает регулируемый реестр символов – разделителей (точка, перегон каретки, конец абзаца, начало и конец текста, начало и конец ячейки таблицы...) и изменений оформления (центрирование, левое и правое выравнивание и отступы, списки...).

2.7. Информация о лексическом контексте конкретной лексической единицы включает относительную (в любой структурной единице текста) или абсолютную (в документе или конкретном поле документа) позицию этой лексической единицы (возможно, относительно другой лексической единицы, но это всегда число) с указанием единицы измерения объема лексического контекста (слова, предложения, абзацы) и возможной конкретизацией поля документа (по умолчанию всегда установлено сначала единственное поле «основной текст»). Таким образом, становится возможным реализовать разнообразные поисковые запросы (в первых 10 словах заголовка, шестое слово любого предложения, в пятом предложении с начала аннотации, в последнем - четвертом предложение с конца текста, во втором предложении любого абзаца, в первой главе, в девятом абзаце от начала первого приложения, в группе из 10 смежных слов любого предложения...).

3. Классифицирование текстов

3.1. Собственно базу знаний формируют дополнительные классификационные индексы метаданных, поддерживаемые традиционными и специальными пользовательскими интерфейсами. Метаданные – это информация об информации, сведения о том, в каких локальных документах или фрагментах их текста упоминается лексика конкретного понятия из классификатора или реестра. Метаданные об объекте (текст...) можно условно разделить на атрибуты объекта в целом (реквизит) и содержательные признаки его структурных единиц (если такие структурные единицы можно выделить). Поисковая система должна предоставлять возможность конфигурировать, просматривать, вносить и редактировать любые метаданные как вручную, так и с автоматическом (пакетном) режиме с обязательным выделением и защитой метаданных, сформированных людьми (редакторы, эксперты).

3.2. Индекс реквизитов (классификационный контекстно-независимый индекс метаданных) формируется на основе полнотекстового индекса путем пакетного исполнения поисковых запросов и, возможно, расширяется путем извлечения (экстрагирования) фрагментов текста по определенным правилам. Обеспечивается и ручной режим ввода реквизитов, но на больших массивах текстов это сильно снижает экономичность и сроки подготовки базы знаний. В такой индекс включаются контекстно-независимые метаданные. Реквизит текста - вид метаданных, атрибут документа, характеризующий его как единое целое (запись в базе данных). Совокупность реквизитов документа образует его библиографическое описание. Традиционно к реквизитам относят вид объекта, формат данных, автора, даты опубликования, написания..., язык текста ...

3.3. Реестры реквизитов формируются автоматически в процессе наполнения индекса реквизитов. Имеется возможность ручного их редактирования администратором базы знаний. Для этого требуются средства ведения и редактирования реестров, связанные с подсистемой формирования индекса реквизитов. Для наполнения индекса реквизитов используются хранимые правила обработки текста и, возможно, поисковые шаблоны.

3.4. Классификаторы понятий берутся готовые или проектируются вручную. Число поддерживаемых классификаторов ограничено только ресурсами инвестора проекта. Как правило, все проектируемый классификаторы являются десятичными и фасетно-иерархическими.

Для каждого понятия / проблемной ситуации любого классификатора пишется поисковый запрос в синтаксисе поисковой системы СУБД. Такой запрос обеспечивает автоматическое классифицирование поступающих и ретроспективных текстов и наполнение метаданными индекса понятий. Сильно коррелированные метаданные (на уровне минимальных структурных единиц текста) позволяют оценивать содержательную близость рубрик различных классификаторов и автоматически выполнять ассоциативное расширение поиска с сохранением приемлемой точности.

В зависимости от реализуемых возможностей (поиск аналогий или прецедентов, поиск противоречий или коллизий, поиск определений или дефиниций, поиск аналитических материалов, поиск явных цитирирований и иные тексто-аналитические сервисы) техника программирования и алгоритмы формирования поисковых запросов различаются.

3.5. Индекс понятий и ситуаций (классификационный контекстно-зависимый индекс метаданных) формируется на основе полнотекстового индекса путем последовательного пакетного исполнения поисковых запросов для каждого понятия / ситуации из всех рабочих классификаторов. Содержательный признак - вид метаданных, относящийся к части документа. Это может быть понятие (элемент ситуации или проблемы) или ситуация (совокупность понятий), лексический образ которых содержится в структурной единице (предложение, абзац) или конкретном поле (залоговок, подпись ...) документа.

3.6. Классификаторы внешних объектов. Тексты из внешних источников не всегда возможно и/или правомерно загружать в базу знаний и затем предоставлять к ним доступ (безвозмездно или за плату). Причин тому масса: ограничения авторского права (литературные произведения и иные объекты интеллектуальной собственности), юридический статус источника (www.firstgov.gov), технологическая и лицензионная политика производителя или владельца внешней базы данных (www.public.ru), объемность внешней базы данных (www.yandex.ru) и др.

Для параллельного поиска / мониторинга (корпоративный метапоиск) во внешних по отношению к основному хранилищу источников (базы данных, доступные через Интранет/Интернет) для каждого понятия / проблемной ситуации любого классификатора готовится т.н. «универсальная поисковая спецификация».

Тестирование внешних (по отношению к основному хранилищу) баз данных позволяет точно определить их возможности. Такое тестирование завершается формированием для нее кода классификатора функциональных возможностей внешних баз данных. На основании такого кода и универсальной поисковой спецификации появляется возможность автоматически сформировать поисковый запрос, использующий все специфические возможности конкретной внешней базы данных. Открывается возможность вести высокоэффективный поиск и тематический мониторинг по многим внешним открытым источникам.

На основе полного анализа выбранных по результату мониторинга открытых источников внешних текстов появляется возможность предоставлять доступ к авторским и иным материалам вне базы знаний через индексы реквизитов (п.3.2.) и классификационные индексы (п.3.4.). При этом риск недоступности нужного материала может быть снижен за счет возможности его восстановления из специального хранилища, доступного через Интернет.

4. Интерпретатор запросов

Поисковые запросы состоят из операндов, модификаторов лексических единиц и поисковых операторов.

4.1. Операнды – лексические единицы, фразы ("соглашение о разделе продукции") и выражения в логических скобках.

4.2. Поисковый оператор - оператор языка поисковых запросов, записываемый раздельно от лексических единиц и задающий определенное логическое условие или порядок их исполнения в отношении одной (одноместный оператор, «не абракадабра» для «Артефакт»), двух (двухместный оператор, «налог /3 добавленный» для www.yandex.ru) или многих лексических единиц (многоместный оператор, «shopping duty free within 5» для www.public.ru). Любой поисковый оператор всегда действует в определенном лексическом контексте. При прочих равных условиях предпочтительными являются одноместные и многоместные поисковые операторы. К многоместным поисковым операторам по существу относятся обязательный оператор «фраза», заключенная в простые кавычки (искать тексты, содержащие в одном предложении последовательность конкретных словоформ "я пришел к тебе с приветом" для www.yandex.ru) и обязательный оператор «выражение / логические круглые скобки», например, (5,(3,налог & добавленный) & ставка) для www.rambler.ru.

4.2.1. Возможность корректно интерпретировать и исполнять поисковые запросы длиной не менее 3000 знаков, содержащие не менее 10 вложенных логических скобок, обязательна.

4.2.2. Обязательны все двухместные логические операторы (альтернативность – дизъюнкция, одновременное присутствие – конъюнкция и исключение).

4.2.3. двуместный логический оператор «одновременное присутствие – конъюнкция» может работать по формуле {первый операнд} оператор {второй операнд}с учетом перечисленных ниже лексических контекстов:

4.2.3.1. второй операнд следует сразу за первым (оператор «фраза»);

4.2.3.2. второй операнд следует за первым в группе из регулируемого числа соседних лексических единиц, при этом они находятся в одном предложении (оператор «следование в группе слов»);

4.2.3.3. первый и второй операнды находятся в одном предложении в любом порядке в группе из регулируемого числа соседних лексических единиц (оператор «смежность в группе слов»);

4.2.3.4. первый и второй операнды находятся в одном предложении в любом порядке (оператор «смежность в одном предложении»);

4.2.3.5. первый и второй операнды находятся в регулируемой группе соседних предложении в любом порядке (оператор «смежность в группе предложений»);

4.2.3.6. первый и второй операнды находятся в любом месте документа (оператор «бесконтекстная конъюнкция»);

4.2.4. двуместный логический оператор «исключение» может работать по формуле {первый операнд} оператор {второй операнд}с учетом перечисленных ниже лексических контекстов:

4.2.4.1. первый операнд присутствует, а сразу за ним нет второго операнда (оператор «исключение на следующей лексической позиции»);

4.2.4.2. первый операнд присутствует, а второй операнд отсутствует в группе из регулируемого числа следующих лексических единиц (оператор «исключение в группе следующих слов»);

4.2.4.3. первый операнд присутствует, а второй операнд отсутствует в группе из регулируемого числа соседних лексических единиц (оператор «исключение в группе смежных слов»);

4.2.4.4. первый операнд присутствует, а второй операнд отсутствует в том же предложении (оператор «исключение в одном предложении»);

4.2.4.5. первый операнд присутствует, а второй операнд отсутствует в любом из регулируемого числа соседних предложений (оператор «исключение в группе предложений»);

4.2.4.6. первый операнд присутствует, а второй операнд отсутствует в любом месте документа (бесконтекстный оператор «исключение»).

4.2.5. Для интерпретации лексических единиц используется модуль определения кодировки и языка (п.1) и интерпретатор текста (пп. 2.1.– 2.2.). По разному работающие интерпретаторы лексических единиц текста и поисковых запросов крайне нежелательны.

4.3. Модификатор лексической единицы – одноместный оператор, записываемый слитно с лексической единицей (в начале или в конце), область действия которого ограничена этой поисковой единицей, например, !налог (искать конкретную словоформу через www.yandex.ru), польза!с (искать слово с опечатками через Артефакт), +тифозный (обязательно присутствие термина в тексте, найденном www.google.com). Если такие модификации лексических единиц не установлены по умолчанию, обязательны модификаторы, позволяющие искать:

4.3.1. все словоформы / точную словоформу;

4.3.2. возможные ошибочные написания;

4.3.3. специальные типы числовых данных (даты, валюты, единицы измерения...) и их диапазоны;

4.3.4. специальные типы нечисловых данных (ФИО, имена, названия...).

5. Администратор базы данных

5.1. Администратор поддерживает интерактивную, пакетную (запуск через командную строку внешним планировщиком заданий) и по расписанию (запуск внутренним планировщиком заданий) загрузку информации разных форматов в базы данных.

5.2. Администратор обеспечивает интерактивное, пакетное (запуск через командную строку внешним планировщиком заданий) и по расписанию (запуск внутренним планировщиком заданий) исполнение поисковых запросов и автоматическое формирование всех перечисленных выше индексов.

6. Иные модули

6.1. Интерфейсы пользователя базы знаний, интерфейсы администратора базы данных и интерфейсы редактора базы знаний могут быть следующих типов:

6.1.1. Диалоговый меню-ориентированный интерфейс обеспечивает традиционный для баз данных ввод управляющей информации в многие окна меню (http://www.yandex.ru/advanced.html).

6.1.2. Диалоговый командный интерфейс обеспечивает работу хорошо подготовленных пользователей, при этом поисковый запрос вводится в единственное окно (http://www.google.com)

6.1.3. Интерфейс командной строки позволяет администратору программировать сложные и многоходовые пакетные операции с базами данных, включая загрузку, выгрузку, резервирование, поиск...

6.1.4. Диалоговый естественный интерфейс (проблема пользователя формализуется в процессе интервъюирования) обеспечивает общение с базой знаний неподготовленных пользователей.

6.2. Генератор запросов позволяет под конкретную проблему потребителя автоматически сформировать поисковые запросы для выбранных или всех доступных внешних баз данных. Количество внешних баз данных в принципе не ограничено. Для этого применяется известный в программировании объектный подход, используется «универсальная поисковая спецификация» и классификация функциональных возможностей поисковых систем.

6.3. Генератор отчетов позволяет для любой проблемы потребителя представить в удобной форме (трехмерная диаграмма) изменение влияния интересующих элементов ситуации по времени.

Апрель 2004 г. Кузнецов Сергей Валентинович

Отдельные авторские материалы по теме:

Кузнецов С.В. Технологии управления, основанного на знаниях // Проблемы теории и практики управления (Москва).- 24.12.2004.- 006.- C.85-89 <http://www.knowbase.ru/technologies-of-knowledge-based-management.htm>

Кузнецов С.В. Технологическая основа базы знаний

Кузнецов С.В. Примеры документирования знаний

Титов В.В. Интерактивный справочник (пример вопрос-ответного доступа к базе знаний)

Кузнецов С.В. Эскиз проекта создания территориального аналитического центра коллективного пользования с элементами учреждения дополнительного образования и бизнес-инкубатора

Кузнецов С.В. Структура и элементы технологии производства публичной базы знаний

Кузнецов С.В. “Открытые технологии образования” в сборнике НИИ образовательных технологий “Научное обеспечение открытого образования”, №, 1, Москва, МЭСИ, 2000. <http://www.u-learning.ru/educatei.htm>

Кузнецов С.В. Практикум "Технологии познания" на основе демонстрационной DOS-версии информационно-поисковой системы "Артефакт", 1999 год.

Кузнецов С.В. Доступ к текстовой информации. В сборнике “Участие библиотек в правовом воспитании населения и юридическом образовании”, СПб., Санкт-Петербургский государственный университет, 1999. <http://www.knowbase.ru/access.htm>.

Кузнецов С.В. “Информационные технологии в законопроектной деятельности”, глава 13 в научно-практическом пособии Института законодательства и сравнительного правоведения при Правительстве РФ “Законодательная техника”, М. Городец, 2000 <http://www.lawint.ru/chapt_13.html>.

Кузнецов С.В. “Базы правовых знаний - новое поколение средств доступа граждан к правовой информации через Интернет”, доклад на Международном семинаре - круглом столе под эгидой Совета Европы и Государственной Думы Федерального Собрания Российской Федерации “Кодификация законодательства как средство доступа граждан к правовой информации”, Санкт-Петербург, 9-10 марта 2000 года.

Кузнецов С.В. Отчет "Технология программирования англоязычных запросов любых поисковых систем Интернет для автоматизированного мониторинга информации в соответствии с заданными рубриками Классификатора внешнеполитической деятельности МИД РФ" (Заказ Научно-исследовательского центра информатики при МИД России), сентябрь 2000.

Кузнецов С.В. Отчет "Технология создания персональных следящих информационных систем" (Заказ Научно-исследовательского центра информатики при МИД России), сентябрь 2000. См. пример <http://www.onlineci.ru/cinews.htm>.

Кузнецов С.В. "Техника поиска юридических противоречий", 2004 CD:\2 Avtorskie materialy\22 Metodiki\Poisk protivorehij.pdf <http://www.lawint.ru/lecontra.htm>

Кузнецов С.В. "Технологии управления знаниями", 2004 <http://www.knowbase.ru/knowledge-management-technologies.htm> CD:\2 Avtorskie materialy\21 Publikatii\kmt00001.pdf

Кузнецов С.В. «Невидимый Интернет для бизнеса», 2006 <http://www.invisibleweb.ru>.