<<<< | Кузнецов Сергей Валентинович | Исследование рисков и поиск возможностей через Интернет. Введение | Словарь | Обучение | Консультирование | >>>> |
"Рискованность - черта, присущая любой хорошей формализации. Формализуя, неизбежно обедняют исследуемый объект, отвлекаются от многих его черт для того, чтобы успешнее работать с оставшимися. Формализация должна быть талантливой карикатурой на действительность, а не ее фотографией. Лишь тогда она позволяет кое-что понять".
Н.Н. Непейвода
1. Определение некоторых терминов
Знание Управление знаниями Информация Метаданные Реквизит документа Дескриптор Контекст Тезаурус Классификатор Таксономия Онтология Семантический Интернет
2.1. Нарастающий поток изменений
3.1. Технологии систематизации
3.2.2. Поиск абстрактных понятий
3.2.3. Поиск конкретных понятий
3.2.4. Поиск аналогий или прецедентов
4. Технология извлечения и документирования знаний
4.1. Технология программирования запросов полнотекстовых поисковых систем. Документация.
4.1.1. Объект документирования "Наименование понятия"
4.2.1. Реестр открытых источников
4.2.3. Методы поиска аналитических отчетов
4.2.4. Перенос запросов на функциональные поисковые системы
7.2.1. Системы мониторинга открытых источников
7.2.2. Корпоративные базы знаний и публичные порталы Интернет
7.2.3. Корпоративный метапоиск
Приложение 1. Формулы запросов для поиска реестров (доступно владельцам соответствующих лицензий)
На основе междисциплинарного подхода рассматриваются иллюзии, проблемы и возможности управления знаниями на основе массивов неструктурированных текстов. Предлагаются конкретные процедуры и технологии построения проблемно-ориентированных баз знаний (экспертных систем) с низкой общей стоимостью владения. Статья будет полезна владельцам и руководителям, директорам по развитию и начальникам информационных и аналитических служб, а также служб безопасности крупных предприятий.
1. Определение некоторых терминов
Знание (knowledge) - не формализуемое представление конкретного человека о явлениях и закономерностях окружающей среды, полученное в процессе приспособления к ней. В данном случае под окружающей средой имеется в виду все, кроме сознания конкретного человека. Знания накапливаются только человеком как результат личного опыта и субъективного восприятия информации. Познание через восприятие информации требует от обучаемого определенных начальных знаний (конкретный язык представления знаний, основы науки ...) и познавательного усилия (желание разобраться). К знаниям относится непосредственный (личный) опыт, владение методиками (прикладная наука, технология), знакомство с научными основами (теория) и результаты познавательной активности (поиск, чтение, раздумья, систематические занятия / тренировки ...). Знания можно условно разделить на физиологические знания, например, умения парикмахера, спортсмена, синхронного переводчика, и ментальные знания, хранилищем которых является только сознание конкретного человека, например, знания консультантов, экспертов ... Знания также можно весьма условно разделить на явные, которые можно высказать, записать, изобразить, и неявные - которые, по мнению специалистов, затруднительно или невозможно документировать. По мере развития отрасли знаний объем неявных знаний сокращается. Передача неявных знаний возможна только с использованием института наставничества (совместная работа, тренинг ...). До момента фиксации в любой системе знаков (сигнал любого рода, речь, письмо, изображения, жесты, символ ...) или документирования знание неотделимо от своего источника и носителя - человека или иного разумного существа. Знание (наравне с понятием, смыслом) относится к ментальным категориям.
Управление знаниями (knowledge management) - выдумка американских рекламистов, основанная на иллюзии, что знаниями (ментальная категория) можно оперировать с использованием компьютеров. Современные средства вычислительной техники в состоянии манипулировать по определенным алгоритмам только с детерминированными объектами (сигналами, текстами …, относящихся к категории знаков и имеющих иную природу). В нашем понимании об управлении знаниями уместно говорить только как о процессе извлечения, документирования, визуализации и доступа к знаниям.
Информация (information) - это отображенное знание и зарегистрированные состояния окружающей среды. Отображение (представление) знаний исполняется человеком средствами любой знаковой системы (формальные и естественные языки, рисунки, языки жестов, ноты ...). В свою очередь регистрация состояний окружающей среды производится техническими средствами и генерирует т.н. техническую информацию (числа, сигналы, изображения, звуки ..., их сочетания и временные ряды ...). Понятие "информация" нами относится к физическому миру (метафизика), точнее к миру знаковых систем (символы).
Метаданные (metadata) - информация об информации. Метаданные об объекте (текст...) можно условно разделить на атрибуты объекта в целом (реквизит) и, возможно, содержательные признаки его структурных единиц (если таковые можно выделить). Если не решена проблема автоматизации формирования метаданных - реальная коллекция документов не может быть упорядочена и теряет одну из критических полезных функций - возможность оперативного доступа [2]. Вручную вводить метаданные с учетом объемов промышленных архивов (сотни тысяч / миллионов документов) и новых поступлений (сотни / тысячи документов ежедневно) нереально. В дополнение к полнотекстовому индексу базы данных в базе знаний формируется т.н. метаиндекс, где объектом хранения является метаданные - информация о том, в каких документах или фрагментах их текста упоминается лексика конкретного понятия из классификатора или реестра.
Реквизит документа (requisit) - вид метаданных, атрибут документа, характеризующий его как единое целое (запись в базе данных). Совокупность реквизитов документа образует его библиографическое описание. Традиционно к реквизитам относят вид объекта, формат данных, автора, даты опубликования, написания..., язык текста ...
Содержательный признак структурной единицы документа, дескриптор (descriptor) понятия - вид метаданных, относящийся к фрагменту документа. Это может быть понятие (элемент ситуации или проблемы) или ситуация (совокупность понятий), лексический образ которых содержится в структурной единице документа (группа слов, предложение ...). Содержательные признаки структурных частей документов позволяют обеспечить доступ к фрагментам документов корпоративного хранилища, разрешающих проблему пользователя по аналогии [5], от противного или с использованием иного правила выборки (см. п. 4.1.6). Кроме того, важной особенностью корпоративных хранилищ, поддерживающих манипуляции с содержательными признаками частей документов, является возможность формировать компактный отчет о возможных методах разрешения проблемы из подходящих фрагментов нужных документов.
Контекст (context) - общая остановка, ситуация, окружение события, действия, утверждения, работы и т.п. Решения принимаются человеком в контексте его интуиции, знаний, опыта, общей жизненной стратегии (если она есть), уровня восприятия фактов, настроения, самочувствия и прочих исключительно субъективных факторов. Лексический (лингвистический) контекст (словесное окружение) - лексическая позиция слова в рамках текста (документа) уточняет значение слова. Узкий контекст - лингвистический контекст, находящийся в пределах группы слов или предложения. Широкий контекст - лингвистический контекст, выходящий за пределы предложения, в котором употреблена языковая единица. Соответственно, под объемом контекста понимается число структурных единиц текста (слово, предложение, абзац), например, "в группе из 10 смежных слов". Разговорный или экстралингвистический контекст - обстановка, время и место, к которым относится высказывание, а также факты реальной действительности, знание которых помогает правильно понять значения слов (поступков). Фундаментальным пороком поисковых систем и баз данных является невозможность исполнять логические условия, выходящие за рамки одного документа.
Тезаурус (thesaurus) - совокупность выражающих смысл единиц некоторого языка с заданной на нём системой смысловых (семантических) и ассоциативных отношений. К обычным отношениям единиц тезауруса можно отнести сходство - синонимия, противопоставление - антонимия, соподчинение - "род-вид", укорачивание - сокращения, расчленение - "часть - целое", причина - следствие и др. Тезаурус может описывать смысл (семантику) конкретного естественного языка или терминологию конкретной отрасли знаний. Через ассоциативные отношения, специфичные для данной тематической области: болезнь - возбудитель, прибор - назначение (или измеряемая величина) и т. п., тезаурус может использоваться для описания системы знаний о действительности. В зависимости от назначения тезаурус близок по смыслу к базе данных поисковых слов (в информационных технологиях - информационно-поисковый тезаурус) и таксономии (искусственный интеллект). Автору не известна ни одна успешная попытка создания тезауруса общего назначения (в смысле полноты и актуальности представления лексики конкретного естественного языка). Примеры: многоязычный тезаурус Европарламента EuroDicAutom <http://europa.eu.int/eurodicautom/Controller> или Тезаурус деловой лексики на Яндекс.Lingvo <http://slovari.yandex.ru/>.
Классификатор - система рубрик (ячеек) и связей между ними, которая в совокупности является базовой для упорядочения (систематизации) всех вариантов классифицируемых понятий (а не терминов), распределения их по этим рубрикам. Классификация - классификатор, рубрики нижнего уровня которого наполнены описаниями конкретных понятий. Понятие "классификация" в данном смысле используется с обязательным вторым понятием - основанием классификации (например, "классификация отраслей знания", "классификация товаров", "классификация конкурентов"). Основным оператором при разработке классификатора является логическим деление (Евклидова или формальная логика). Логическое деление - это распределение на группы всех тех понятий, которые мыслятся в исходном (или делимом) понятии. Эти группы называются членами деления. Признак, по которому производится логическое деление, называют основанием деления. [1]
Таксономия (taxonomy) - иерархическая классификация понятий или принципы построения классификаций. В математике таксономия - древовидная классификация объектов выбранного типа.
Онтология (ontology) - раздел метафизической философии, в котором рассматриваются всеобщие основы, принципы бытия, его структура и закономерности. В контексте информационных технологий под онтологией понимается система или схема понятий (а не терминов) области знаний, отношений между ними и правил операций над ними, исчерпывающим образом представляющая область знаний. Онтология включает формальные определения [3] всех используемых терминов (дескрипторов понятий), отношений и операций. Такие определения должны быть с одной стороны понятны разработчикам и, главное, пользователям, с другой стороны быть операбельными при машинной обработке. Для записи онтологий используются различные языки описания онтологий. Таким образом, по мнению специалистов в области искусственного интеллекта обеспечивается возможность совместного использования отраслевых знаний. Очевидно, что чем уже предметная область, тем реальнее построение машиночитаемой онтологии. Не существует ни одной общепринятой онтологии, не привязанной к конкретной предметной области (т.н. общая или основополагающая онтология) и признанной в качестве национального или международного норматива или стандарта де-факто.
Семантический Интернет (Semantic Web <http://www.w3.org/2001/sw/>) - модное направление развития информационных технологий, главная задача которого - улучшение проблемно-ориентированного поиска информации через Интернет. По замыслу автора (Тим Бернерс-Ли / Tim Berners-Lee) этого можно добиться включением в документы дополнительной содержательной разметки (метаданных), понятной роботам поисковых систем, разработкой унифицированных онтологий общего назначения для стандартизации кодирования метаданных, разработкой и использованием новых форматов представления данных в Интернет, специализированных роботов, web-сервисов и т.п. Автор абстрагировался от решения задачи "смысл - текст" (см. п. 2.2) и не учел самую большую проблему построения баз знаний - сложность и кошмарную трудоемкость (десятки и сотни человеко-лет) формализации даже конкретных узких отраслей знаний, как и невозможность детальной формализации науки или сущего "ваще".
2.1. Нарастающий поток изменений.
Наш мир развивается нелинейно. При повышенном темпе возникновения радикальных изменений ослабевает связь с прошлым. Традиционное мышление разрушается. Возрастающая специализация наук и технологий в полной мере реализует известное определение Вебера: "Эксперт - человек, который знает все больше и больше о все меньшем и меньшем, пока не будет знать абсолютно все абсолютно ни о чем". Собственные знания оказываются недостаточными для адекватного решения элементарных вопросов. И даже на базе доступного чужого опыта становится затруднительным принимать решения, адекватные возникающим беспрецедентным проблемам.
2.2. Иллюзии управления знаниями.
Попытки использовать компьютер для управления знаниями сталкиваются с не решаемой традиционными методами задачей доступа к опыту и знаниям, изложенным в необъятных потоках (массивах) текстов. Причина этому проста и стара, как мир. Категории естественного языка "слово" и "текст" по природе своей в корне отличаются от соответствующих ментальных категорий "понятие" и "смысл" (это так называемая проблема "смысл - текст").
2.3. Поиск иголки в стоге сена.
Итак, компьютер знаниями управлять не может - это под силу лишь человеку. Однако познавательные возможности человека также ограничены: он не может проанализировать сколько-нибудь заметную долю потока представляющей интерес информации. Работа превращается в кошмар и сильно напоминает поиск иголки в стоге сена.
3.1. Технологии систематизации.
Для разрешения этого противоречия разработан комплекс технологий, адаптированный к нарастающему потоку изменений, возможностям человека и вычислительной техники.
С целью своевременной выявления проблемы и поиска вариантов ее разрешения необходимо обеспечить автоматизированное слежение за изменениями в области интереса личности или органа управления, а также поиск и изучение всего прошлого опыта. Использование многомерных классификаторов знаний (подобных УДК - международной Универсальной Десятичной Классификации) и механизма содержательной фильтрации потоков информации позволяет создавать, развивать и поддерживать в режиме реального времени систематизированные базы данных (далее - "СБД"). В качестве предмета классифицирования могут выступать обычные тексты и любые гипермедиа объекты (звук, графика, фото ..., любые их комбинации и временные ряды), снабженные текстовыми аннотациями. Содержательная фильтрация текстов достигается автоматическим исполнением запросов полнотекстовых поисковых систем. В качестве внешних поисковых систем могут быть использованы как локальные поисковые системы (персональный компьютер), корпоративные поисковики (локальная или распределенная компьютерная сеть компании) и поисковые сервера Интернет.
Систематизированные базы текстов можно рассматривать как функциональный аналог того, что специалисты в области искусственного интеллекта называют "базами знаний", точнее, экспертными системами типа "вывод, основанный на прецедентах". По вышеизложенным причинам, базы знаний на основе открытых коллекций текстов - рекламный фантом.
Корректное практическое разрешение проблемы адекватного выражения мысли и понимания текста обеспечивается применением подготовленным персоналом комплекса прикладных методов извлечения знаний из текстов следующего состава.
3.2.1. Поиск определений. Специализированные поисковые шаблоны позволяют искать непосредственно в текстах определения терминов с целью уточнения их смысла и выявления связанных понятий. Приведем пример определения понятия: "К недвижимым вещам относятся также подлежащие государственной регистрации воздушные и морские суда, суда внутреннего плавания, космические объекты" (ст. 130 Гражданского кодекса РФ). Парадоксально в данном случае то, что главной полезной функцией недвижимости является перемещение ... Подробнее решение проблемы поиска и синтеза определений терминов рассмотрены в более ранней работе [3]. См. примеры запросов для нахождения лексических контекстов, в которых подставляемый в поисковый шаблон термин является определяемым. Все поисковые запросы выделены курсивом с подчеркиванием и отступом от левого края страницы. В дальнейшем для упрощения восприятия, если специально не указано иное, примеры поисковых запросов будут даны только для Яндекс.
Запросы поисковой системы Яндекс <http://www.ya.ru>:
"Что относится к КУЛЬТУРНЫМ ЦЕННОСТЯМ" | (понимать /20 под /(+1 +2) культурные-ценности)
"Некоторые определения термина КОНТРАБАНДА" | контрабанда /(+1 +5) "+то +есть"
"Кто относится к ДОЛЖНОСТНЫМ ЛИЦАМ?" | (должностное-лицо /11 понятие)
Краткий синтаксис запросов поисковой системы Яндекс <http://www.ya.ru>:
несколько слов без кавычек - все слова в любых словоформах (слово, слова, слов, слову...) должны находиться в одном предложении;
!слово - модификатор вводится слитно перед словом и предписывает поисковой машине искать точную словоформу (только заданное в запросе слово);
"несколько слов подряд" - фраза в кавычках ищется в тексте "как есть" (без словоизменений);
первый-второй - ищется упорядоченная последовательность слов в любых словоформах;
первый | второй - логический оператор ИЛИ - должно присутствовать хотя бы одно слово;
первый ~ второй - логический оператор отрицания "И НЕ" (первое слово без второго в одном предложении);
(первый | второй) третий - скобки изменяют порядок исполнения логических операторов - первыми выполняются условия во внутренней скобке;
первый /20 второй - оператор смежности задает близость слов / выражений в одном предложении, число указывает на максимальную разницу между порядковыми номерами слов, взятую по модулю;
первый /+2 второй - оператор следования с фиксированным расстоянием (первое слово находится строго до второго с точным расстоянием в словах;
первый /(+1 +3) второй - оператор следования с диапазоном (первое слово находится до второго и между нами возможно не более 2 слов).
Подробнее синтаксис описан в "Элементах расширенного языка запросов Яндекс в примерах" [5] или на <http://www.onlineci.ru/yandexcd.htm>.
3.2.2. Поиск абстрактных понятий.
Группа из 8 методов выявления лексических образов абстрактных объектов обеспечивает формирование исчерпывающего реестра лексики, имеющей смысл выбранного понятия. В качестве примера приведем некоторые написания абстрактного понятия "наркотик": (одурманивающий или наркотический или психотропный) (препарат или вещество или материал), наркотик, галюциноген ...
Класс понятия: объект
Наименование понятия (дескриптор): наркотики
(наркотик | наркотико | наркотикосодержащий | наркотический | лизергид | аминорекс | амобарбитал | барбамил | !бдб | галлюциноген | гашиш | гашишный | героин | героиновый | !кат | кодеин | кодтерпин | кокаин | кокаиновый | кокнар | конопля!п | конопля!п | !лсд | марихуана)
(((барбитурат | димедрол | клофелин) /3 (алкоголь | алкогольный | спирт | спиртовый | водка | водочный)) | ((мак | маковый) /2 (масличный | солома | соломка)))//1
3.2.3. Поиск конкретных понятий.
Техника выявления исчерпывающего ряда лексических образов конкретных понятий или их частей (правовых актов, дат, географических объектов, персоналий, юридических лиц ...) позволяет искать, классифицировать и следить за интересующими объектами по внутренним и открытым источникам. В ряде случаев могут использоваться поисковые шаблоны. Приведем многообразие только цифрового написания даты "31 декабря 1999 года": 31.12.99, 31.12.1999, 31/12/99, 31-12-99, 12-31-99, 12-31-1999... См. пример оформления запроса для географического понятия.
Класс понятий: обстоятельство места
Наименование понятия (дескриптор): Калужская область
Калуга | Калужская /(+1 +2) (область | !обл) | ((Дзержинский | Куйбышевский | Киров | Кировский | Ульяновский) /7 (Калужская) | Бабынинский | Барятинский | Боровский | Думиничский | Жиздринский | Жуковский | Износковский | Козельский | Людиновский | Малоярославецкий | Медынский | Мещовский | Мосальский) /(+1 +2) (район | !р-н)
3.2.4. Поиск аналогий или прецедентов.
Прикладные методы поиска аналогий с проблемной ситуацией или суждением (правилом) [5]. См. пример разнообразия аналогичных ситуаций для юридического понятия "банковская тайна". Как оказалось, к банковской тайне относятся защита сведений о лицевых счетах в пенсионных фондах и прочие совершенно неочевидные ситуации. Заметим, что и лексика, и состав элементарных понятий в исходной и аналогичной ситуациях кардинально отличаются.
Запросы поисковой системы Артефакт <http://www.integrum.ru>
"БАНКОВСКАЯ ТАЙНА - проблема, как она дана потребителем (ПКД)" или "банковская тайна"
"Ищем расширенную формулировку ПКД в группе из 7 смежных слов, исключив результат предыдущего запроса" или (банк!п :1 не данных тайна!п не "банковская тайна" не государственная :2 тайна \с7)
"Дополнительно расширяем ПКД синонимами, исключив результат предыдущего запроса" или (((тайна!п или секрет или секретный или конфиден*) (банк!п :1 не данных или кредитный или финансовый) \с7) не (банк!п тайна!п \с7) не государственная :2 тайна \с8)
"Содержательный поиск сходных ситуаций" или ((гарантировать или гарантия или тайна или неприкосн* или (*хран* не правоох* не здравоох* не недра не памятник \с3) или конфиден* или ((без :1 (согласие или разрешение) или противо* или запрещ* или вправе или уголов* или прокур* или дознан* или следств* или суд* или арбитраж* или представитель) (доступ* или *глаш* или оглас* или перед*ть или использ* или распростр* или обнародован* или проник* или откры* или выда*ть или пред*став*) \с6)) (((информация не массовая \с3) или сведения или справка или секрет или тайна) (вклад или ценности или "денежные средства" или валюта или (счет не на \с3) или операция или накопление или сбережение или (система охрана!п \с3)) (клиент или корреспондент или владелец или лицевой или индивидуальный или валютный или пенсионный или вклад* или банк!п или ЦБР или (аудит* или денежный или финансовый или кредитный) :2 (организация или учреждение или сфера) или депозитный или *ссудный или расчетный или лицо или лицевой или гражданин или организация) \с10) не данные!т \с20)
Краткий синтаксис запросов поисковой системы Артефакт <http://www.integrum.ru>:
несколько слов без кавычек - все слова в любых словоформах (слово, слова, слов, слову...) должны находиться в одном документе;
слово!т - модификатор вводится слитно после слова и предписывает поисковой машине искать точную словоформу (только заданное в запросе слово);
"несколько слов подряд" - фраза в кавычках ищется в тексте со словоизменениями;
первый или второй - логический оператор ИЛИ - должно присутствовать хотя бы одно слово;
первый не второй - логический оператор отрицания "И НЕ" (первое слово без второго в одном документе по умолчанию или заданном лексическом контексте);
(...) - логические скобки изменяют порядок исполнения операторов - первыми выполняются условия во внутренней скобке;
первый второй третий /с5 - многоместный оператор смежности задает близость слов / выражений в одном предложении, число "5" указывает на максимальное число смежных слов;
первый :2 второй - оператор следования с диапазоном (первое слово находится до второго и расстояние между нами должно быть не более 2.
Подробнее синтаксис описан на сайте производителя <http://www.integrum.ru/artefact/handbook/r_ql.asp>.
Методы непосредственного поиска фрагментов текста, вероятно вступающего в противоречие с заданным суждением (правилом) обеспечивают доказательства ничтожности статьи договора (как противоречащей действующему законодательству) или поиск нетривиальных решений "от противного". Построение исчерпывающего реестра субъектов, выпадающих из-под действия нормы "Все равны перед законом и судом" (ч.1 ст. 19 Конституции РФ), позволяет утверждать, что все законодательство - это больше исключения, чем правила. Т.е. равны перед судом и законом не все и далеко не всегда. В частности, выборные должностные лица органов местного самоуправления, федеральные депутаты и еще более 20 др. особо равных субъектов обладают иммунитетом к судебному преследованию.
Запрос поисковой системы Артефакт <http://www.integrum.ru>
"Поиск противоречий с частью 1 статьи 19 Конституции РФ" или ((неподсуд* не при не за не ввиду не "в связи" не государство не запрос не спор не дело не жалоба не отвод не собрание \с5) не арбитраж!п \с30) или ((неприкосновен* не запас не личный не половой не жилище не личность не гражданин не территория!п не предмет не вещь не документ не бумага не корреспонденция не помещение не здание не сооружение \с10) (процессуальный или уголовный или ((возбудить!п или возбуждать!п или наложить!п или налагать!п или расследовать!п или подвергать!п или подвергнуть!п или преследовать или повлечь!п или привлекать!п или привлечь!п или предъявить!п или предъявлять!п) (суд или судебный или правосудие или трибунал или ответственность или производство или правонарушение или дело или иск или обвинение) \с15)) \п2)
Методы исчерпывающего поиска фрагментов текста, устанавливающих права и обязанности интересующего субъекта, используют поисковые шаблоны и предназначены для построения реестра полномочий органов власти. Зачем это нужно? Дело в том, что властные структуры имеют право делать только то, что явно разрешено законом. Используя реестры полномочий можно проверять правомочность работы, например, правоохранительных или налоговых органов. Таким образом, выясняется, что все нормы законодательства субъектов Российской Федерации об иммунитете к уголовной ответственности региональных депутатов приняты с превышением полномочий.
Проблема: Построение реестра полномочий субъектов Федерации в области здравоохранения.
Запросы поисковой системы Артефакт <http://www.integrum.ru>
"Лексический образ понятия СУБЪЕКТ ФЕДЕРАЦИИ" или ((субъект Федерации \c4) или "город федеральный" или Москва или Санкт* или (республика Федерации \с6) или край или (область не в :2 области \с4) или "автономный округ" или (областной или краевой) :2 (совет или администрация))
"Лексический образ ЗАКОНОДАТЕЛЬСТВА ОБ ОХРАНЕ ЗДОРОВЬЯ" или (здоровье или здравохранение!п или медицинский или медик* или санатор* или курорт* или ((охрана!п или защита!п или восстанов*) (здоровье!п или жизнь или семья!п или детство!п или материнство или отцовство) \с6) или *инфекц* или вирус* или гигиен* или заболев* или иммун* или лекарств* или лечить!п или наркот* или псих* или радиация!п или санитар* или фарма* или экология!п или эпидем*)
"Реестр полномочий субъектов Федерации в области здравохранения" или (((предел или предмет или к или в или совместный или исключительный) :4 ведение или полномочия или компетенция) ((субъект Федерации \c4) или "город федеральный" или Москва или Санкт* или (республика Федерации \с6) или край или (область не в :2 области \с4) или "автономный округ" или (областной или краевой) :2 (совет или администрация)) (здоровье или здравохранение!п или медицинский или медик* или санатор* или курорт*) \с30)
3.2.7. Исчерпание лексических контекстов.
Прикладной морфологический анализ обеспечивается применением метода исчерпания лексических контекстов заданного понятия или ситуации. Например, для проблемной ситуации "наркомания в средней школе" строится исчерпывающий реестр участвующих лиц (школьники, учителя, персонал и администрация школы, родители, родственники, знакомые, милиция ...), отношений к приему наркотиков (не пробовал и не хочу, хочу попробовать, пробовал, употребляю изредка, уже "сижу на игле" ...), отношений к распространению наркотиков (бесплатное угощение, розничная реализация, оптовая реализация, перевозка, производство, упаковка, отмывка доходов ...) и других существенных аспектов (тип наркотика, срок употребления, возраст наркомана ...).
Задача морфоанализа: Построить исчерпывающий реестр объектов кадастрового учета
Запросы поисковой системы Артефакт <http://www.integrum.ru>
(кадастр или кадастровый) не (атомный или боеприпасы или вода или водный или водопользование или водопользователь или водохозяйственный или выброс или геодезический или город или градостроительный или древостой или животные или зеленый или земельный или землевладение или землепользование или землепользователь или землеустроительный или землеустроительный или землеустройство или земля или ископаемый или квартал или лес или лесной или лесопарковый или лесопользование или лесопользователь или лесосеменной или лесоустройство или насаждение или недвижимость или недвижимый или недра или недропользование или недропользователь или озеленение или округ или окружающая :2 среда или оружие или оружие или отходы или патроны или поземельный или поселение или почва или почвенный или природа или природный или природоохрана или природоохранный или природоохранительный или радиационный или район или растения или среда :2 обитания или территориальный или территория или угодий или участок или фирма или ядерный) \п2
3.2.8. Систематизация знаний заданной проблемной области ведется от исчерпывающих реестров терминов, обозначающих понятия из классификатора. Термины объединяются в микротезаурусы отдельных понятий. Понятия уточняются (строится словарь), упорядочиваются и оформляются в виде классификатора. Проектирование классификатора СБД [1,2] и разработка соответствующего пакета запросов доступных поисковых систем для поиска всех объектов (текстов) или их фрагментов, относящихся к понятию или ситуации (рубрике) классификатора, обеспечивает возможность полной автоматизации сбора и рубрицирования информации из внешних и внутренних источников.
3.2.9. Документирование и резервирование знаний защищает инвестиции компании в производство корпоративной базы знаний (информационно-технологические аспекты изложены далее, организационные вопросы см. [1]) и снижает кадровые риски.
Parfum.DOC * © Кузнецов Сергей, 2003
Класс понятия: объект
Наименование понятия (дескриптор): одеколон
Язык текстов: русский
Поисковая система: Яндекс <http://www.ya.ru>
(одеколон | !духи | деодорант | дезодорант | ("eau de" /+1 (cologne | parfum)) | ((душистая | туалетная | парфюмерная | парфюмированная | кельнская | колонская | косметическая) /(+1 +2) вода))
Поисковая система: Рамблер <http://www.rambler.ru>
Поисковая система: Convera <http://www.public.ru>
(одеколон OR деодорант OR дезодорант OR ("eau de" (cologne OR parfum) adj 2) OR ((душистая OR туалетная OR парфюмерная OR парфюмированная OR кельнская OR колонская OR косметическая) вода adj 3))
Поисковая система: Артефакт <http://www.integrum.ru>
(одеколон или духи!т или деодорант или дезодорант или ("eau de" :0 (cologne или parfum)) или ((душистая или туалетная или парфюмерная или парфюмированная или кельнская или колонская или косметическая) :1 вода))
Специально отметим, что сами тексты в корпоративной информационной системе никак не перерабатываются, а лишь дополняются метаданными. Поисковая система только отмечает в них все написания искомого понятия или суждения (как сочетания понятий). Такая содержательная разметка текстов позволяет в дальнейшем обеспечить быстрый доступ к подходящим фрагментам нужных объектов, а в результате их восприятия и понимания потребителем - и к требуемым знаниям. Если на процесс содержательной разметки текста посмотреть с точки зрения компьютерной лингвистики, то это всего лишь формирование для каждого понятия или суждения исчерпывающей тезаурусной статьи для конкретного естественного языка с ее оформлением по правилам языка запросов конкретной поисковой системы.
Дело в том, что методом прочтения можно получить только 5% нужных документов, т.н. простым поиском по "ключевым" словам или через существующие классификаторы можно получить до 25% нужной Вам информации, т.е. подходящих текстов, доставляемых автоматически с использованием предлагаемой технологии. Таким образом, появляется возможность качественно (не более 10% информационного шума) расклассифицировать неограниченные массивы текстов. Более того, применение технологий компьютерной разведки [6] позволяет организовать следящие информационные системы раннего оповещения о критически важных именно для Вас событиях, отраженных в документах сети Интернет и внутренних документах корпорации.
4. Технология извлечения и документирования знаний
4.1. Технология программирования запросов полнотекстовых поисковых систем. Документация. В процессе извлечения и документирования знаний разрабатываются и многократно повторно используются следующие единицы технологической документации. Также рекомендуется вести отдельную базу данных документации к классификаторам.
4.1.1. Объект документирования "Наименование понятия" (дескриптор) - поисковый микротезаурус, отвечающий за отдельное понятие из корпоративного классификатора или реестра, оформленный в виде системы запросов поисковых систем. По существу, это самостоятельные поисковые запросы, включающие сам дескритор понятия ("главное" наименование понятия), его синонимы, антонимы, подчиненные понятия, распространенные неправильные написания, иные написания, ассоциированные термины, однокоренные слова и т.п.. Для исключения выхода за установленный определением объем понятия любые термины приводятся либо в подходящих контекстах, либо за исключением неподходящих контекстов. При необходимости для каждого слова в запрос включаются все словоформы. Объекты документирования отвечают за выявление в текстах фрагментов требуемого смысла и корректно решают проблему "смысл-текст". К особенностям оформления поисковых микротезаурусов стоит отнести то, что они всегда (если позволяет поисковая система) заключаются в логические скобки. Таким образом, достигается возможность, манипулируя объектами документирования вручную и автоматически, "собирать" поисковые запросы для проблемно-ориентированного поиска, т.е. применять ставший классическим в традиционном программировании объектно-ориентированный подход. Пример документации на понятие:
Класс понятия: материальный объект - средство платежа
Наименование понятия (дескриптор): Доллар США
Естественный язык: английский, Яндекс
(!usd | (dollar /2 (usa | "+u +s +a" | us | "+u +s" | united-states)) | (dollar ~ /(-5 -1) (new-zealand | (antigua /(+1 +2) barbuda) | (vincent /(+1 +3) grenadines) | (kitts /(+1 +2) nevis) | (trinidad /(+1 +2) tobago) | (heard /(+1 +2) mcdonald) | christmas-island | cocos-islands | cook-islands | saint-lucia | solomon-islands | hong-kong)) | (dollar ~ /-1 (anguilla | grenada | dominica | cayman | caribbean | keeling | kiribati | montserrat | nauru | niue | pitcairn | tokelau | tuvalu | australia | bahama | barbados | belize | bermuda | brunei | guyana | zimbabwe | canada | liberia | namibia | norfolk | singapore | taiwan | fiji | jamaica)))
Для каждого понятия (или ситуации) из корпоративного классификатора для манипулирования (поиск, классифицирование, визуализация...) текстами на конкретном естественном языке создается поисковый микротезаурус, а именно:
пишется система поисковых запросов для сбора необходимой информации из любых открытых источников (внешний контур корпоративной базы знаний, применяется технология производства малозатратных систем компьютерной конкурентной разведки [6], а точнее, т.н. "универсальная поисковая спецификация"), норма времени - 7 часов работы специалиста;
разрабатывается единый поисковый запрос внутренней (корпоративной) поисковой системы для автоматической классификации поступающей информации (внутренний контур корпоративной базы знаний), норма времени - 1 час работы специалиста.
4.1.2. Словарь (тезаурус базы знаний) содержит словесные (вербальные) определения всех используемых в классификаторах и реестрах терминов (объектов документирования). Каждое определение дополняется актуальным и полным списком нормативных и ненормативных определений термина, найденных в открытых источниках [3]. В случае многозначности термина обязательно приводится обоснование принятого (рабочего) определения. Словарь обеспечивает возможность уточнить объем понятия и смысл термина при документировании знаний, формировании запросов на поиск, интерпретации и анализе найденного, поиске решений и проектировании классификаторов. Отдельная статья словаря может включать ссылки на иные понятия (подчиненные, более абстрактные, противоположные по смыслу, ассоциированные...), блок аналитических (обзорных) статей и новости о понятии.
4.1.3. Класс понятий - элементарный тип существенных для потребителя (корпорации) понятий, составляющих проблему или проблемную ситуацию. Примеры классов: объект, процесс (отношение), абстрактный субъект (активный / пассивный, частное / юридическое лицо ...), признак, обстоятельство времени, места и др., аспект (точка зрения), контекст (область знаний), способ, определение, правило, теория, функция... В ряде случаев классы также могут быть упорядочены и для них разработан отдельный классификатор верхнего уровня. По существу такой классификатор описывает структуру фасетной классификации, основанной на одновременном логическом делении систематизируемого материала (множества) по нескольким классификационным признакам одновременно. Так образуется многомерное представление пространства проблемных ситуаций (каждый класс понятий или фасет - отдельная ось или измерение).
4.1.4. Классификатор - проблемно-ориентированный иерархический классификатор понятий выбранного класса. Одного классификатора никогда не хватает по причине многомерности мира и наличия многих существенных для принятия решений оснований деления (классы понятий). В результате система классификаторов и реестров образует не плоскую (древовидную / иерархическую), а объемную (фасетную) систематику области интересов корпорации (риски и возможности) и компетенций персонала (должностных обязанностей сотрудников). Это обеспечивает возможность поиска и анализа по всем и любым существенным для навигации классам понятиям в любом их сочетании. Множественность и очевидность правил (стратегий) выборки требуемой информации из систематизированной базы данных заметно ускоряет и повышает качество процесса доступа и анализа проблемно-ориентированной информации, синтеза новых знаний и подготовки нестандартных решений.
4.1.5. Реестр - алфавитный или отсортированный по иному основанию перечень дескрипторов понятий выбранного класса, систематизация (установление родо-видовых отношений) которых невозможна или нецелесообразна. Реестры обычно строятся в отношении конкретных понятий (объектов, субъектов и иных классов): предприятий, персон, нормативных актов, адресов, ...
4.1.6. Правила выборки задают алгоритм преобразования "проблемы, как она дана потребителем" в запрос для поиска подходящей информации. На настоящий момент изучено и опробовано два правила формирования поискового запроса:
4.1.6.1. Для нахождения аналогий (прецедентов) требуется искать в узком лексическом контексте документы, включающие лексику всех существенных понятий из формулировки проблемы потребителя [5]. См. пример в п. 4.1.7.
4.1.6.2. Для выявления противоречий (коллизий) с утверждением потребителя или поиска нетривиальных шагов "от противного" целесообразно искать документы, включающие лексику всех существенных понятий из формулировки потребителя в узком лексическом контексте, но при этом инвертировать по смыслу понятие класса "процесс" (есть еще несколько правил поиска противоречий). Поясним это правило на простом примере. Есть утверждение: "В пригородных электропоездах курить разрешено". Слово "разрешено" относится к понятию класса "процесс". Используя это правило, нужно искать документы, включающие фразы типа "Курить в электричках запрещено", "За курение в поездах пригородного железнодорожного сообщения налагается штраф" и т.п.
4.1.7. Модель запроса - устанавливает объемы лексических контекстов в проблемно-ориентированном запросе, формируемом вручную или автоматически по заданному правилу выборки из конкретных элементов проблемы потребителя. Пример документации на модель запроса:
Проблема, как она дана потребителем (ПКД): История русской эмиграции
Проводим декомпозицию ПКД на элементарные понятия и готовим для них поисковые запросы:
4.1.8. Формула запроса – только фиксирует логику запроса, решающего задачу поиска текстов заданного типа, и не содержит никакой лексики (см. Приложение 1). Пример документации на формулу запроса:а) Класс понятия: отрасль знаний
Наименование понятия (дескриптор): история
Естественный язык: русский
(история | исторический)
б) Класс понятия: процесс
Наименование понятия (дескриптор): эмиграция
(эмиграция | эмигранты | эмиграционный | переселенец | эмигрировать | переселяться | переселение | выселять)
в) Класс понятия: признак
Наименование понятия (дескриптор): русский
(русские | (+из /2 (россия | ссср | союз | рсфср)) | российский | советский | русскоязычные)
г) Собираем ситуационный запрос, используя модель запроса для поиска аналогий: "Процесс рядом с отраслью знаний (к группе из пяти смежных слов) и объект в одном предложении".
Проблема, как она дана потребителем (ПКД): История русской эмиграции
((история | исторический) /4 +(эмиграция | эмигранты | эмиграционный | переселенец | эмигрировать | переселяться | переселение | выселять) & +(русские | (+из /2 (россия | ссср | союз | рсфср)) | российский | советский | русскоязычные))//1
а) Формула запроса Яндекс для поиска 7-значного телефонного номера с тремя кодами города (NC-30) имеет следующий вид:
(((!#ПКГ | !#ВКГ | !#ТКГ) /+1 !#ПеЦТ#ВЦТ#ТЦТ#ЧЦТ#ПяЦТ#ДПЦТ) | ((!#ПКГ | !#ВКГ | !#ТКГ) /+1 !#ПеЦТ#ВЦТ#ТЦТ /+1 !#ЧЦТ#ПяЦТ#ДПЦТ) | ((!#ПКГ | !#ВКГ | !#ТКГ) /+1 !#ПеЦТ#ВЦТ#ТЦТ /+1 !#ЧЦТ#ПяЦТ /+1 !#ДПЦТ))//1
где параметры начинаются со знака "#" и имеют следующие значения:
#ПКГ – первый вариант кода города, целое число, необязательный параметр, например, 495 (Москва);
#ВКГ – второй вариант кода города, целое число, необязательный параметр, например, 499 (Москва);
#ТКГ – третий вариант кода города, целое число, необязательный параметр, например, 095 (Москва);
#ПеЦТ – первая цифра номера телефона, одноразрядное целое число, обязательный параметр, например, 7;
#ВЦТ – вторая цифра номера телефона, одноразрядное целое число, обязательный параметр, например, 7;
#ТЦТ – третья цифра номера телефона, одноразрядное целое число, обязательный параметр, например, 7;
#ЧЦТ – четвертая цифра номера телефона, одноразрядное целое число, например, 1, (кроме пятизначных телефонов);
#ПяЦТ – пятая цифра номера телефона, одноразрядное целое число, например, 1, (кроме пятизначных и шестизначных телефонов);
#ДПЦТ – две последние цифры номера телефона, двухразрядное целое число, обязательный параметр, например, 47.б) Последовательная подстановка конкретных значений параметров в формулу дает следующий результат:
(((!495 | !499 | !095) /+1 !7771147) | ((!495 | !499 | !095) /+1 !777 /+1 !1147) | ((!495 | !499 | !095) /+1 !777 /+1 !11 /+1 !47))//1
4.1.9. Шаблон запроса (поисковый шаблон) - поисковый микротезаурус, отвечающий за реализацию конкретной функции с любым понятием, оформленный в виде не работающей заготовки запроса конкретной поисковой системы для выбранного естественного языка. Обычно в шаблон включается описание всех лексических контекстов, в которых с исследуемым термином выполняется какая-либо операция (уточняется смысл, устанавливаются права или обязанности ...). Ручная или автоматическая подстановка конкретного объекта в шаблон формирует работающий запрос, реализующий полезную функцию с этим объектом. Примеры полезных функций: нахождение определений терминов [3], мониторинг необычных случаев, поиск фрагментов норм права, предоставляющие права и т.п. Также поисковые шаблоны используются в качестве средства реализации некоторых приемов программирования. Пример использования шаблона запроса:
а) Класс понятия: материальный объект
Наименование понятия (дескриптор): культурные ценности
Естественный язык: русский
Запросы поисковой системы Яндекс <http://www.ya.ru>
(культурные-ценности)
б) Шаблон запроса (один из многих) для реализации функции: поиск определений любого термина (с использованием любого редактора текстов нужно заменить многоточие на запрос для конкретного термина) [3]
((выделять | указать | определять | характеризовать | квалифицировать | отличить | отличие | различить | различие | отграничить | отграничение | ограничить | ограничение | объективный) /2 (признак) /18 ......) | ((термин | (!под) /+1 (!словом) | выражение | !называемый | именовать | !далее | !дальнейшем) /(+1 +2) ......)
в) Задача: Поиск определений конкретного термина "культурные ценности"
((выделять | указать | определять | характеризовать | квалифицировать | отличить | отличие | различить | различие | отграничить | отграничение | ограничить | ограничение | объективный) /2 (признак) /18 (культурные-ценности)) | ((термин | (!под) /+1 (!словом) | выражение | !называемый | именовать | !далее | !дальнейшем) /(+1 +2) (культурные-ценности))
Перечисленные технологии передаются в процессе интенсивного обучения (компьютерные тренинги, как открытые в Москве, так и на предприятиях России и стран СНГ).
4.2.1. Реестр открытых источников. Для нахождения наилучших открытых источников (наиболее подходящих для решения поставленной задачи баз данных, доступных через Интернет) используется тринадцать независимых стратегий поиска. Пример см. в п. 4.1.8.
4.2.2. Для поиска синонимов используется восемь независимых методов. Практически доказана неполнота и неактуальность традиционных лингвистических средств, в частности, словарей синонимов. Пример реализации методов поиска синонимов см. в п. 3.2.9.
4.2.3. Разработано одинадцать методов поиска аналитических отчетов по заданной теме. Появляется возможность методом "РеКле" (режу - клею) по информации из открытых источников оперативно готовить дипломные работы, правдоподобные отчеты, докторские диссертации и прочую аналитику.
4.2.4. Обеспечивается перенос запросов на разные поисковые машины близкой функциональности в рамках одного естественного языка. Пример см. в п. 3.2.9.
4.2.5. Универсальная поисковая спецификация - ноу-хау, позволяющее формировать пакет запросов для проблемно-ориентированного поиска на поисковых системах разной функциональности в рамках одного естественного языка. За 2-5 минут можно определить возможности конкретной поисковой системы Интернет, написать для нее запрос по теме постоянного интереса (рубрике корпоративного классификатора) и сформировать для робота задание на регулярный тематический мониторинг этого открытого источника. В основе этой разработки лежит авторская классификация возможностей поисковых систем Интернет, протокол оперативного выявления недокументированных возможностей поисковых систем Интернет и группа прикладных методов компьютерной лингвистики.
4.2.6. Приемы переноса запросов на незнакомые естественные языки и автоматического перевода web-страниц позволяют строить экспертные системы на основе текстов на многих языках. Углубленное обучение технологий программирования проводится в рамках авторского компьютерного тренинга "Конкурентная разведка на основе интернет-технологий" [6].
4.3. Типы классификаторов. Поговорим о многомерном классификаторе. Число понятий в таком классификаторе не сравнимо с количеством решаемых проблем: 2100 понятий в семимерном классификаторе СБД позволяют детально описать более миллиарда миллиардов ситуаций (сравните с одномерными иерархическими классификаторами) [1]. Наш опыт показывает, что размер запроса поисковой системы для полного и точного поиска разнообразных лексических образов отдельного понятия никогда не превышает 3000 знаков. Уже накоплен опыт переноса таких запросов на другие естественные языки и поисковые системы. В настоящее время методы извлечения знаний проверены на текстах на русском, английском и немецком языках с использованием поисковых систем разной функциональности.
В результате СБД становится систематизированным хранилищем данных (текстов и иных объектов, а также знаний о естественном языке и проблемной области, заложенных в множестве классификаторов и реестров СБД и соответствующих им комплексам поисковых запросов). Очевидно, что понятия классификатора СБД инвариантны как к естественному языку, так и к поисковой системе, т.е. СБД могут создаваться в распределенных многоязычных средах.
Доступ к знаниям может быть эпизодическим (консультирование) и систематический (обучение).
Эпизодический доступ к богатству человеческих и корпоративных знаний поддерживается естественными пользовательскими интерфейсами нового поколения (органические информационные технологии, organic IT). Это программы взаимодействия "человек - бытовой прибор - удаленный компьютер - СБД", работающие через различные устройства непосредственного доступа (кнопочный стационарный и мобильный телефон, пейджер, персональный или сетевой компьютер, сенсорный терминал и иные бытовые устройства ввода-вывода). Такие системы, круглосуточно работая с произвольным числом потребителей, любое число раз
автоматически опрашивают заинтересованное лицо на его родном языке. Пользователю задается ограниченное число вопросов, причем его ответы всего на 28 вопросов позволяют детально описать более миллиарда миллиардов проблемных ситуаций, возможен поисковый запрос на естественном языке в произвольной форме с последующим уточнением значения слов запроса и переходом в режим диалога с целью уточнения и изменения направления поиска,
при необходимости разъясняют смысл неясных слов;
с заданной степенью логического обобщения готовят подборку подходящих объектов СБД (возможно, извлечений из текстов), используя различные правила выбора (по аналогии, от противного ...);
при необходимости и возможности устройства доступа дают визуальное представление тенденций, например, в виде столбчатой диаграммы или трехмерного графика показывают изменение числа и доли позитивных отзывов во времени;
при необходимости переводят найденное на родной язык пользователя;
доставляют подходящую информацию с учетом возможностей устройства доступа (отображение на экране, зачитывание голосом, печать письма с последующий отправкой, запись на диск, отправка сообщения по электронной почте...).
Естественные интерфейсы с голосовым вводом-выводом позволяют на обычной телефонной линии обеспечить доступ персонала, потребителей и иных категорий пользователей к подготовке и принятию решений, официальным документам, товарам, услугам круглосуточно и из любого точки и, что самое главное, без всякой предварительной подготовки (суровые условия городских трущоб и Интернет). Запоминание описаний проблем конкретного потребителя СБД (т.н. персональный профиль), например, его хобби или особенностей должностной инструкции, позволяет легко автоматизировать процесс принудительной доставки подходящих новостей сразу после их классифицирования. Разработаны методики реализации естественных интерфейсов для бумажных изданий нового типа (обучающие энциклопедии). Дружелюбность естественного интерфейса кардинально изменяет эффективность корпоративных информационных систем и заметно снижает общую стоимость владения. В настоящее время уже реализован работающий макет естественного интерфейса нового поколения, доступный для испытаний всем заинтересованным лицам.
Систематический доступ к знаниям обеспечивается открытыми технологиями образования [4]. Применяемая методология базируется на предметно-ориентированных СБД, методах интенсивного ситуационного обучения и поиска нестандартных решений. Это позволяет в условиях ограниченных ресурсов отслеживать изменения спроса на рынке труда, быстро формировать учебные курсы (как очные, так и дистанционные) и их системы (пожизненное обучение), мягко проводить реорганизацию образовательного и индивидуального циклов деловой активности преподавателей и слушателей, покрывать дефицит кадров и создавать новые рабочие места, управлять качеством образовательных услуг, развивать образовательные стандарты и вести сертификацию учебных программ, преподавателей и слушателей. При высоком качестве дистанционного обучения его стоимость в сравнении с традиционным существенно снижается.
В случае отсутствия или недоступности прошлого опыта разрешения проблемной ситуации применяются многочисленные методы поиска нестандартных решений, такие как морфологический подход, системный подход, метод "букета проблем", И-ИЛИ-дерево, алгоритмы решения изобретательских задач и многие другие. Таким образом, в доступное время обученным творческому подходу персоналом обеспечивается подготовка программы выхода из беспрецедентной кризисной ситуации любого масштаба.
7.1. Области применения технологий управления знаниями:
поддержка перехода корпораций, общественных организаций и органов власти на управление, основанное на знаниях (knowledge based management) [7], управление корпоративными знаниями и интеллектуальным капиталом;
реализация проектов типа "Электронное правительство" (e-government), "Электронная Россия", создание международных, федеральных, муниципальных, региональных и отраслевых справочно-информационных служб, разворачивание и поддержка публичных интренет-порталов, решение проблемы "цифрового неравенства";
производство корпоративных экспертных систем типа "вывод, основанный на прецедентах" и иных типов; публичный доступ к товарам, услугам и знаниям, консалтинг, электронная торговля, корпоративные порталы, центры автоматической обработки телефонных вызовов, патентная разведка;
избирательные технологии, прикладная политология и социология, боевой PR (связи с общественностью), противодействие и ведение информационной войны, ситуационные центры, деловая и конкурентная разведка [6] и контрразведка, управление предпринимательскими и иными рисками, поиск новых возможностей для бизнеса, стратегический менеджмент и маркетинг;
разрешение правовых проблем и прикладные методы законотворчества, противодействие криминалу, охрана правопорядка и профилактика преступности, повышение культуры и социальная реабилитация;
очное и дистанционное корпоративное обучение, постоянная сертификация персонала;
распространение обучающих энциклопедий в некомпьютерных формах;
поддержка поиска и принятия нестандартных решений, творчество, фундаментальные и прикладные исследования и многое другое...
7.2.1. Системы мониторинга открытых источников.
По американским оценкам за 2002 год сгенерировано 5 ЭБ новой информации на различных носителях (1 ЭБ / ЭкзаБайт = 10 в 18 степени байт. 1 байт обеспечивает запись на машинные носители 1 буквы). Это печатные издания, фильмы, записи на магнитных, оптических и иных постоянных носителях информации. По каналам связи за 2002 год передано 18 ЭБ новой оригинальной информации. К основным каналам связи относятся телефон, радио, телевидение и Интернет. Каждые три года объем создаваемой информации удваивается. По темпам роста объемов доступной информации Интернет опережает иные каналы публичного доступа к информации. Более 80% необходимой для профессиональной деятельности сообщества по интересам, компании, органа власти, государства, международной организации или иной структуры управления оперативной и стратегической информации может быть получена через Интернет. Самым технологичным способом опубликования коммерческой информации и доступа к ней остается Всемирная Паутина. Это более 40 млн. серверов, из них более 800 тыс. представляют русский сегмент Сети. По американским оценкам 2002 года общий объем информации, доступной через Интернет, превышал 550 млрд. индивидуальных документов общего объема 20.000 ТБ (1 ТБ / ТераБайт = 10 в 12 степени байт). Львиная доля документов (более 95%) недоступна через поисковые системы общего назначения. Это так называемый невидимый Интернет. Основная коммерческая информация сосредоточена в базах данных, 35% которых доступно бесплатно. Сотни тысяч изданий и каналов распространения информации могут публиковать сведения, критически важные для конкретного бизнеса или системы управления.
Использование подготовленным персоналом авторских ноу-хау позволяет реализовать малозатратные системы компьютерной разведки на неопределенной базе открытых источников. В результате появляется возможность за 5-10 минут разворачивать и с любой периодичностью осуществлять слежение за появлением новостей по заданной теме из более 40000 англоязычных источников и более 4000 русскоязычных источников. Если критическая информация появляется, тут же выдается мультимедиа сообщение, рассылаются уведомления по электронной почте, новость загружается в корпоративное хранилище и доставляется на рабочие столы ответственных сотрудников корпорации. Задержка между моментом опубликования новости в любой точке мира на любом языке до момента уведомления компетентного сотрудника корпорации может составлять всего 7-10 минут.
7.2.2. Корпоративные базы знаний и публичные порталы Интернет.
Как только документирование знаний и сбор информации внутри корпорации и через Интернет становится систематическим, наступает информационная перегрузка. Слишком много поступает в компанию новостей. Своевременно их вручную обработать не удается.
На основе корпоративной информационной системы с развитой подсистемой полнотекстового поиска и уже подготовленной документации к персональным системам компьютерной разведки создается открытое систематизированное хранилище (база знаний). Примеры высокофункциональных поисковых систем: AltaVista <http://www.altavista.com>, Excalibur <http://www.public.ru>, Яндекс <http://ya.ru>, "Oracle Text" <http://otn.oracle.com/products/text/content.html> и др. C использованием корпоративной базы знаний проводится сбор информации об изменениях внешнего мира и классификация полученных данных (наполнение систематизированного корпоративного хранилища текстов и иных объектов). Это позволяет регулярно вести доставку информации по компетенции или требованию персоналу корпорации, рассылку, обучение персонала, визуализацию тенденций, многофакторный анализ и прогнозирование. Кроме того, обеспечивается незатруднительный доступ персонала и клиентов с любых устройств (сотовый телефон, Интернет ...) к информации о товарах и услугах корпорации (голосовой корпоративный портал).
Изучавшийся нами альтернативный (в отношении нашей технологии программирования поисковых систем) статистический подход к выявлению смысла сообщений и классифицированию текстов не обеспечивает достаточной полноты (не выше 30%) и точности (не выше 65%) выборки из хранилища материалов по конкретной проблеме. Смысловой (семантический) анализ массивов и потоков текстов с использованием такого подхода предлагается в ряде российских программных комплексов "Galaktika-Zoom" <http://zoom.galaktika.ru>, "Semantic Explorer" <http://soft.neurok.ru>, "Russian Context Optimizer" <http://www.rco.ru>, "TextAnalyst" <http://www.analyst.ru> и многочисленных зарубежных аналогах. Некорректное решение проблемы "смысл-текст" не позволяет строить на основе этих продуктов заслуживающие доверие пользователей корпоративные базы знаний.
7.2.3. Корпоративный метапоиск. Параллельный поиск во многих внешних источниках.
Представим себе, что в процессе создания корпоративного хранилища сотни проблем корпорации были изучены и по ним были запущены в эксплуатацию масштабные системы мониторинга открытых источников (см. п. 7.2.1.). Ручное добавление проекта слежения для каждой новой проблемы (как иной комбинации уже имеющихся в корпоративном классификаторе понятий) и расширение базы слежения (подключение новых источников) достаточно трудоемко и требует квалификации.
Разработан классификатор функциональных возможностей поисковых систем в комплекте с системой тестов, позволяющий быстро выяснить и полно описать возможности конкретной поисковой системы. Технология "универсальная поисковая спецификация" (см. п. 4.2.5.) решает задачу автоматизации формирования запросов для поисковых систем любой функциональности. В результате однократного изучения каждого понятия из корпоративного классификатора и описания всех протестированных открытых источников появляется возможность обеспечивать параллельный поиск по любой теме корпоративного классификатора на всей базе открытых источников известной функциональности.
В отличии от традиционных систем одновременного поиска (публичные метапоисковые системы типа сервера http://www.ixquick.com или настольной программы "Copernic Pro" http://www.copernic.com) корпоративный метапоиск использует не только логические операторы И / ИЛИ / ФРАЗА, а все учтенные возможности конкретной базы данных. Кроме того, база открытых источников корпоративного метапоиска является конфиденциальной и открытой (расширяется по мере необходимости).
Кроме всего прочего, развитие этой технологии позволяет решить проблему невозможности закачки в корпоративное хранилище или покупки всей информации из некоторых уникальных источников. Можно автоматически формировать запрос по произвольной теме из корпоративного классификатора для любых поисковых систем известной функциональности, затем консолидировать найденные в различных уникальных базах данных материалы в едином отчете, перекачивать нужные данные в хранилище, проводить их предварительный анализ, систематизацию и т.п. Иными словами робот, отрабатывая конкретную задачу корпоративного пользователя, формирует и адресует специфичные поисковые запросы к сотням внешних баз данных, после чего собирает полученные результаты в единый отчет. Число внешних баз данных, в принципе, не ограничено, однако, каждая из них должна быть предварительно протестирована и синтаксис ее поисковых запросов должен быть формально описан.
7.2.4. Персональные базы знаний.
Построение корпоративных баз знаний как услуга неизбежно требует развития стандартных классификаций (ядро базы знаний) с целью снижения стоимости разработки для конкретного заказчика. Такое ядро представляет интерес не только для разворачивания корпоративных баз знаний, но и для малозатратного обслуживания частных лиц и малых предприятий в виде поставки стандартного продукта.
Возможно тиражирование коробочных версий работающих классификаторов, обеспечиваемых системами поиска в файлах отдельного компьютера или локальной компьютерной сети. Идея состоит в систематизации информации, разбросанной в виде файлов разных форматов (включая архивы ...) на компьютере пользователя или небольшой локальной сети. Программа первоначально создает индекс метаданных персональной базы знаний на основании файлов, размещенных на локальных дисках. Затем эта же программа в фоновом режиме обеспечивает обновление индекса метаданных и доступ к накопленной информации в диалоге на естественном языке. Аналогичным образом готовится тиражируемый web-сервер. На основе извлечений из такой базы знаний можно публиковать электронные и бумажные обучающие энциклопедии.
7.2.5. Обучающие энциклопедии.
Просвещение граждан и потребителей, повышение их культуры и информированности с целью продвижения товаров и услуг корпорации на конкретных рынках в условиях острой конкуренции требует использования всех каналов доставки информации. Международными организациями поставлена проблема "цифрового неравенства / digital devide", проистекающая из относительной догоровизны доступа в Интернет, низкого уровня развития телекоммуникаций и невысокой подготовки граждан в области информационных технологий. Рассмотрим возможности превращения традиционных публикаций на бумажных носителях в карманный вариант базы знаний и регулярного использования этого канала в качестве средства связи с общественностью, систематического обучения и повышения лояльности потребителей.
Для примера обозначим примерный состав обучающего справочника, по существу, это специализированная энциклопедия:
введение (что это, для кого это, как пользоваться, что, где, как и когда можно заказывать...);
толковый словарь определений и толкований основных терминов, возможно, с картинками;
энциклопедическая (исчерпывающая) подборка статей о сфере знаний, товарах и услугах с картинками и, возможно, опорными ценами;
аналитика - целесообразно помещение в энциклопедию компактного справочного материала, консолидирующего сведения по критически важным вопросам, обзора тенденций за последний квартал и прогноза развития предметной области или конкретного рынка;
традиционные средства навигации (систематический каталог, алфавитный указатель персон, предприятий, товаров и услуг, оглавление...);
для оперативного разрешения учебных и реальных проблем формируется и помещается в справочник многомерный классификатор проблем со ссылками на уровень фрагментов материалов справочника (классификатор в 5 картинках-схемах всего из 70 понятий детально описывает 15 млн. ситуаций);
возможно использование любых иных общепринятых классификаторов или их фрагментов со ссылками на уровень отдельных материалов справочника или их структурных частей;
курс для ситуационного самообучения в виде подборки учебных проблемных материалов - кейсов нарастающей сложности с подробно разобранными решениями. Можно для систематического изложения использовать форму вопросов и ответов, вредных советов и иные;
ссылки на иные полезные открытые источники (справочники, энциклопедии, вертикальные порталы...).
Обучающая энциклопедия заданного объема может ежеквартально готовиться на основе актуальной компьютерной базы знаний. В заключение отметим, что такого типа справочники могут быть посвящены любым предметам: консалтингу, отрасли права, недвижимости, автомобилям, интерьеру... В такой форме можно издавать как серийные рекламные каталоги, так и брошюры для повышения правовой и музыкальной культуры, профилактики преступности, СПИДа и наркомании в средней школе и т.п.
Давно сложилось понимание ценности Сети как среды доступа к мировым знаниями. Затруднения возникают при попытке пользователя без специальной подготовки быстро найти нужный материал. В общем случае, не ясно, что, где и как искать, какие средства доступа использовать для поиска решений конкретной проблемы. Обычно пользователь Сети либо не находит ничего, либо на него обрушивается море информации не по делу.
Облегчение содержательного поиска в Интернет (проект "Семантический Интернет", см. п.1) возможно в рамках движения за "открытый код" с использованных описанных выше технологий. Это предполагает формирование обученными добровольцами для избранных предметных областей соответствующих работающих классификаций (см. п.4) и их бесплатное распространение среди владельцев ресурсов Интернет. Финансирование такой работы может взять на себя заинтересованная международная организация, орган власти, корпорация или неправительственный фонд.
7.3. Границы применимости. Может быть это - очередная панацея? Никоим образом. Не поддерживаются операции с данными в случае отсутствия у них электронных текстовых аннотаций. К таковым можно отнести числа, изображения, звуки ... их сочетания, массивы и временные ряды. Поскольку СБД представляет собой технологическую реализацию одного из систематических методов творчества - морфологического подхода, уже сейчас получены результаты, которые не имеют аналогов. Например, разработаны методы исчерпывающего выявления пробелов и противоречий системе утверждений, изложенных в больших массивах текстов.
7.4. Экономика внедрения. По предварительным расчетам расширенный вариант корпоративной базы знаний с информацией на 12 официальных языках Евросоюза, русском и трех восточных языках (перечисленные 16 языков покрывают не менее 97% открытых источников Интернет), реестром "Хронология" (ретроспектива 20 лет с разбивкой по неделям, 1042 позиции)
реестром "Основные производимые товары" (50 конкретных позиций);
классификатором "Базовые услуги" (20 позиций);
классификатором "Основные процессы" (20 операций);
классификатором "Ключевые технологии" (20 позиций);
реестром "Конкуренты" (70 позиций);
Основные конкуренты (20 национальных компаний и ТНК);
Прочие конкуренты (производители 50 товаров);
реестром "Клиенты" (60 позиций)
Розничные клиенты (20 абстрактных мелких потребителей);
Корпоративные клиенты (40 конкретных крупных потребителей);
и классификатором "Территория хозяйственных операций" (30 стран мира)
потребует 8 ч/часов х 16 языков х (50 товаров + 20 услуг + 20 процессов + 20 технологий + 70 конкурентов + 60 клиентов + 30 стран) = 34560 ч/часов или 4320 ч/дней. Для команды из 20 корпоративных аналитиков - это работа на целый год. Расширенный вариант следящей корпоративной базы знаний исчерпывающе описывает и позволяет анализировать более 50 млрд. проблемных ситуаций по любого объема массивам текстов на 16 языках. При уровне ежемесячной заработной платы корпоративного аналитика $1,000 общий ежемесячный фонд оплаты труда составит $20,000. Если ограничиться двумя языками (русский и английский покрывают 73% ресурсов Интернет), то работы такой командой завершаются за полтора месяца с общим фондом оплаты труда в пределах $30.000. Заметим, что известными методами инженерии знаний подготовить экспертную систему такого калибра даже на 50.000 текстов просто нереально. Не говоря уже о том, чтобы ее поддерживать в актуальном состоянии.
7.5. Задачи и перспективы. Представляется заманчивым применение изложенного подхода для снижения стоимости построения семантических сетей на основе полнотекстовой информации, а также исследование экономичности его применения с использованием теории фреймов. На уровне корпоративных информационных систем нужно решать задачу проблемно-ориентированного поиска аналогий при условии, что информация о конкретном прецеденте распределена по группе содержательно связанных документов (традиционные поисковые системы ищут отдельные документы, удовлетворяющие всем условиям поискового запроса одновременно). Для анализа достоверности информации из многих текстовых источников и оценки надежности результирующих рекомендаций в системах поддержки принятия решений планируется изучить возможности автоматизации построения систем лингвистических переменных и использования математического аппарата логики Заде (нечеткая логика / fuzzy logics).
1. Кузнецов С.В., Титов В.В. "Классификация: системно-морфологический подход", М., РНЦ "Курчатовский институт", препринт ИАЭ-6075/1, 1998, <http://www.serendip2.ru/order/classif/annot.html>.
2. Кузнецов С.В. "Доступ к текстовой информации", в Материалах 5-й Международной научно-практической конференции "Виртуальный мир Инфосферы: практическое использование человеком", Владивосток, Владивостокский филиал Российской таможенной академии, 1998, <http://www.knowbase.ru/access.htm>.
3. Кузнецов С.В. "Определение понятий", доклад на заседании Экспертно-консультационного совета по кодификации и систематизации законодательства и правовой информации при Председателе Государственной Думы 30 июня 1999 года.
4. Кузнецов С.В. "Открытые технологии образования" в сборнике НИИ образовательных технологий "Научное обеспечение открытого образования", №, 1, Москва, МЭСИ, 2000.
5. Кузнецов С.В. Бесплатное разрешение проблем с использованием Интернет. 2001 <http://www.5186364.ru/yandwork.htm>.
6. Кузнецов С.В. Компьютерная конкурентная разведка, PC Week RE № 42(312), 13-19.11.2001. <http://www.itweek.ru/themes/detail.php?ID=59780>.
7. Кузнецов С.В. Технологии управления, основанного на знаниях // Проблемы теории и практики управления (Москва).- 24.12.2004.- 006.- C.85-89.
Приложение 1. Формулы запросов для поиска реестров (доступно владельцам соответствующих лицензий: NC-3241-2 метод и NC-3931-2 метод)
Февраль 2004 года © Кузнецов Сергей Валентинович
Перейти в оглавление / начало
Кузнецов С.В. Технологии управления, основанного на знаниях // Проблемы теории и практики управления (Москва).- 24.12.2004.- 006.- C.85-89 <http://www.knowbase.ru/technologies-of-knowledge-based-management.htm>
Титов В.В. Интерактивный справочник (пример вопрос-ответного доступа к базе знаний)
Кузнецов С.В. Эскиз проекта создания территориального аналитического центра коллективного пользования с элементами учреждения дополнительного образования и бизнес-инкубатора
Кузнецов С.В. Структура и элементы технологии производства публичной базы знаний
Кузнецов С.В. “Открытые технологии образования” в сборнике НИИ образовательных технологий “Научное обеспечение открытого образования”, №, 1, Москва, МЭСИ, 2000. <http://www.u-learning.ru/educatei.htm>
Кузнецов С.В. Практикум "Технологии познания" на основе демонстрационной DOS-версии информационно-поисковой системы "Артефакт", 1999 год.
Кузнецов С.В. Доступ к текстовой информации. В сборнике “Участие библиотек в правовом воспитании населения и юридическом образовании”, СПб., Санкт-Петербургский государственный университет, 1999. <http://www.knowbase.ru/access.htm>.
Кузнецов С.В. “Информационные технологии в законопроектной деятельности”, глава 13 в научно-практическом пособии Института законодательства и сравнительного правоведения при Правительстве РФ “Законодательная техника”, М. Городец, 2000 <http://www.lawint.ru/chapt_13.html>.
Кузнецов С.В. “Базы правовых знаний - новое поколение средств доступа граждан к правовой информации через Интернет”, доклад на Международном семинаре - круглом столе под эгидой Совета Европы и Государственной Думы Федерального Собрания Российской Федерации “Кодификация законодательства как средство доступа граждан к правовой информации”, Санкт-Петербург, 9-10 марта 2000 года.
<<<< | Кузнецов Сергей Валентинович | Исследование рисков и поиск возможностей через Интернет. Введение | Словарь | Обучение | Консультирование | >>>> |
Опубликовано по адресу: http://www.knowbase.ru/knowledge-management-technologies.htm
Дата последнего редактирования 21.02.2022
© Кузнецов Сергей Валентинович