3. Упорядочение знаний

Проблема "общей стоимости владения системой доступа" снимается предлагаемым методом упорядочения (систематизации) содержимого текстов ИС, обеспечивающим разработку работоспособных классификаторов с минимально возможным числом рубрик нижнего уровня.

3.1. Приводим краткое изложение общих положений методики проектирования классификаторов, базирующейся на системно-морфологическом подходе22.

3.1.1. Классификация необходима человеку везде, где число объектов, которыми приходится оперировать, превышает 2-3 десятка. Классифицируемыми объектами могут быть субъекты, предметы, операции, свойства, знаки, тексты, изображения, звуки и т.д.

3.1.2. Используемые понятия имеют следующий смысл:

Классификатор - система рубрик (ячеек) и связей между ними, которая в совокупности является базовой для упорядочения (систематизации) всех вариантов классифицируемых объектов, распределения их по этим рубрикам. Получается в результате выполнения операции логического деления над множеством объектов.

Классифицирование (рубрицирование) - процедура наполнения классификатора содержимым, т.е. текстовыми описаниями конкретных объектов.

Классификация23 - классификатор, рубрики нижнего уровня которого наполнены описаниями конкретных объектов. Это понятие в данном смысле используется с обязательным вторым понятием - основанием классификации (например, "классификация отраслей знания", "классификация товаров", "классификация правовых актов").

Код - краткое условное обозначение (шифр) рубрики классификатора.

3.1.3. Основным оператором при разработке классификатора является логическим деление. Логическое деление - это распределение на группы всех тех объектов, которые мыслятся в исходном (или делимом) понятии. Эти группы называются членами деления. Признак, по которому производится логическое деление, называют основанием деления.

3.1.4. Каждый из членов деления может в свою очередь стать делимым понятием, но уже (обязательно!) по другому основанию деления. Такое многоступенчатое деление называется "классификация" (как сложный логический оператор).

3.1.5. Если делимое понятие делится поочередно, последовательно по разным основаниям, то получается иерархический (древовидный) классификатор. Если деление на каком-либо уровне производится одновременно по нескольким (равно значимым и взаимно независимым) основаниям, то получается фасетный (многомерный) классификатор. Использование обоих методов деления на разных этапах дает комбинированный (фасетно-иерархический) классификатор.

3.2. Основные свойства логического оператора классификации:

3.2.1. Все конкретные объекты (рубрики нижнего уровня) конкретной классификации выполняют одну и ту же функцию (это следует из основного свойства деления).

3.2.2. Любой из конкретных объектов (рубрик нижнего уровня) классификации может стать основанием собственной классификации (например, из классификации отраслей знания можно вычленить самостоятельную классификацию гуманитарных наук, а из нее - классификацию юридических наук и т.д.).

3.2.3. Любой из объектов классификации является системой, а значит, состоит из подсистем, выполняющих различные функции. Каждая из этих подсистем может стать основанием самостоятельной классификации. Однако эти "дочерние" классификации не являются элементами или частями основной классификации (из-за нарушения свойства 3.2.1).

3.2.4. Неоднозначность выбора какого-либо классификационного признака в качестве основания деления на каждом этапе проектирования классификатора обусловлена неопределенностью степени важности таких признаков для разнообразных потребителей классификации. Это означает, что классификация любых объектов неоднозначна и тесно связана с целями, для которых она производится.

3.3. Базовые правила проектирования и оформления классификаторов:

3.3.1. Формулировки должны обеспечить ясность понимания содержания рубрик классификатора для всех, кому предстоит с ним работать (т.е. и для специалистов по рубрицированию с соответствующим образованием, и для пользователей, не имеющих такого образования). Поэтому использование не общеупотребительных терминов должно быть сведено к минимуму, а если таковые неизбежны - они снабжаются полными определениями / толкованиями.

3.3.2. При формировании классификатора используется единственный логический оператор - логическое деление. При этом неукоснительно соблюдаются три основных правила логического деления: единство основания деления, исчерпывающий характер деления и альтернативность членов деления.

3.3.3. В качестве оснований деления используются прежде всего не формальные (номер, дата выпуска, автор, первая буква заголовка текста и т.п.), а исключительно естественные, наиболее существенные для основных потребителей ИС признаки классифицируемых объектов.

3.3.4. Поскольку реальные объекты всегда имеют несколько равнозначных для потребителя существенных классификационных признаков, то обычно строятся фасетно-иерархические классификаторы. Для примера приведем некоторые фасеты "системной" классификации правовых ситуаций: субъекты правоотношений, объекты правоотношений, виды правоотношений, территория действий, время действий. Система таких содержательно независимых фасетов (по сути - отдельных классификаторов) образует многомерное пространство вариантов конкретных рубрик, в котором каждый классифицируемый объект получает полный комплект кодов отдельных фасетов.

3.3.5. В процессе развития классификатора должна сохраняться обозримость каждой конкретной группы классификатора - число вариантов на каждом этапе логического деления, как правило, не должно превышать семи.

3.3.6. Возможность дальнейшего развития классификатора обеспечивается с помощью рубрики "иные варианты" везде, где можно подозревать появление в дальнейшем новых существенно значимых вариантов делимого понятия.

3.3.7. В процессе изменения (развития) множества классифицируемых объектов контролируется максимальное число объектов, отнесенных к конкретной рубрике классификатора. Если оно превышает 30, содержимое рубрики подвергается операции логического деления.

3.4. Основные правила классифицирования (рубрицирования) текстов:

3.4.1. Единицей рубрицирования текстовой информации, занимающей более 500 знаков (помещается на одном экране), является фрагмент такого текста (предложение, абзац или их группа), т.е. ей присваивается самостоятельный код (чисто иерархический классификатор) или совокупность кодов (фасетно-иерархический классификатор).

3.4.2. При формировании кода рубрик применяется десятичная система записи, причем цифры 0, 8 и 9 резервируются для обозначения специальных рубрик (9 - рубрика "иные варианты", 8 - рубрика "все варианты", 0 (ноль) - рубрика "отсутствует"). Для фасетных участков классификатора используется система знаковых определителей (индикаторов), подобная используемой в УДК (Универсальной десятичной классификации отраслей знания). Для отнесения фрагмента текста к нескольким рубрикам можно использовать знак + (плюс) и круглые скобки.

3.5. На примере рубрицирования массива текстов правовой тематики рассмотрим возможный вариант системы критериев отнесения отдельного фрагмента текста к рубрике классификатора:

3.5.1. Информация, помещенная в рубрике, может быть непонятна потребителю без специального образования, т.е. если понимание содержания конкретной рубрики классификатора требует знания специальных терминов и определения таковых присутствуют в доступных текстах, такие определения должны быть отнесены к данной рубрике. Поскольку определения терминов нужны не всем потребителям, их можно помещать в отдельный список "Определение понятий" или маркировать специальным образом.

3.5.2. Пользователя интересует любая информация, содержащая непосредственно название рубрики, т.е. любые фрагменты текста, включающие цитирования краткой или полной формулировки рубрики (с учетом возможной синонимии и сокращений) должны быть отнесены к рубрике.

3.5.3. Пользователю интересна любая информация повторяющая, конкретизирующая или сходная с любой из правовых ситуаций, составляющих непосредственное содержание рубрики классификатора, т.е. все фрагменты текстов, которые содержат текстовые описания смысловых эквивалентов любой из ситуаций, составляющих рубрику, должны быть отнесены к рубрике.

3.5.4. Пользователя могут интересовать любые цитирования предписаний (правил), относящихся исключительно к рубрике классификатора, т.е. если существуют статьи/пункты правоустанавливающих актов, регулирующие исключительно ситуации данной рубрики, все явные цитирования таких статей/пунктов должны быть отнесены к рубрике классификатора.

3.5.5. Пользователя могут интересовать нарушения (противоречия) профильных норм правоустанавливающих документов, отнесенных к рубрике согласно критерию 3.5.4, т.е. все фрагменты текстов, которые содержат описания смысловых противоречий24 основным нормам, составляющим рубрику, или любые явные указания на такие противоречия должны быть отнесены к рубрике. Поскольку противоречия интересуют не всех потребителей, их можно помещать в отдельный список "Возможные противоречия" или маркировать специальным образом.

3.5.6. Если рубрика относится к субъекту правоотношений, потребителя может интересовать реестр его законных прав и обязанностей, т.е. если существуют статьи/пункты правых актов, устанавливающих права и обязанности субъекта, и нет специальной рубрики о его правах и обязанностях, все соответствующие статьи/пункты должны быть отнесены к рубрике классификатора.

3.6. Некоторые свойства фасетно-иерархических классификаторов:

3.6.1. Фасетно-иерархические классификаторы заметно компактнее, удобнее для ручной работы и технологичнее чисто иерархических. При сравнительно небольшом общем числе рубрик они быстро покрывают содержательное разнообразие любого числа классифицируемых объектов. К примеру использование системы из семи фасетов, каждый из которых содержит в среднем 300 рубрик нижнего уровня (при общем объеме классифицирующей системы всего 2100 рубрик нижнего уровня), позволяет детально описать астрономическое число (10 в 17 степени) конкретных проблем или ситуаций.

3.6.2. В результате сравнительного анализа всех утверждений (как существующих, так и проектируемых), отнесенных к конкретной рубрике классификатора предметной области, эксперту легко выявить (и в дальнейшем при возможности снять) противоречия предметной области.

3.6.3. Экспертное исследование незаполненных рубрик фасетно-иерархического классификатора позволяет выявить белые пятна предметной области (эвристическое свойство).

3.6.4. Приведение в систему и инвентаризация фактов и утверждений конкретной области деятельности человека в результате пофрагментного рубрицирования их текстовых описаний открывает возможности создания наряду с базами неформализуемых знаний традиционных печатных изданий - систематизированных и консолидированных текстов или их сборников (энциклопедии, справочники, учебники, свод законов, кодексы, стандарты ...), включающих в себя подготовленные с заданной степенью логического обобщения описания всего многообразия знаний и фактов предметной области.

3.6.5. Совокупный код конкретной рубрики фасетно-иерархического классификатора может иметь значительную длину, что неизбежно вызывает затруднения и ошибки у неподготовленного потребителя как на этапе формирования такого кода, так и при его вводе в ИС. Указанная "проблема кода классификатора" не позволяет рассчитывать на успешность публичного доступа к отрубрицированным текстам в ИС.

««« »»»

22 Подробнее см. монографию: Кузнецов С.В., Титов В.В. "Классификация: системно-морфологический подход", М., Инвента, 1998.

23 Не путать с логическим оператором классификации.

24 Используя ситуационный подход (подробнее см. материалы от 29.05.98 "Ситуационный подход при поиске/систематизации правовой информации"), формально противоречие между нормами законодательства можно определить как неэквивалентность для субъектов правоотношений правовых последствий применения нескольких норм законодательства, регулирующих эквивалентные или соподчиненные (с учетом юридической силы сравниваемых норм) правовые ситуации.

 
© ИНВЕНТА 1999

Опубликовано по адресу: http://www.knowbase.ru/access3.htm
Дата последнего редактирования 10.04.2017
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Исследование рисков и поиск возможностей через Интернет
Невидимый Интернет для бизнеса
Юридические исследования через Интернет
Средства автоматизации вэб-поиска:
Мастер поиска НТИ
Поиск по шаблону на основе Мастера
Классификационный поиск по шаблонам на основе Мастера
Сценарий: Поиск рыночных ниш через Яндекс
Сценарий: Выявление проблем через Яндекс
Сценарий: Поиск определений через Яндекс
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке