6. Оперативный анализ текстов

6.1. Описанные в разделах 2-3 технологии ориентированы для неспешную основательную работу группы специалистов и, естественно, предполагают достаточное время. А что делать, когда приходит начальник и дает задание через час принести нужную еще вчера аналитическую записку по теме, которой единственный доступный аналитик никогда в жизни не занимался? Или каждые десять минут входит посетитель с невнятно сформулированной проблемой и начинает хотеть. Или средства на покупку ППС руководство (ему, конечно, видней) выделило, а на проектирование классификатора их не дает (или не хватает). Или возник конфликт, который не "вписывается" в тщательно разработанный классификатор по причине своей беспрецедентности.

6.2. Для таких случаев поставим типовые задачи оперативного анализа текстовой информации, глубина и основательность решения которых определяются квалификацией исполнителя и критичностью создавшейся ситуации. Комплексное решение прикладных задач позволяет быстро получать результат приличного качества и в любом случае оправдать покупку и усилия по изучению ППС.

6.2.1. Определение терминов. По доступным источникам осуществляется поиск фрагментов текстов, вероятно содержащих явные / неявные определения заданного термина (сочетания терминов) или ограничивающих объем соответствующего понятия. Для этого в хранимый запрос ППС вставляется термин или расширенный лексический образ исследуемого понятия, определения которого нужно найти. Получаем полную подборку возможных определений термина, из которой выбираем интересные и формируем терминологическую статью. Результат может быть использован для установления объема соответствующего понятия; построения исчерпывающего реестра видов понятия, а также перечня возможных оснований делений (систематизации) понятия; выявления всех точек зрения на понятие (аспектов) и областей его использования; установления факта противоречий в понимании понятия; контроля определенности и непротиворечивости с внешним окружением терминологической базы готовящегося решения или анализируемого текста; сравнения объемов понятий; синтеза нового определения и оперативного построения терминологического блока аналитической записки.

6.2.2. Фактография. Ищем в доступных базах (по аналогии с п. 2.1.5) до полного исчерпания лексические образы абстрактных (обобщенных) понятий любого вида (субъектов, объектов, процессов, обстоятельств времени и иных, а также аспектов) в любом формате. Получаем оценку общего числа подходящих текстов; полную подборку сведений об интересующем абстрактном понятии; формализованное описание понятия средствами языка запросов конкретной ППС. Результат может быть использован для уточнения границ области интереса; оперативного получения представления об абстрактном понятии с заданной точки зрения; документирования знаний об абстрактном объекте; как составная часть процесса объектного программирования сложных поисковых запросов.

6.2.3. Исчерпание связей понятия. Поиск в доступных базах лексических образов иных понятий, заданным образом связанных (например, родо-видовыми отношениями) с исследуемым понятием выполняется путем последовательного исключения всех лексических образов понятий заданного вида рядом с лексическим образом исследуемого понятия (например, в группе смежных слов). Получаем исчерпывающий перечень видов понятий, описывающих ситуации, в которые входит исходное понятие; реестр связей понятия с понятиями заданного вида (например, исчерпывающий перечень операции, совершаемых интересующим субъектом). Результат может быть использован для оперативного формирования исчерпывающего представления об окружении понятия; контроля исчерпывающего характера перечней и общей полноты аналитических отчетов; поддержки процесса проектирования классификаторов, полностью покрывающих содержательное разнообразие массива текстов; генерации полного перечня ситуаций, которые происходили или могут произойти с участием понятия (инновационный метод морфологического ящика); контроля качества и разработки статей тезаурусов и поисковых запросов ППС; документирования знаний об понятии.

6.2.4. Цитирование. В доступных базах осуществляется поиск всех упоминаний (включая и неполные) конкретно поименованных объектов или их частей: географических, астрономических, промышленных, технических, архитектурных, культурных и исторических, авторов (персоналий), официальных документов и авторских текстов, происшествий, изданий, предприятий и иных. Получаем оценку общего числа явно связанных с объектом текстов; полный реестр связей с возможностью сформировать отдельные перечни связанных объектов любых видов. Результат может быть использован для выявления спектра, характера и частоты связей конкретного объекта; изучения тенденций его развития; написания истории; формирования портрета и, возможно, структуры объекта; документирования знаний об конкретном объекте; исчерпывающего описания области действий конкретного объекта: оценки и контроля целостности, качества и актуальности отдельного текста или источника информации (базы данных); в процессе автоматического классифицирования.

6.2.5. Сходство с ситуацией или суждением (правилом). Для построения полного ряда сходных ситуаций (утверждений) последовательно выполняется поиск (см. п. 2.1.4.) в доступных базах всех фрагментов текстов, содержащих лексические образы аналогичных ситуаций или тождественных утверждений (как ситуацию, так и утверждение можно рассматривать, как совокупность29 абстрактных или конкретных понятий разного вида). Получаем полную подборку аналогичных случаев (прецедентов) или утверждений. Результат может быть использован для анализа доступного опыта разрешения проблемы (поиска прошлых вариантов выхода из создавшейся ситуации); оперативного формирования программы действий с целью разрешения проблемы "по аналогии"; выявление всех содержательных дублирований, развития и вариантов утверждений (правил); поиска противоречий; документирования знаний о ситуации; в процессе автоматического рубрицирования.

6.2.6. Противоречие с суждением (правилом). Поиск в доступных базах всех фрагментов текста, возможно включающих лексические образы противоречий30 с заданным утверждением (правилом), выполняется последовательным перебором: либо выходом за границы объема одного из понятий, либо заменой его на противоположное по смыслу при неизменности остальных понятий, образующих исследуемое правило. Начинать целесообразно с понятий вида "процесс/действие". Получаем подборку утверждений, возможно вступающих в противоречие с заданным. Результат может быть использован для пофрагментного анализа соответствия текста совокупности документов, установивших нормы (например, проверка непротиворечивости договора действующему законодательству); для уменьшения степени внутренней противоречивости массива документов; для приведения массива текстов в состояние непротиворечивости с новым документом; документирования знаний об противоречиях; в процессе автоматического классифицирования. В силу трудоемкости прямой поиск противоречий применим для оперативного анализа ограничено.

6.2.7. Права и полномочия. Поиск в доступных базах всей информации об объеме полномочий и обязательств конкретного или обобщенного субъекта выполняется следующим образом. Сначала формируется полный ряд лексических образов исследуемого объекта, после чего он вставляется в соответствующий хранимый запрос. Получаем исчерпывающий реестр прав или обязанностей конкретного или абстрактного субъекта. Результат может быть использован для слежения за правомочностью действий субъекта, контроля исполнения обязательств и непревышения предоставленных ему полномочий, проверки законности обязательных для исполнения документов или принуждающих действий.

6.2.8. Упорядочение знаний или систематизация. Приведение в систему (систематизация) собранных сведений о предмете или предметной области (ситуациях и правилах), заключенных в множестве текстов на естественном языке, практически осуществляется путем экономичного их описания фасетно-иерархическим классификатором31 (см. раздел 3) с последующим рубрицированием доступного текстового массива, т.е. установлением явных связей между фрагментами текста и рубриками. Таким образом происходит упорядочение текстового массива до уровня обозримых подборок подходящих рубрике (в смысле, аналогичном п. 3.5.) фрагментов текстов. Получаем функциональный аналог базы знаний, исчерпывающий содержательное разнообразие заданного массива (или фрагмента массива) текстов и обеспечивающий возможность построения вопрос-ответного интерфейса доступа к текстам. В оперативном режиме проводится "локальная" систематизация только текстовой информации, связанной с изучаемым понятием, ситуацией или утверждением, что позволяет корректно разбить множество текстов на обозримые подмножества, быстро провести их анализ и завершить подготовку полноценного отчета. Результат может быть использован для выявления всех или большей части пробелов и противоречий в исследуемой области любого или заданного объема; документирования знаний о предметной области; планомерного поиска противоречий и содержательных дублирований в системе утверждений, содержащихся в массиве текстов; оперативного комплексного анализа текстовой информации; поддержки оперативного доступа неподготовленных потребителей к содержанию массива текстов с заданной степенью логического обобщения.

6.3. Границы между описанными выше типовыми задачами, как и все в этой жизни, условны. Все они решаются при производстве систем автоматического классифицирования текстовой информации. Заметим, что в результате практического применения описанных технологий для новых проблемных областей (кроме юриспруденции, с которой все и началось) в результате реорганизации (реинжиниринга) бизнес-процессов высока вероятность появления новых задач. Таким образом приведенная классификация не является исчерпывающей и возможно ее расширение технологичными решениями специальных задач, стоящих в конкретных проблемных областях (социология, маркетинг, шпионаж, стратегическое планирование, информационная война ...).

6.4. Уверенное решение перечисленных типовых задач в оперативном режиме (при заказчике работы) требует специальных навыков работы с конкретной ППС, доведенных до автоматизма, что достигается только интенсивным обучением32 (в отдельных случаях - многолетней специальной практикой).

««« »»»

29 Такой взгляд (системный) позволяет сформулировать "объектный" подход к программированию содержательного поиска: сложный поисковый запрос формируется путем объединения отработанных ранее объектов - лексических образов элементарных понятий, описанных средствами языка запросов ППС.

30 Противоречием можно считать несоответствие объемов одного из понятий, составляющих утверждение, при тождественности всех иных входящих в утверждение понятий.

31 Подробнее см. Кузнецов С.В., Титов В.В. "Классификация: системно-морфологический подход", М., Инвента, 1998.

32 Требуйте бесплатный компьютерный практикум и программы обучения "Нестандартные методы работы с текстами".


© ИНВЕНТА 1999

Опубликовано по адресу: http://www.knowbase.ru/access6.htm
Дата последнего редактирования 17.05.2018
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Исследование рисков и поиск возможностей через Интернет
Невидимый Интернет для бизнеса
Юридические исследования через Интернет
Средства автоматизации веб-поиска:
Мастер поиска
Заполнитель поисковых запросов на основе Мастера
Конструктор поисковых запросов на основе Мастера
Сценарий поиска через Яндекс: Рыночные ниши
Сценарий поиска через Яндекс: Выявление проблем
Сценарий поиска через Яндекс: Определения
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке