2. Содержательный поиск в текстах

2.1. Технология15 написания и отладки запросов к полнотекстовой поисковой системе (далее - "ППС") для содержательного16 поиска в текстах может быть с той или иной степенью эффективности применена для различных ППС17 и любого естественного языка.

2.1.1. Согласно теории одного из основателей лингвистики - немецкого ученого Вильгельма фон Гумбольдта, определенный смысл (утверждение или понятие) может быть выражен на конкретном естественном языке конечным рядом лексических образов18, т.е. задача нахождения всех текстовых описаний схожих по смыслу утверждений является конечной.

2.1.2. Эксперт или их группа в произвольной форме или по заданному шаблону формулирует первоначальную формулировку ПРОБЛЕМЫ, КАК ОНА ДАНА (ПКД) с указанием всех интересующих аспектов.

2.1.3. Поиск ведется аналитиком средствами доступных ППС на представительном массиве информации, который должен включать весь спектр обрабатываемых текстов (требуемые стили изложения, время выпуска, языки). Аналитик, хорошо владеющий ППС, по доступным источникам (доступные тексты; толковые, энциклопедические и иные словари) проводит поиск всех толкований ПКД и определений связанных с ПКД понятий, содержание которых либо осталось неясным, либо может быть специфичным в исследуемой проблемной области. В результате уточняет границы области поиска и формулирует конечный ряд описаний всех ситуаций, содержательно связанных или соподчиненных ПКД.

2.1.4. Формулировка ПКД и иных лексических образов решаемой проблемы расширяется аналитиком путем добавления связанных по смыслу слов и их сочетаний (синонимов, аналогов19, альтернатив, а в ряде случае и антонимов) или их групп, описывающих все интересующие аспекты искомой ситуации. Оформляется в виде поискового запроса ППС и производится его отладка.

В случае, если доступны результаты прошлого рубрицирования по решаемой проблеме, они тщательно изучаются на предмет поиска неизвестных лексических образов, из них формируется контрольная база данных. Аналитик добивается, чтобы все подходящие по смыслу описания ситуации выбирались20 расширенным запросом. Таким образом формируется контрольная подборка всех доступных текстов, содержащих хотя бы одно подходящее, по мнению аналитика, описание искомой ситуации. Такая база данных используется на завершающем этапе работы для контроля полноты выборки текстов в процессе удаления "информационного шума" и может быть предъявлена эксперту для согласования.

2.1.5. Полученные на представительном массиве информации результаты обработки запроса (выборки текстов из баз данных формата ППС) просматриваются аналитиком с целью обнаружения лексических образов искомой ситуации, которые он еще не встречал. В случае обнаружения хотя бы одной такой ситуации, аналитик формулирует (записывает) новый лексический образ, дописывает поисковый запрос и возвращается к этапу 2.1.4. Этапы 2.1.4-2.1.5 повторяются до момента, когда просмотр всей доступной информации средствами ППС с использованием постепенно расширяющегося запроса перестает давать новые описания искомой ситуации, т.е. множество найденных описаний искомой ситуации перестало расширяться.

2.1.6. После достижения на массиве доступной информации максимальной полноты результатов (этапы 2.1.3-2.1.5) аналитик приступает к удалению "информационного шума". Получаемые в результате работы ППС фрагменты текстов анализируются на предмет содержательного соответствия ПКД с учетом точки зрения эксперта (аспектов). Если найденный фрагмент текста не подходит, в нем выделяются устойчивые неподходящие контексты (слова или их сочетания), которые в дальнейшем включаются в запрос в режиме логического отрицания.

2.1.7. Процесс повторяется до момента, когда уровень "информационного шума" становится меньше требуемого21 при непременном соблюдении условия выбирания всех текстов из контрольной базы данных. Если разумными усилиями не удается достичь необходимой точности поиска, делается попытка изменить формулировку одного или нескольких лексических образов ПКД, после чего повторяется этап 2.1.6.

2.1.8. Результаты поиска предъявляются экспертам. С учетом полученных замечаний и всех вышеперечисленных ограничений запросы дорабатываются (повторяются этапы 2.1.3-2.1.7), оформляются и только после успешных приемочных испытаний передаются в работу персоналу вычислительного центра, поддерживающего функционирование ИС.

2.1.8. Результаты поиска предъявляются экспертам. С учетом полученных замечаний и всех вышеперечисленных ограничений запросы дорабатываются (повторяются этапы 2.1.3-2.1.7), оформляются и только после успешных приемочных испытаний передаются в работу персоналу вычислительного центра, поддерживающего функционирование ИС.

Технологичность содержательного поиска ограничивается только характеристиками ППС (возможности языка запросов, учет морфологии конкретного языка, обрабатываемые форматы данных, хранение запросов и их исполнение в автоматическом режиме). Если в интересующей программной среде отсутствуют подходящие ППС, возможно использование ППС "Артефакт" с экспортом/импортом и преобразованием форматов данных с использованием временных наборов данных на жестких дисках.

2.2. Перечислим некоторые следствия применения описанной технологии.

2.2.1. Исключено влияние факторов субъективности, некомпетентности, недобросовестности и усталости персонала при "ручном" поиске подходящего материала в текстовой информации; обеспечивается полнота, заведомо превышающая любые доступные результаты прошлых поисков информации по заданной проблеме.

2.2.2. Регулируемая точность результатов поиска позволяет полностью автоматизировать процесс классифицирования (рубрицирования) текстовой информации. Сравнительно высокая производительность ППС по автоматическим операциям поиска делает реальной содержательную обработку практически неограниченных объемов текстовой информации. Таким образом снята проблема "проклятия размерности при поиске в текстовой информации".

2.2.3. Предметом поиска могут быть объекты любой природы, имеющие хотя бы минимальное текстовое описание. Можно искать: книги по библиографическим описаниям; серверы ИНТЕРНЕТ по аннотациям; статьи по реферативной информации; запахи духов и отпечатки пальцев по заключениям экспертов; лекарства по медицинской прописи показаний для применения; товары по описаниям; музыкальные произведения по рецензиям критиков; методы разрешения конфликтов и снятия проблем по описаниям области их применения; рецидивистов по почерку преступления из уголовного дела или криминальной хроники; товаропроизводителей и поставщиков по рекламной и регистрационной информации ... Можно проводить точные исследования: выявлять наиболее острые социальные проблемы избирателей заданной территории; оценивать наличие избытка и дефицита товаров на конкретном рынке; составлять полный спектр услуг конкурентов; отслеживать предложения товаров / услуг по аномально высоким / низким ценам; формировать портрет региона / предприятия / лица и вести их учет и прогнозирование по выбранным показателям ...

2.2.4. Открытость технологии формирования и отладки поисковых запросов, доступность ППС (в виде отдельных прикладных программ и в виде приложений к основным СУБД) и возможность подготовки персонала заказчика делают реальным как содержательной поиск информации ограниченного доступа по закрытой тематике, так и автоматическую ее обработку у источника информации в условиях недостатка или полного отсутствия экспертов должного уровня.

2.2.5. Хранимые тексты готовых поисковых запросов (по сути - это комбинации специальных тезаурусных статей, записанные по правилам языка запросов конкретной ППС) могут в дальнейшем многократно использоваться и перепрограммироваться как для других ППС, так и с целью обработки материала на других или многих языках.

2.2.6. Центр тяжести общих затрат на рубрицирование текстов переносится на начальную стадию формирования поисковых запросов, при этом текущие затраты последующего содержательного анализа информации сводятся к минимуму. Высокая трудоемкость отладки поисковых запросов, обеспечивающих нужный для рубрицирования уровень полноты и точности, затрудняет автоматическую поддержку ИС с громоздкими классификаторами (тысячи слабо формализованных рубрик и соответствующих им запросов). Возникает проблема "общей стоимости владения системой доступа к текстам".

««« »»»

15 Технология описана на примере отладки одной темы (запроса). Возможна одновременная отладка больших групп запросов. Методы программирования запросов для ППС рассмотрены в разделе 6.

16 Описана только технология поиска по смысловому сходству. Можно искать и по противоречию. Например, в результате поиска по противоречию с конституционной нормой "Все равны перед законом и судом" (которая не предусматривает никаких изъятий) обнаруживаются нормы российского законодательства о неподсудности президента, депутатов, дипломатов, судей, прокуроров и иных "особо равных" субъектов правоотношений.

17 Яндекс (CompTek); Следопыт (МедиаЛингва); Lingvo Fulltext Retrival (Abbyy); Артефакт (Интерум-Техно); DataBlade-модуль "Русский текст" (Redlab/Informix); Adabas TRS; Oracle Contex Cartridge; Convera EFS; ISIS ... SPIRIT ... AltaVista ...

18 Например, для понятия "банковская тайна" в российском праве одним из многочисленных лексических образов является "конфиденциальность сведений из налоговых деклараций граждан".

19 Под аналогом будем расширительно понимать объекты/процессы, реализующие одинаковые или сходные с исходным понятием функции. В поисковый запрос попадает естественно лексические образы аналогичных понятий.

20 Обычно до 10% текстов, отобранных вручную по конкретной рубрике классификатора, не имеет к ней непосредственного отношения. Причиной такого явления являются дефекты самих классификаторов, а также субъективность, усталость, некомпетентность и/или недобросовестность персонала, выполняющего рубрицирование.

21 Определяется заказчиком работ. Разумный уровень "шума" при автоматизированном поиске по нашему мнению не должен превышать 10% общего числа найденных описаний искомой ситуации.


© ИНВЕНТА 1999

Опубликовано по адресу: http://www.knowbase.ru/access2.htm
Дата последнего редактирования 23.07.2015
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Исследование рисков и поиск возможностей через Интернет
Невидимый Интернет для бизнеса
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке