Доступ к текстовой информации: Положение вещей Кузнецов Сергей Валентинович

Содержание 1. Положение вещей 2. Содержательный поиск в текстах 3. Упорядочение знаний 4. Опрос потребителей 5. Следящая информационная система 6. Оперативный анализ текстов 7. Традиционные издания 8. Области применения

1. Положение вещей
1.1. Могучий поток информации обрушивается на управленцев разного уровня и рядовых граждан. Объем этого потока трудно поддается учету. Однако подсчитано, к примеру, что ежедневно лишь в сфере технической информации фиксируется 20 миллионов слов. Прилежный работник, способный прочесть за минуту 1000 слов, просиживая за этими текстами 8 часов в день, сумеет переварить этот объем сведений за месяц. Когда он перевернет последнюю страничку, выяснится, что за это время накопилось информации еще на пять с половиной лет каторжного труда. Выход видится только в использовании возможностей вычислительной техники. При этом обязательным элементом систем поддержки принятия решений любого уровня являются информационные системы (далее - "ИС"). В двадцатом столетии наш мир развивается нелинейно. При повышенном темпе возникновения радикальных изменений ослабевает связь с прошлым. Традиционное мышление разрушается, на базе прошлого опыта становится затруднительным принимать решения, адекватные возникающим беспрецедентным проблемам. Поэтому ИС должны содержать в себе не только средства поиска прецедентов (того, что уже было), но и помогать находить нетривиальные методы разрешения разнообразных конфликтов. Естественно, встает вопрос о продуктивности ИС как инструмента поддержки человеческого творчества и о роли человека решающего - пользователя такой системы. Традиционной ошибкой, которая неизбежно приводит к низкой эффективности инвестиций в информационные технологии и снижению общей продуктивности ИС, является отождествление категорий "знание" и "текст". 1.2. Любой объект или явление окружающего мира бесконечно разнообразен, связан с внешним миром несчетным количеством связей. В результате его полное познание теоретически невозможно и индивидуальное знание об объекте всегда неполно. Кроме всего прочего знание об объекте (понятии), как и сам процесс мышления, не формализуемо, непрерывно, существует только в человеческом сознании. В силу этого человеческая мысль не может быть адекватно и полно выражена средствами любой знаковой системы¹ в силу дискретности и условности последней. Одним из способов получения знаний является субъективное и опять-таки неполное восприятие информации, выраженной средствами письменного языка. В результате как в процессе описания знаний средствами естественного языка, так и в процессе его восприятия при чтении текста возникают существенные содержательные искажения. Такие искажения и потери неизбежны и их лишь отчасти можно восполнить опытом, подготовкой и ассоциативным восприятием отдельного читателя. Заметно улучшает полноту и объективность восприятия знаний только коллективная работа над вопросом. В отличие от знания текст дискретен, записывается конечным числом знаков и инвариантен к воспринимающему его субъекту. Возможность индивидуального восприятия мысли автора из текста на естественном языке (везде далее - текст) в значительной степени ограничена степенью освоения читателем конкретного языка, его общим образовательным уровнем, опытом в предметной области и многими другими субъективными факторами. Кроме перечисленных факторов степень усвоения знаний с экрана компьютера заметно снижается за счет сложности пользовательского интерфейса², избытка неподходящей информации и быстрой утомляемости пользователя ИС. 1.3. В результате можно сформулировать условие продуктивности публичной ИС - это обеспечение простого и точного доступа неподготовленных потребителей ко всей нужной информации (хотя бы прецедентам решения проблемы). Для корпоративных ИС появляются дополнительные условия: 1.3.1. пригодность для индивидуального обнаружения методов и принципов разрешения поставленной проблемы; 1.3.2. возможность выявления пробелов, противоречий и тенденций развития проблемной области; 1.3.3. достаточная индивидуальная подготовка аналитиков - пользователей ИС; 1.3.4. интеграция ИС со средствами поддержки коллективного творчества и объективизации результатов деятельности групп экспертов. Заметим, что реализация последнего условия позволяет в значительной мере компенсировать неполноту и субъективность индивидуального восприятия текстов и существенно повысить результативность процесса поиска решений нетривиальных проблем. Включение пользователей в саму ИС может на первый взгляд показаться ошибочным, но без участия человека говорить о ее продуктивности вообще не приходится. По сути дела, речь всегда идет о человеко-машинном комплексе, где роль компьютера сводится к хранению данных и многократному повторению рутинных операций. Из сказанного следует неочевидный на первый взгляд вывод: инвестиции в кадры не менее важны, чем закупка вычислительной техники, разработка программного обеспечения и накопление информации. Признание различия природы категорий "знание" и "текст" (аналогично отличие "понятия" от "слова") позволяет при проектировании ИС обосновать структуру соответствующих методических и технологических решений, а в системах поддержки принятия решений основную роль отводить человеку. 1.4. В рабочей группе, непосредственно готовящей решение, выделяются два типа специалистов: аналитик, готовый помочь искать нетривиальные ходы и непосредственно управляющий вычислительной частью ИС, и эксперт, обладающий неформализованными знаниями фактуры и методов конкретной области человеческой деятельности, в которой возникла проблема. Заметим, что специалисты обоих типов должны в совершенстве владеть языком текстов. К сожалению, в настоящий момент не приходится рассчитывать на то, что сколько-нибудь заметная часть сложившихся экспертов в совершенстве освоит тонкости других специальностей, инновационных методов и информационных технологий. Чтобы стать аналитиком, нужно призвание, колоссальная работоспособность, время и специальные знания и навыки (компьютерные технологии, формальная логика, системный анализ, лингвистика, эвристические методы ...). Основной инструмент аналитика - поддерживаемые вычислительной мощью компьютеров универсальные методы разрешения проблем, поставленных экспертом. Основной инструмент эксперта - опыт и знания, применяемые к обозримой, полной и точной информации, подготовленной аналитиком в привычной для его восприятия форме. Только в таком тандеме специалистов применение информационных технологий позволяет быстро и качественно разрешать нестандартные проблемы, т.е. ИС в целом становится продуктивной. Нельзя не заметить, что создание продуктивных ИС невозможно без деятельной поддержки лиц, принимающих решения, от которых к тому же требуется личная заинтересованность и компетентность. 1.5. Информацию с точки зрения особенностей компьютерной обработки и хранения можно условно разделить на аналоговую и дискретную. Примерами аналоговой информации являются географические карты, образы печатных текстов, фотографии, чертежи, видеоряды, звуки и их сочетания. К дискретной информации относятся тексты³ и числовые данные. В отличие от текстов числа однозначны, удобны для манипулирования и хранения. С текстом гораздо сложнее. Неоднозначно уже слово (термин), а о тексте и говорить не приходится. Его понимание - нечеткая задача, которая под силу только человеку. Автоматическое извлечение смысла из текста (так называемый семантический анализ) - теоретически нерешаемая задача. Заинтересованные лица могут для смеха проэкспериментировать - взять фрагмент юридического или иного текста, автоматически перевести его по кругу: "русский - английский - французский - немецкий - русский" и сравнить исходник с результат на русском языке. Из всех перечисленных видов информации тексты являются наиболее часто используемым (более 95% всей поступающей дискретной информации), содержательно емким и сложным для компьютерной обработки видом. 1.6. Остановимся на задаче организации публичного доступа к текстовой информации. Проблема эта имеет массу аспектов. Первый аспект - правовой: согласно действующей конституции России ее граждане имеют право на доступ к информации вообще, и к информации о благоприятной окружающей среде и нормативных актах, затрагивающих его права и свободы - в частности. Любое национальное законодательство так или иначе такие права защищает. Второй аспект - технологический. Представим себе ситуацию: пустыня Сахара, каждая песчинка - это некий элемент информации, потребителю предлагают: "Бери любую". Для того, чтобы найти хотя бы что-нибудь подходящее, нужно перебрать несчетное количество таких "песчинок". О получении всего необходимого нет и речи, поскольку для этого нужно просмотреть все "песчинки", что абсолютно нереально. Такая ситуация типична для доступа к текстовой информации, ее можно назвать "проклятием размерности при поиске в текстовой информации". Рассмотрим технологический аспект доступа к текстам подробнее. В качестве субъекта публичного непосредственного доступа к текстовой информации ИС выступает неподготовленный потребитель. Такой пользователь, с одной стороны, не имеет никакого прошлого опыта управления конкретной компьютерной программой (а иногда и элементарных навыков работы со сложной техникой), с другой стороны, не в состоянии сформулировать задачу поиска, и наконец, он не знает специальной лексики и не имеет никакого представления о том, какими словами решение его проблемы может быть описано в нужном именно ему тексте. 1.7. Существуют два принципиально разных способа самостоятельно⁴ найти нужную информацию. Один базируется на поиске непосредственно в текстах, который иногда не совсем точно называется "контекстным поиском". Второй использует результаты прошлого анализа этих же текстов (привязка их к тематическим или иным классификаторам и алфавитным перечням "ключевых" слов). 1.7.1. Первый способ доступа основан на использовании специальных поисковых программ⁵, которые позволяют выбрать все тексты, содержащие слова или их сочетания, характерные по мнению потребителя для его проблемы. Посмотрим, какие сложности при этом возникают. 1.7.1.1. Поскольку потребитель ИС всегда идет от своей проблемной ситуации⁶ к конкретной программе действий (т.е. пытается понять: "Что делать?" и "Как делать?"), сложности возникают при формулировании цели поиска информации - неясно: "Что, собственно говоря, нужно искать?". 1.7.1.2. Мышление человека ассоциативно, поэтому постановка задачи поиска информации всегда происходит в субъективных понятиях, каждое из которых может быть выражено средствами естественного языка множеством лексических образов⁷ (слов или их сочетаний). Без специальных методов (о которых речь пойдет далее) составление исчерпывающего перечня лексических образов понятия невозможно. 1.7.1.3. Любой культурный человек пытается писать на литературном языке, который не предполагает многократное употребление рядом одних и тех же слов. При этом каждая мысль автора должна быть неразрывна. В результате пишущий использует все доступные ему средства языка, чтобы одно и то же понятие выразить разными словами, причем с различных точек зрения. К сказанному заметим, что каждый автор имеет разный словарный запас и зачастую использует слова не в их общеупотребительном значении. Исследования на весьма представительном массиве текстовой информации дают следующую статистику. Если мы пытаемся найти тексты, имеющие отношение к произвольной проблеме, такой, например, как "Смысл жизни" или "Правовое регулирование административно-территориального деления в России", то в среднем всего одна треть текстов ИС, содержание которых нам подходит, содержит буквальную формулировку ПРОБЛЕМЫ, КАК ОНА ДАНА потребителем (ПКД). Если ПКД расширить⁸ полным рядом синонимов, например, "жизнь - бытие - существование" или "деление - разграничение", то система поиска в текстах захватывает лишь половину подходящих записей ИС. А половина нужных статей вообще не содержат ПКД. Такие тексты можно выбрать только методом поиска полного ряда иных лексических образов решаемой проблемы, искомой ситуации или понятия. 1.7.1.4. Большинство слов естественного языка многозначно, имеет массу оттенков, а зачастую и самостоятельных смыслов⁹ в зависимости от ситуации их применения (контекстное окружение, вид публикации, тип лексики, дата написания, отрасль и подотрасль знаний, аспект восприятия ...). 1.7.1.5. Кроме того, одно и то же слово в конкретном естественном языке может иметь длинный ряд словоформ, которые тождественны по смыслу, но совершенно по разному написаны. Поэтому при работе с большими массивами информации объем выборки найденных текстов становится необозримым, а неточность результатов достигает уровня 80-99%, что не позволяет сколько-нибудь эффективно изучать нужный материал, просматривая тексты на экране компьютера. Понятно, что рассчитывать на оперативность решения проблемы потребителя ИС уже не приходится. И только применение специальных методов позволяет достичь полноты и точности поиска, но это под силу лишь аналитикам, профессионально работающим с поисковыми системами. 1.7.1.6. Опыт наших многолетних исследований доказывает, что даже подготовленный потребитель не в состоянии использовать все имеющиеся возможности традиционных систем поиска в текстах. Таким образом, использование неподготовленным потребителем первого способа доступа (систем поиска непосредственно в текстах) в условиях неопределенности цели поиска не позволяет обеспечить ни оперативности доступа, ни точности результатов поиска, ни полноты выборки подходящего материала. 1.7.2. Второй способ доступа к текстовой информации является опосредованным по отношению к тексту и предполагает минимум два шага. Сначала методом последовательного выбора из предложенного списка вариантов (альтернатив) находится нужное "ключевое слово" или тема из классификатора ИС (далее везде - рубрика). При этом мы имеем весь букет проблем, обозначенных для первого способа доступа. По завершении последовательного выбора нужной рубрики¹⁰ осуществляется просмотр множества текстов или их фрагментов, отнесенных к ней производителем ИС. И хотя этот способ доступа кажется значительно проще для неподготовленного потребителя, при его практической реализации возникает ряд сложностей. Любой реальный или абстрактный объект¹¹ имеет массу признаков, каждый из которых может представлять интерес для потребителя ИС. Поэтому для обеспечения эффективного доступа к нужному объекту через его текстовое описание сначала необходимо изучить характеристики самого объекта и потребности его пользователей. Цель такого анализа - выявление конечного числа наиболее существенных естественных классификационных признаков объектов, по любому¹² из которых потребитель в дальнейшем сможет быстро найти в ИС описание нужного ему объекта. На практике при создании ИС тексты предварительно вручную или полуавтоматически по некоторым характерным по мнению производителя ИС словам или сочетаниям слов относятся к соответствующей рубрике. В большинстве случае в коммерческих ИС таких классификаторов предлагается не более двух и их объем редко превышает 2000 рубрик нижнего уровня. Задача потребителя состоит в том, чтобы в предложенном ему линейном (одноуровневом) перечне или иерархическом (многоуровневом) классификаторе найти рубрику, в наибольшей степени соответствующую его проблеме, а затем в случае успешности поиска нужной рубрики полностью просмотреть все тексты, отнесенные к ней производителем ИС. 1.7.3. Классификаторы в реальных ИС проектируются людьми, в подавляющем большинстве случаев не имеющими специальных знаний и навыков работы в этой специальной области знаний. В результате подавляющая часть доступных нам для анализа классификаторов страдает пороками, фатальными с точки зрения успешности доступа (ниже перечислены лишь некоторые): 1.7.3.1. несущественность или искусственный характер классификационных признаков обуславливает возникновение классификаций, в утрированной форме похожих на классификацию легковых автомашин по первой букве названия, в результате потребитель с помощью классификатора ничего путного найти в принципе не может (нарушено правило: в качестве оснований логического деления материала должны использоваться не формальные, а наиболее существенные для потребителя, естественные классификационные признаки объектов); 1.7.3.2. неоднородность и нарушение отношений соподчиненности затрудняют поиск подходящей рубрики в получившемся винегрете рубрик (нарушено правило: разделение материала на одном уровне классификатора должно производиться только по одному основанию логического деления); 1.7.3.3. содержательное перекрытие рубрик не позволяет однозначно определить, где искать решение волнующей проблемы и в какую из множества подходящих рубрик класть конкретный текст (нарушено правило: одноуровневые члены логического деления должны быть взаимоисключающими или альтернативными); 1.7.3.4. неоднозначность или неясность используемых в заголовках рубрик терминов делает неизбежным блуждания пользователя по самому классификатору и делает неопределенным отнесение объектов к конкретной рубрике (нарушено правило: формулировка рубрики должна быть однозначно понятна неподготовленному пользователю, а если ее нельзя оформить компактно - отдельным блоком дается разъяснение или толкование рубрики и, возможно, отдельных терминов); 1.7.3.5. недостаточность классификатора - часть текстов ИС не может быть отнесена ни к одной из имеющихся рубрик классификатора и в принципе не будет доступна потребителю (нарушено правило: классификатор должен исчерпывающим образом разделить все содержательное многообразие имеющегося и будущего материала); 1.7.3.6. низкая эргономичность классификатора - при том, что средний человек затрудняется уверено осуществлять выбор из большого числа вариантов, на многих уровнях иерархии число рубрик превышает 20 (нарушено эргономическое правило: число альтернатив на каждом уровне классификатора, как правило, не должно превышать семи); 1.7.3.7. недостаточная степень детализации классификатора вызывает в больших ИС необозримость классификационных подборок при том, что пользователь не в состоянии обозреть с экрана компьютера и осмыслить сколько-нибудь объемную выборку текстов, например, к рубрике "Недвижимость" правового классификатора можно отнести до 100 различных объектов и до 3000 правовых актов федерального законодательства России (нарушено правило: число объектов, отнесенных к любой рубрике нижнего уровня классификатора, в каждый момент его развития не должно превышать 30 фрагментов текста); 1.7.3.8. неопределенность критериев отнесения фрагмента текста к рубрике классификатора. 1.8. Как показывают наши последние исследования, в больших¹³ информационных массивах до 95% материала, имеющего непосредственное отношение к выбранной рубрике, к ней не "привязаны", т.е. недоступны потребителю при использовании классификатора. Существенное затруднение в анализе найденного материала вызывает тот факт, что в большинстве случаев единицей классифицирования (рубрицирования) является не подходящий фрагмент, а заголовок текста значительного объема, прочитать который целиком с экрана компьютера просто невозможно. Таким образом, и второй способ доступа в общепринятой его реализации малопригоден как для публичного доступа к текстовой информации, так и для корпоративных систем поддержки принятия решений. Практическая нерешенность проблемы эффективного доступа к многообразию сведений, содержащихся в обычных текстах имеет для бизнеса и управления весьма печальные последствия, которые инвесторы ИС стараются не замечать. Наибольшие сложности обнаруживаются в области методологии и технологии поддержки систем публичного доступа к текстовой информации. Необходимо преодолеть психологический барьер перед вычислительной техникой, дать возможность неискушенному потребителю интуитивно понятным ему способом быстро получить нужную именно ему информацию. Предлагается методология¹⁴ создания и поддержки в реальном времени информационных систем, решающая все обозначенные проблемы доступа к текстовой информации. Доступ к информации в проектируемых ИС основан на выборе из перечня альтернатив (второй метод). ИС формируется и поддерживается с использованием трех основных компонент: содержательного поиска в текстах, упорядочения знаний и опроса потребителя.
«««		»»»

¹ Примером самой распространенной знаковой системы является письменный язык. Под знаковой системой понимается искусственная система, состоящая из конечного множества элементов - знаков, объединенных сложившимися и/или принятыми правилами манипулирования, признаваемыми ее пользователями. Знаком может быть - изображение, звук, движение и их сочетания во времени и пространстве. Примеры знаков-изображений - буква, цифра, рисунок. Сочетания знаков (слово, как упорядоченное линейное сочетание букв) могут быть упорядочены (текст, как линейное упорядоченное сочетание слов) по правилам конкретной знаковой системы (грамматика, морфология, синтаксис ...). Главной полезной функцией знаковой системы является передача информации и оформление знания. Общими вопросами теории знаковых систем занимается семиотика, проблемами содержания (смысла) знаков - семантика. Подробнее см. А.Соломоник "Семиотика и лингвистика", М., Молодая гвардия, 1995. ² Совокупность текста, графики и иных средств, используемых прикладной компьютерной программой для ввода (управления программой) и предъявления результатов ее работы конечному потребителю. ³ Под текстом здесь и в дальнейшем будем расширительно понимать любую упорядоченную совокупность слов, пробелов и знаков препинания, оформленную с соблюдением правил естественного языка. Словом будем считать любую комбинацию букв и, возможно, цифр, не содержащую внутри себя знаков препинания и пробелов. В отличии от числовой информации текст ни в целом, ни в любой его части не может быть обработан математическими операторами (кроме возможно оператора тождества). Функционально текст может представлять собой описание слабоопределенного объекта любой природы и степени абстрактности. ⁴ Использование информационных посредников / консультантов при неограниченном свободном публичном доступе к текстам нереально по чисто экономическим соображениям. ⁵ Полнотекстовые поисковые системы, как правило, в результате предварительной обработки текстов формируют индексы, существенно ускоряющие обработку поисковых запросов пользователей. В таких базах данных и осуществляется поиск. ⁶ Проблемная ситуация - обстоятельства, создающие препятствия для нормального функционирования системы (социальной или иной), например, "Зарплату не платят уже четвертый месяц...". Проблема - негативное следствие проблемной ситуации, не позволяющее реализовать полезную функцию системы с удовлетворительным качеством, например, "Не осталось денег на питание, а кушать все равно хочется". Задача - директива, исполнение которой способно разрешить или снять проблему, например, "Ограбить банк", "Устроиться на другую работу" или "Начать голодать (в лечебных целях)". ⁷ Под лексическим образом понятия здесь и далее имеется ввиду любое оформление понятия средствами естественного языка - слова и сочетания слов в определенном контекстном окружении. ⁸ Такую задачу призваны решать словари синонимов и информационно-поисковые тезаурусы. Поскольку термин всегда входит в множество синонимических рядов и состоит в родо-видовых отношениях с иными терминами, корректное его расширение при поиске возможно только с учетом цели поиска и смыслового окружения термина в тексте, что, к сожалению, практически невозможно автоматизировать. ⁹ Для примера сравните смысл слова "Охота" в следующих сочетаниях: охота на волков / охота на ведьм / охота к перемене мест. ¹⁰ Заметим, что переход по гипертекстовым ссылкам функционально аналогичен выбору рубрики. ¹¹ Объектом может быть материальный предмет, операция, свойство, звук, изображение, запах, факт, утверждение, идея, метод, книга, официальный документ, норма законодательства, обобщенный субъект и иные конкретные и абстрактные предметы интереса потребителей. ¹² или их сочетанию ¹³ содержащих более 50.000 записей. ¹⁴ Возможно обучение всем применяемым методам.
© ИНВЕНТА 1999

1. Положение вещей