ИНТЕРНЕТ СЛЕДУЮЩЕГО ПОКОЛЕНИЯ
Internet next generation
Аннотация.
ИНТЕРНЕТ следующего поколения должен обеспечивать публичный доступ к распределенным знаниям. Дается описание вопрос-ответного пользовательского интерфейса доступа к знаниям сети ИНТЕРНЕТ, поддерживаемого технологией автоматизированной систематизации распределенных массивов и потоков информации на многих языках.
В двадцатом столетии наш мир развивается нелинейно. При повышенном темпе возникновения радикальных изменений ослабевает связь с прошлым. Традиционное мышление разрушается. Поток беспрецедентных изменений парализует государственное и корпоративное управление. В результате возникла и развивается новая парадигма управления - менеджмент, основанный на знаниях.
Попытки использовать компьютер для управления знаниями сталкиваются с не решаемой традиционными методами задачей доступа к опыту и знаниям, изложенным в необъятных потоках (распределенных массивах) текстов. Причина этому проста и стара, как мир. Категории естественного языка “слово” и “текст” по природе своей в корне отличаются от категорий мышления “понятие” и “смысл”.
Знание - это неформализуемое представление конкретного человека о явлениях и закономерностях окружающей среды, полученное в процессе приспособления к ней. В данном случае под окружающей средой имеется в виду всё, кроме сознания конкретного человека. Тогда информация - это отображенное знание и зарегистрированные состояния окружающей среды. Отображение знаний исполняется человеком средствами любой знаковой системы (формальные и естественные письменные языки и речь, рисунки, языки жестов, нотная грамота ...). Регистрация состояний окружающей среды производится техническими средствами и генерирует т.н. техническую информацию (числа, сигналы, изображения, звуки ..., их сочетания и временные ряды...). Знания накапливаются только как результат личного опыта человека и индивидуального восприятия информации.
Итак, компьютер знаниями манипулировать не может - это под силу лишь человеку. Однако познавательные возможности человека также ограничены: он не может проанализировать сколько-нибудь заметную долю потока информации, представляющей интерес. Работа превращается в кошмар и сильно напоминает поиск иголки в стоге сена. Для разрешения этого противоречия разработан комплекс технологий, адаптированный к нарастающему потоку изменений, реальным возможностям человека и вычислительной техники.
1. С целью своевременной выявления проблемы и поиска вариантов ее разрешения необходимо обеспечить автоматизированное слежение за изменениями в области интереса личности или органа управления, а также поиск и изучение всего прошлого опыта. Для решения задачи мониторинга изменений внешнего мира могут применяться технологии электронной разведки (деловая разведка, конкурентная разведка). Использование многомерных классификаторов знаний (подобных УДК - международной Универсальной Десятичной Классификации) и механизма содержательной фильтрации потоков информации позволяет создавать, развивать и поддерживать в режиме реального времени систематизированные базы данных (СБД), в том числе и в распределенных информационных ресурсах сети ИНТЕРНЕТ. В качестве предмета классифицирования могут выступать обычные тексты и любые гипермедиа-объекты (звук, графика, фото, видео ... любые их комбинации и ряды), снабженные текстовыми аннотациями.
Содержательная фильтрация текстов достигается автоматическим исполнением хранимых запросов полнотекстовых поисковых систем, например, крупнейших глобальных поисковых служб ИНТЕРНЕТ Google, AltaVista, NothernLight, FAST и др. Для справки: на конец 1999 года указанные поисковые машины содержали информацию более 250 млн. документов каждая, а общее число доступных через Мировую паутину (World Wide Web) документов превысило 1 млрд. с тенденцией к удвоению каждые 2-3 года. Это эквивалентно 10 млрд. машинописных страниц текста (без учета графики и иных гипермедиа-объектов). Таким образом, ИНТЕРНЕТ становится крупнейшим и ничем не заменимым депозитарием человеческих знаний.
Корректное практическое разрешение проблемы “смысл-текст” (адекватного выражения мысли и понимания текста) обеспечивается применением подготовленным персоналом пакета прикладных методов извлечения знанийиз текстов (по существу - это система программирования запросов поисковых систем) следующего состава:
Спрашивается, зачем такие сложности? Дело в том, что методом прочтения можно получить только 5% нужных документов, т.н. простым поиском по “ключевым” словам или через существующие классификаторы можно получить до 25% нужной Вам информации, т.е. подходящих текстов, доставляемых автоматически с использованием предлагаемой технологии. Таким образом, появляется возможность качественно (не более 10% информационного шума) расклассифицировать неограниченные распределенные массивы текстов.
Поговорим о многомерном классификаторе. Число понятий в таком классификаторе не сравнимо с количеством решаемых проблем: 2100 понятий в 7-мерном классификаторе СБД позволяют детально описать более миллиарда миллиардов ситуаций (сравните с одномерными иерархическими классификаторами). Наш опыт показывает, что размер запроса поисковой системы для полного и точного поиска разнообразных лексических образов отдельного понятия редко превышает 3000 символов. Уже накоплен опыт переноса таких запросов на другие естественные языки и поисковые системы. В настоящее время методы извлечения знаний из неструктурированной информации проверены на русскоязычных и англоязычных текстах с использованием поисковых систем Артефакт (локальная база данных, 40 млн. машинописных страниц текста) и Яндекс (русский сегмент ИНТЕРНЕТ, 65 млн. машинописных страниц текста). Исследована пригодность для решения задач систематизации англоязычных текстов глобальных поисковых систем Google, AltaVista, NothernLight, FAST и многих других.
В результате СБД становится систематизированным распределенным хранилищем данных (знаний о естественном языке и проблемной области, заложенных в классификаторе СБД и комплексе хранимых поисковых запросов). Очевидно, что понятия классификатора СБД инвариантны как к естественному языку, так и к поисковой системе, т.е. СБД могут создаваться в распределенных многоязычных средах (ИНТЕРНЕТ). Доступ пользователей к СБД можно условно разделить на эпизодический (консультирование) и систематический (образование).
2. Эпизодический доступ к богатству человеческих и корпоративных знаний, которые можно получить с использованием СБД, поддерживается естественными пользовательскими интерфейсами нового поколения. Это программы взаимодействия “человек - бытовой прибор - удаленный компьютер - СБД”, работающие через различные устройства непосредственного доступа (телефон, пейджер, телевизор, персональный или сетевой компьютер, сенсорный терминал и иные устройства ввода-вывода). Такие программы, работая с произвольным числом потребителей, любое число раз
3. Систематический доступ к знаниям обеспечивается открытыми технологиями образования. Применяемая методология передачи знаний базируется на открытых систематизированных предметно-ориентированных базах данных, ресурсах Интернет и методах интенсивного ситуационного обучения (этой теме посвящен отдельный доклад).
Может быть это - очередная панацея? Никоим образом. Не поддерживаются операции с данными в случае отсутствия у них электронных текстовых аннотаций. К таковым можно отнести числа, изображения, звуки, запахи ... их сочетания, массивы и временные ряды. Поскольку СБД представляет собой технологическую реализацию одного из систематических методов творчества - системно-морфологического подхода, уже сейчас получены результаты, которые не имеют аналогов. В частности, разработаны методы тотального выявления пробелов и противоречий системе утверждений, изложенных в больших массивах текстов, например, “белых пятен” и коллизий в системе правовых актов. Бесплатно по заявке вышлем учебные материалы и проведем ознакомительное обучение.
Сергей Кузнецов <--hr-->
Опубликовано по адресу: http://www.knowbase.ru/intern1.htm
Дата последнего редактирования 26.07.2021
© Кузнецов Сергей Валентинович