ИНТЕРНЕТ СЛЕДУЮЩЕГО ПОКОЛЕНИЯ Internet next generation Кузнецов Сергей Валентинович

ИНТЕРНЕТ СЛЕДУЮЩЕГО ПОКОЛЕНИЯ
Internet next generation
Аннотация.
ИНТЕРНЕТ следующего поколения должен обеспечивать публичный доступ к распределенным знаниям. Дается описание вопрос-ответного пользовательского интерфейса доступа к знаниям сети ИНТЕРНЕТ, поддерживаемого технологией автоматизированной систематизации распределенных массивов и потоков информации на многих языках.

В двадцатом столетии наш мир развивается нелинейно. При повышенном темпе возникновения радикальных изменений ослабевает связь с прошлым. Традиционное мышление разрушается. Поток беспрецедентных изменений парализует государственное и корпоративное управление. В результате возникла и развивается новая парадигма управления - менеджмент, основанный на знаниях.

Попытки использовать компьютер для управления знаниями сталкиваются с не решаемой традиционными методами задачей доступа к опыту и знаниям, изложенным в необъятных потоках (распределенных массивах) текстов. Причина этому проста и стара, как мир. Категории естественного языка “слово” и “текст” по природе своей в корне отличаются от категорий мышления “понятие” и “смысл”.

Знание - это неформализуемое представление конкретного человека о явлениях и закономерностях окружающей среды, полученное в процессе приспособления к ней. В данном случае под окружающей средой имеется в виду всё, кроме сознания конкретного человека. Тогда информация - это отображенное знание и зарегистрированные состояния окружающей среды. Отображение знаний исполняется человеком средствами любой знаковой системы (формальные и естественные письменные языки и речь, рисунки, языки жестов, нотная грамота ...). Регистрация состояний окружающей среды производится техническими средствами и генерирует т.н. техническую информацию (числа, сигналы, изображения, звуки ..., их сочетания и временные ряды...). Знания накапливаются только как результат личного опыта человека и индивидуального восприятия информации.

Итак, компьютер знаниями манипулировать не может - это под силу лишь человеку. Однако познавательные возможности человека также ограничены: он не может проанализировать сколько-нибудь заметную долю потока информации, представляющей интерес. Работа превращается в кошмар и сильно напоминает поиск иголки в стоге сена. Для разрешения этого противоречия разработан комплекс технологий, адаптированный к нарастающему потоку изменений, реальным возможностям человека и вычислительной техники.

1. С целью своевременной выявления проблемы и поиска вариантов ее разрешения необходимо обеспечить автоматизированное слежение за изменениями в области интереса личности или органа управления, а также поиск и изучение всего прошлого опыта. Для решения задачи мониторинга изменений внешнего мира могут применяться технологии электронной разведки (деловая разведка, конкурентная разведка). Использование многомерных классификаторов знаний (подобных УДК - международной Универсальной Десятичной Классификации) и механизма содержательной фильтрации потоков информации позволяет создавать, развивать и поддерживать в режиме реального времени систематизированные базы данных (СБД), в том числе и в распределенных информационных ресурсах сети ИНТЕРНЕТ. В качестве предмета классифицирования могут выступать обычные тексты и любые гипермедиа-объекты (звук, графика, фото, видео ... любые их комбинации и ряды), снабженные текстовыми аннотациями.

Содержательная фильтрация текстов достигается автоматическим исполнением хранимых запросов полнотекстовых поисковых систем, например, крупнейших глобальных поисковых служб ИНТЕРНЕТ Google, AltaVista, NothernLight, FAST и др. Для справки: на конец 1999 года указанные поисковые машины содержали информацию более 250 млн. документов каждая, а общее число доступных через Мировую паутину (World Wide Web) документов превысило 1 млрд. с тенденцией к удвоению каждые 2-3 года. Это эквивалентно 10 млрд. машинописных страниц текста (без учета графики и иных гипермедиа-объектов). Таким образом, ИНТЕРНЕТ становится крупнейшим и ничем не заменимым депозитарием человеческих знаний.

Корректное практическое разрешение проблемы “смысл-текст” (адекватного выражения мысли и понимания текста) обеспечивается применением подготовленным персоналом пакета прикладных методов извлечения знанийиз текстов (по существу - это система программирования запросов поисковых систем) следующего состава:

Разработка хранимых поисковых запросов-шаблонов для нахождения в текстах определений любых терминов с целью уточнения их смысла и выявления связанных понятий.
Техника выявления полного ряда лексических образов (слова или словосочетания в определенных контекстах) абстрактных понятий, а также цитирований конкретно поименованных объектов или их частей (правовых актов, дат, географических объектов, персоналий, юридических лиц ...).
Прикладные методы поиска аналогий с проблемной ситуацией или суждением (правилом), а также непосредственного поиска фрагментов текста, вероятно вступающего в противоречие с заданным суждением (правилом).
Метод полного исчерпания лексических контекстов заданного понятия или ситуации с последующей систематизацией знаний заданной проблемной области. Проектирование классификатора СБД и разработка соответствующего пакета запросов доступных поисковых систем для поиска всех объектов (текстов) или их фрагментов, относящихся к понятию или ситуации (рубрике) классификатора.

Специально отметим, что сами тексты (объекты) никак не перерабатываются. Поисковая система только отмечает в них все написания искомого понятия или суждения (как сочетания понятий). В распределенных информационных системах в качестве объекта систематизации выступает не сам текст, а его индекс на поисковом сервере, т.е. доставленная поисковыми роботами с удаленного компьютера информация о всех словах и их взаимном расположении в документе. Такая содержательная разметка позволяет в дальнейшем быстро получить доступ к подходящим фрагментам нужных объектов, а в результате их восприятия, уточнения и понимания потребителем - и к требуемым знаниям. Если на процесс содержательной разметки текста посмотреть с точки зрения компьютерной лингвистики, то это всего лишь формирование для каждого понятия или суждения классификатора исчерпывающей тезаурусной статьи для конкретного естественного языка с ее оформлением по правилам конкретного языка поисковых запросов.

Спрашивается, зачем такие сложности? Дело в том, что методом прочтения можно получить только 5% нужных документов, т.н. простым поиском по “ключевым” словам или через существующие классификаторы можно получить до 25% нужной Вам информации, т.е. подходящих текстов, доставляемых автоматически с использованием предлагаемой технологии. Таким образом, появляется возможность качественно (не более 10% информационного шума) расклассифицировать неограниченные распределенные массивы текстов.

Поговорим о многомерном классификаторе. Число понятий в таком классификаторе не сравнимо с количеством решаемых проблем: 2100 понятий в 7-мерном классификаторе СБД позволяют детально описать более миллиарда миллиардов ситуаций (сравните с одномерными иерархическими классификаторами). Наш опыт показывает, что размер запроса поисковой системы для полного и точного поиска разнообразных лексических образов отдельного понятия редко превышает 3000 символов. Уже накоплен опыт переноса таких запросов на другие естественные языки и поисковые системы. В настоящее время методы извлечения знаний из неструктурированной информации проверены на русскоязычных и англоязычных текстах с использованием поисковых систем Артефакт (локальная база данных, 40 млн. машинописных страниц текста) и Яндекс (русский сегмент ИНТЕРНЕТ, 65 млн. машинописных страниц текста). Исследована пригодность для решения задач систематизации англоязычных текстов глобальных поисковых систем Google, AltaVista, NothernLight, FAST и многих других.

В результате СБД становится систематизированным распределенным хранилищем данных (знаний о естественном языке и проблемной области, заложенных в классификаторе СБД и комплексе хранимых поисковых запросов). Очевидно, что понятия классификатора СБД инвариантны как к естественному языку, так и к поисковой системе, т.е. СБД могут создаваться в распределенных многоязычных средах (ИНТЕРНЕТ). Доступ пользователей к СБД можно условно разделить на эпизодический (консультирование) и систематический (образование).

2. Эпизодический доступ к богатству человеческих и корпоративных знаний, которые можно получить с использованием СБД, поддерживается естественными пользовательскими интерфейсами нового поколения. Это программы взаимодействия “человек - бытовой прибор - удаленный компьютер - СБД”, работающие через различные устройства непосредственного доступа (телефон, пейджер, телевизор, персональный или сетевой компьютер, сенсорный терминал и иные устройства ввода-вывода). Такие программы, работая с произвольным числом потребителей, любое число раз

автоматически в режиме мгновенного обмена сообщениями опрашивают заинтересованное лицо на его родном языке (пользователю задается ограниченное число вопросов, причем его ответы всего на 28 вопросов позволяют детально описать более миллиарда миллиардов проблемных ситуаций - сопоставьте с объемом ресурсов ИНТЕРНЕТ),
с заданной степенью логического обобщения готовят подборку подходящих объектов СБД (возможно, извлечений из текстов),
доставляют ее с учетом возможностей конкретного устройства доступа (отображение на экране, зачитывание голосом, печать письма с последующий отправкой, запись на диск, отправка сообщения по электронной почте...). Помимо опроса возможна интерпретация произвольно сформулированной проблемы потребителя в системе понятий классификатора СБД с возможностью уточнения смысла терминов, конкретизации ситуации и выдачи результата.

Естественные интерфейсы с голосовым вводом-выводом позволяют на обычной телефонной линии обеспечить публичный доступ граждан к подготовке и принятию решений, официальным документам, иной информации, товарам и услугам круглосуточно и из любого точки и, что самое главное, без всякой предварительной подготовки (суровые условия городских трущоб и ИНТЕРНЕТ). Таким образом в компьютерной системе реализуется метафора общения с человеком - секретарем или референтом, который знает всё. Запоминание описаний проблем конкретного потребителя СБД (персональный информационный профиль), например, его хобби или особенностей должностной инструкции, позволяет легко автоматизировать процесс принудительной доставки подходящих новостей сразу после их систематизации. Методики реализации естественных интерфейсов разработаны также и для бумажных изданий нового типа (энциклопедии, справочники, учебники с т.н. содержательным доступом). Дружелюбность естественного интерфейса кардинально изменяет эффективность распределенных информационных систем. В настоящее время уже реализован компьютерный демонстрационный вариант естественного интерфейса, доступный заинтересованным лицам.

3. Систематический доступ к знаниям обеспечивается открытыми технологиями образования. Применяемая методология передачи знаний базируется на открытых систематизированных предметно-ориентированных базах данных, ресурсах Интернет и методах интенсивного ситуационного обучения (этой теме посвящен отдельный доклад).

Может быть это - очередная панацея? Никоим образом. Не поддерживаются операции с данными в случае отсутствия у них электронных текстовых аннотаций. К таковым можно отнести числа, изображения, звуки, запахи ... их сочетания, массивы и временные ряды. Поскольку СБД представляет собой технологическую реализацию одного из систематических методов творчества - системно-морфологического подхода, уже сейчас получены результаты, которые не имеют аналогов. В частности, разработаны методы тотального выявления пробелов и противоречий системе утверждений, изложенных в больших массивах текстов, например, “белых пятен” и коллизий в системе правовых актов. Бесплатно по заявке вышлем учебные материалы и проведем ознакомительное обучение.

Сергей Кузнецов <--hr-->

Опубликовано по адресу: http://www.knowbase.ru/intern1.htm
Дата последнего редактирования 26.07.2021
© Кузнецов Сергей Валентинович

Услуги: Веб-сервисы поиска
Систематизация знаний
Аналитические отчеты
Обзоры уровня техники
Поиск ниш на рынках
Учебный курс Транспрофессионал Веб-сервисы документирования знаний:
Сценарий поиска: Определения
Мастер поиска информации (МП)
Каталог веб-сервисов на основе МП
Тестирование: правовых и патентных
баз данных, и еще чат-бота ChatGPT 3.5 Сайты:
Исследование рисков и поиск возможностей
Технологические исследования
Невидимый Интернет
Аналитическая юриспуденция
Всепроникающее обучение Об авторе: Резюме и фотогалерея
Публикации и работы
Этический кодекс
Мифы о С.Кузнецове
Авторские технологии
В разработке