Извлечение знаний из текстов

KNOWLEDGE DISCOVERY IN TEXTS

Оглавление
1. Можно ли рассчитывать, что компьютер когда-либо сможет извлекать знания из текста на естественном языке?
1.1. Ограничения компьютера.
1.2. Смысл знаков.
1.3. Природа знаний.
1.4. Процесс понимания.
1.5. Условия понимания.
1.6. Препятствия для понимания текста компьютером.
1.7. Выводы.
2. Построить экспертную систему на основе текстов на естественном языке невозможно?
2.1. Аналитическая работа.
2.2. Документирование знаний специалиста.
2.3. Систематизация результатов документирования.
2.4. Полнота систематизации.
2.5. Актуальность систематизации.
2.6. Рубрицирование текста.
2.7. Формализация текста.
2.8. Превращение в базу знаний.
3. Проблемы создания базы знаний на основе текстов на естественных языках.
3.1. Мина замедленного действия.
3.2. Бесконечный процесс.
3.3. Муки законотворчества.
3.4. Степень готовности ядра.
3.5. Инфраструктура ядра.
4. Заключение.

1. Можно ли рассчитывать, что компьютер когда-либо сможет извлекать знания из текста на естественном языке?

Или, например, преобразовать корпус текстов в голосовую экспертную систему, консультирующую пользователей по телефону? Начнем с небольшого доказательства.

1.1. Ограничения компьютера.

Текст на естественном языке относится к знакам (подробнее см. http://www.knowbase.ru/definitions/information.htm). Компьютер может совершать только рутинные символьные операции - манипулировать машинным представлением знаков.

1.2. Смысл знаков.

Знак естественного языка (буква, слог, слово, предложение) произвольно связан со смыслом (конвенционален). Точнее, множественность смыслов знака естественного языка зависит от контекста (окружающего текста и слоя языка), времени (архаизмы и неологизмы), места (диалекты) и воспринимающего субъекта (подробнее см. http://www.knowbase.ru/definitions/#1).

1.3. Природа знаний.

Знание (knowledge) - представление индивида о явлениях и закономерностях внешнего мира. В данном случае под внешним миром имеется в виду всё, кроме сознания этого субъекта. Одним из способов получения знаний является индивидуальное восприятие текста - субъективное понимание или непонимание знаков (подробнее см. http://www.knowbase.ru/definitions/knowledge.htm).

1.4. Процесс понимания.

Понимание текста (извлечение знаний из текста) - субъективный процесс, требующий наличия воли и компетенции (умения читать...) разумного существа. Сказав ребенку, что он обожжется о раскаленную сковороду, понимания не добиться, поскольку он слушать родителя не хочет (отсутствие воли). Если индивид умеет читать на русском, а текст - на китайском, какой-бы волей он не обладал, возникает эффект "китайской комнаты". Китайская комната - мысленный эксперимент американского философа Джона Сёрля (John Rogers Searle), доказывающий невозможность прохождения теста Тьюринга (подробнее см. Сёрль, Дж. Разум мозга — компьютерная программа? // В мире науки. Scientific American. Издание на русском языке. 1990. № 3 http://alt-future.narod.ru/Ai/sciam1.html). Компетенция индивида должна быть достаточной, т.е. у него должна быть сформирована ментальная система представлений, в рамках которой можно было бы понять доступные для анализа знаки. Понимание или рефлексия компьютеру недоступны - это нерутинная операция. Например, знание русского языка мало помогает при понимании русскоязычного текста по ядерной физике или русского мата. В таком случае требуется специальная подготовка - понимание явлений и законов конкретной области знаний и знакомство с отраслевой терминологией на конкретном естественном языке или с ненормативной лексикой.

1.5. Условия понимания.

Специально заметим, что первоначальное формирование знаний у ребенка проходит остенсивно (в основном, показом и на ощупь), т.е. невербально - без естественного языка. В дальнейшем, по мере освоения внешнего окружения и родного языка появляется база для восприятия знаков (букв), запоминания слов и понимания текста. Процесс такого понимания (извлечения знаний) состоит в осмыслении текста средствами индивидуальной системы анализа (человеческий мозг) в рамках уже имеющихся представлений и накопленных навыков. Важно то, что у человека есть восприёмник знаний - мозг (как преобразователь) и система ценностей (представлений, отношений, правил...).

1.6. Препятствия для понимания текста компьютером.

Итак, для машинного извлечения знаний из обычного текста возникают следующие препятствия.
1.6.1. Знак объективно существует (имеет физическую природу) независимо от его создателя и сам по себе смысла не несет. Конечно можно, используя словари или параллельные корпусы текстов, рутинной операцией "поиск соответствия и замена на эквивалент" худо-бедно преобразовать его в другой текст. Но осмысление текста - нерутинная волевая операция существа разумного.

1.6.2. Смысл и знание имеют ментальную (метафизическую) природу, не относятся к знакам и могут приобретести символьную форму знаков только в нерутинном и субъективном процессе самовыражения: говорения, записывания, рисования...

1.6.3. Для автоматизации извлечения знаний из текстов на естественном языке требуется как минимум два компонента.
1.6.3.1. Знаковая система - приёмник: машиночитаемая объективная система представлений (понятий), закономерностей и отношений и, по существу, исчерпывающий формальный язык с конечным числом понятий, отношений и правил вывода.

1.6.3.2. Однозначный прямой и обратный преобразователь (транслятор) текста на естественном языке в текст на формальном языке.
С учетом неоднозначности естественного языка, индивидуальности его понимания, изменчивости и бесконечности (непознаваемости) внешнего мира построить такой формальный язык и адекватную систему перевода теоретически невозможно.

1.7. Выводы.

Следовательно, вычислительная техника никогда не сможет извлекать знания из текста на естественном языке. Это подтверждается всей историей развития семантики, когнитивной лингвистики и искусственного интеллекта и множеством незавершенных проектов создания баз знаний, тезарусов, онтологий, семантических карт, сетей и т.п.

2. Построить экспертную систему на основе текстов на естественном языке невозможно?

Попробуем разобрать требования к компенентам для автоматизации извлечения знаний из текста (п. 1.6.3.) применительно к практике поддержки принятия решений в органе власти, сообществе или корпорации (далее - "КОРПОРАЦИЯ").

2.1. Аналитическая работа.

Оперативные задачи поиска, накопления и анализа информации (в основном, текстов) возникают регулярно и как-то (интуитивно, долго и плохо) решаются или вообще не решаются отдельными сотрудниками или их группами.

2.2. Документирование знаний специалиста.

Интуитивный разовый поиск можно заменить профессиональным, используя web-сервис "Мастер поиска" (далее - "МАСТЕР", подробнее см. http://www.onlineti.ru/index.html#searchmaster). Такая замена на порядок повышает качество и ускоряет получение продуктивных результатов поиска (или обеспечивает доказательство их отсутствия) и, по существу, непосредственно формализует и документирует знания предметного специалиста.

На основе формулировки задачи поиска пользователь должен выбрать минимальную комбинацию СУЩЕСТВЕННЫХ ПОНЯТИЙ, из предложенных Мастером. Каждое существенное понятие пользователь связывает с одним из предложенных Мастером ТИПОВ ПОНЯТИЙ: объект, конкурент, товар, субъект, персона, процесс (функция), подход, признак, отношение, аспект, обстоятельства... (как правило, не более 50 независимых типов или оснований деления). Каждый тип понятий обеспечивает как независимый доступ к фрагментам текстов, необходимый хотя бы одному сотруднику или проектной группе, так и уточнение результатов диалога с потребителем, выбравшим иные типы существенных понятий.

Затем по каждому существенному понятию пользователь отмечает предложенную Мастером лексику естественного языка искомых текстов. После чего сам настраивает близость в текстах лексики существенных понятий, оценивая результаты работы поисковых запросов к нескольким базам данных и поисковым системам Интернет / Интранет. Мастер автоматически генерирует поисковые запросы на основе лексики выбранных пользователем существенных понятий и их близости. Обычно пользователю без специальной подготовки не составляет труда настроить высокую полноту поиска при точности не хуже 90%. Такой уровень качества означает, что, с одной стороны, 9 из 10 найденных текстов сам пользователь оценивает как полезные для решения поставленной задачи, с другой стороны, число найденных в отдельной поисковой системе или базе данных полезных текстов в 2-100 раз превышает результаты интуитивного поиска (поиска без Мастера). Существенные понятия и их отношения (сочетания) запоминаются Мастером, предлагаются пользователям при повторном поиске аналогичной и смежной тематики, многократно используются для загрузки ретроспективных данных и мониторинга новых поступлений, систематизации, классифицирования, конкретизации, обобщения и анализа текстовой (неструктурированной) информации.

2.3. Систематизация результатов документирования.

Сохраненные Мастером существенные понятия, их типы и сочетания можно упорядочить в форме многомерной (по числу типов) системы иерархических (родо-видовых) классификаторов и справочников (алфавитных указателей). Такие работы обычно начинаются с изучения доступных классификаторов и справочников на предмет частичных заимствований. Классификаторы используются для понятий, допускающих родо-видовые отношения, например, процессов или географических объектов. Справочники применяются для конкретных сущностей, часто названных именами собственными (например, предприятий, персон, дат, номеров, кодов внешних классификаторов...). Подробнее см. http://www.knowbase.ru/public-knowledge-base-structure.htm#structure

2.4. Полнота систематизации.

Очевидно, что оперативный поиск на Мастере не может обеспечить данные для исчерпывающей систематики. Исчерпывающей систематикой будем называть многомерную систему иерархических классификаторов и справочников, позволяющую реконструировать смысл всех подходящих фрагментов (предложений) любых депонированных текстов, полезных для принятия решения в корпорации. Депонирование текстов из внешних и внутренних источников - это их сохранение в корпоративной информационной системе (далее - "КИС"). Исчерпывающий характер систематики обеспечивается применением системно-морфологический подхода на Мастере с подходящей системой поиска в КИС. Требования к корпоративной система поиска см. http://www.knowbase.ru/tech-platform-for-knowledge-base.htm. Описание системно-морфологического подхода применительно к задаче проектирования классификаторов см. http://www.serendip2.ru/order/classif/annot.html.

2.5. Актуальность систематизации.

Исчерпывающий характер систематики - явление преходящее. Меняется внешний мир, ставятся новые задачи, накапливаются нерешенные проблемы, возникают ранее неизвестные идеи, риски и возможности. Все это отражается в форме избыточного (необозримого) числа фрагментов текстов, отнесенных на любом уровне любого классификатора КИС к рубрике "Прочие" или собранных в хранилище задач, решенных неудовлетворительно или не решенных вовсе. Обозримой считается выборка из менее 8 фрагментов текста общего объема менее 2000 знаков. Избыточность неразобранной информации в рубрики "Прочие", а также наличие нерешенных задач является сигналом для развития или детализации классификации.

2.6. Рубрицирование текста.

Проектирование систематики сопровождается подбором лексики на Мастере для всех недостающих понятий на всех требуемых естественных языках. В дальнейшем в процессе использования созданной систематики, изменения внешнего мира или области интереса корпорации лексика любого понятия может быть уточнена с внесением изменений в КИС. Такая систематика, представляя из себя расширяемый упорядоченный исчерпывающий и достаточно детальный формальный язык, обеспечивает автоматический поиск в любых внешних открытых источниках и КИС, депонирование собранного в КИС и классификацию любого объема подходящих текстов. Построение исчерпывающей систематики в полной мере решает задачу досконального извлечения знаний из текстов на естественном языке путем построения полной карты знаний на конкретном корпусе из конечного числа текстов, допонированных в КИС. Реестр доступных методов извлечения знаний из текстов см. http://www.knowbase.ru/knowledge-management-technologies.htm#32. Автоматическое классифицирование (кодификация или рубрицирование) текстов КИС заключается в пакетном исполнении поисковых запросов Мастера, отвечающих за точный и полный поиск лексики всех существенных понятий, с записью метаданных для подходящих фрагментов текста. Метаданные - информация в виде кода рубрики классификатора или номера записи справочника со ссылкой на фрагмент текста, подходящий ему по смыслу.

2.7. Формализация текста.

Автоматическая классификация является прямым преобразованием текста на естественном языке в формальный язык базы знаний (метаданные на основе расширяющейся систематики). Реконструкция на основе метаданных фрагментов депонированных текстов на естественном языке является обратным преобразованием извлеченных знаний, выраженных на формальном языке.

2.8. Превращение в базу знаний.

Корпоративная информационная система (база неструктурированных данных) превращается в продуктивную экспертную систему (базу знаний) за счет доступных любому пользователю устройств и методов доступа и "некомпьютерных" возможностей. Специально заметим, что никто "ручками" не прописывает в текстах связи с понятиями классификаторов и справочников - такое рубрицирование выполняется на основе рабочей систематики автоматически. Таким образом, пополнение базы знаний архивными и текущими материалами, а также новинками проходит быстро и незаметно для пользователей.
2.8.1. ВХОДная информация для создания, функционирования и развития базы знаний:
  1. ТЕКСТЫ - исчерпывающий тематику отрасли знаний корпус (множество) данных (текстов первоисточников), статус, точность, достоверность и актуальность которых удовлетворяет заказчика работы и ее потребителей. Специально заметим, что любой статический корпус стареет, в этой связи особенно актуальнен МОНИТОРИНГ появления тематических новинок и слежение за становлением неизвестных направлений развития отрасли знаний. Результатом такого мониторинга должны быть расширение корпуса текстов и развитие систематики;
  2. ЗАДАЧИ - множество вопросов / проблем. Имеющаяся систематика должна позволять решать все известные проблемы. Если проблема, поставленная потребителем, относится к тематике экспертной системы, но не решена удовлетворительно, она сохраняется и используется для изменения систематики;
  3. ОЖИДАНИЯ - пожелания и претензии заказчика и потребителей в части систематики, функциональных возможностей базы знаний и спектра решаемых задач;
  4. иные варианты.
2.8.2. ЗАДАЧИ, решаемые базой знаний:
  1. РАЗЪЯСНЕНИЕ используемой лексики - каждый опорный термин базы знаний, могущий вызвать недоумение или объем которого понимается неоднозначно или является предметом спора, обеспечен возможностью уточнения в форме вербального определения с цитатами из первоисточников. Опорными считаются все термины, использованные в классификаторах (систематике).
  2. КОНСУЛЬТИРОВАНИЕ - выдача решений, дозволений, рекомендаций, предостережений и запретов для конкретных проблемных ситуаций, описанных пользователем;
  3. ИЗВЛЕЧЕНИЕ данных заданного типа - построение на выборке исчерпывающих реестров авторов, телефонов, адресов, предприятий, цен, дат, количеств, территорий и географических наименований, торговых марок, метаданных (рубрик тех классификаторов и справочников, которые в запросе пользователя не использовались), ...;
  4. ОБУЧЕНИЕ - представление аналитических обзоров, справочных, методических и учебных материалов для систематического изучения;
  5. ГАРМОНИЗАЦИЯ ЗНАНИЙ: снятие многозначности используемых терминов, выявление и снятие пробелов и противоречий конкретной области интереса. В частности, ГАРМОНИЗАЦИЯ УПРАВЛЕНИЯ: исчерпание обязанностями сотрудников и проектных команд всей области интересов (задач, проблем) корпорации (покрытие всех задач управления конкретными штатными единицами; отсутствие проблем корпорации, за которые никто не отвечает или наличие массы проблем, за которые отвечает исключительно первое лицо);
  6. тематическое РАЗГРАНИЧЕНИЕ ДОСТУПА (клиенты / сотрудники / СБ / аналитики / ученые / инженеры + владельцы + руководство...);
  7. иные варианты.
2.8.3. ПРОЦЕДУРЫ доступа к знаниям:
  1. ДИАЛОГ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ с целью разрешение проблемы потребителя (прототип см. http://knowbase.ru/sprav/);
  2. ОТВЕТ НА ЗАПРОС НА ЕСТЕСТВЕННОМ ЯЗЫКЕ;
  3. УТОЧНЕНИЕ объема понятий, демонстрация имеющихся классификаторов, обзоров и учебных материалов с целью обеспечения систематического обучения;
  4. ВНЕШНИЙ ПОИСК ПО РУБРИКЕ - в случае неполноты или недостаточной актуальности информации из базы знаний предлагается генерация на основе систематики запросов для поиска по внешним открытым источникам;
  5. ВНЕШНИЙ ПОИСК ПО ОБРАЗЦУ (шаблону) - в случае неполноты самой систематики базы знаний предлагается генерация на основе произвольно сформулированной проблемы пользователя и, возможно, самой систематики запросов для поиска по внешним открытым источникам;
  6. ПЕЧАТНЫЕ ИЗДАНИЯ с дополнительным указателем в форме навигационных листов (подробнее см. http://www.knowbase.ru/knowledge-management-technologies.htm#725),
  7. ПОДПИСКА на новые поступления в рамках любой рубрики имеющейся систематики или принудительная доставка по штатной компетенции сотрудника (т.н. разведка по открытым источникам через Интернет http://www.osint.ru);
  8. иные варианты.
2.8.4. ВЫХОД:
2.8.4.1. РЕЗУЛЬТАТЫ ДОСТУПА к знаниям:
  1. ответ в форме одной или нескольких ЦИТАТ ИЗ ПЕРВОИСТОЧНИКОВ;
  2. ответ в форме сводной РЕКОНСТРУКЦИИ подходящих фрагментов текста по их метаданным с цитатами первоисточников, возможно, на иностранным языке;
  3. существо ответа определяется изменяемой логикой вывода:
    • отдельная выдача РАЗРЕШЕНИЙ, АНАЛОГОВ или ПРЕЦЕДЕНТОВ (методику см. http://www.onlineci.ru/oci-in-how-to.htm),
    • отдельная выдача ЗАПРЕТОВ, ПРОТИВОРЕЧИЙ или КОЛЛИЗИЙ (подробнее см. http://www.lawint.ru/lecontra.htm),
    • прочие логики или принципы вывода, специфичные для выбранной области знаний (при возможности алгоритмизации операций над метаданными).
  4. ОБОБЩЕНИЕ для пользовательских задач, не имеющих буквального решения;
  5. АНАЛИТИКА - выдача обзоров для неконкретных пользовательских задач (имеющих множество решений, которые изучить по отдельности нереально);
  6. РЕЕСТР ОТКРЫТЫХ ИСТОЧНИКОВ - поиск внешних поисковых систем, вероятно, подходящих по критериям "полнота" и "актуальность" для решения конкретной задачи (критерии см. http://www.invisibleweb.ru/#3.1.2);
  7. прочие функции базы знаний, основанные на метаданных (см. http://www.knowbase.ru/#functions).
2.8.4.2. ФОРМЫ доступа и ТИПЫ УСТРОЙСТВ доступа к знаниям:
  1. КНИГА - энциклопедия, руководство, словарь, конкорданс, учебник... крайне важна для снижения остроты проблемы цифрового неравенства;
  2. ГОЛОСОВАЯ ЭКСПЕРТНАЯ СИСТЕМА для телефонов и их аналогов (VoIP...);
  3. кроссплатформенная ПРОГРАММА без доступа в Интернет на компьютере или бытовом устройстве пользователя, работающая с распространенных средств хранения информации (флеш, CD/DVD, карты памяти, HDD, SSD...);
  4. ИНТЕРНЕТ-СЕРВИСЫ по различным протоколам: http - для устройств (компьютеры, терминалы, смартфоны...) с онлайновым доступом в Интернет, imap / pop3 - для ответов на запросы по электронной почте или через чат, wap - для мобильных телефонов, z3950 - для библиотек и т.п.
  5. иные варианты.

3. Проблемы создания базы знаний на основе текстов на естественных языках.

3.1. Мина замедленного действия.

Создание корпоративной базы знаний без изменения системы менеджмента бесполезно. Административная (репрессивная) система управления разваливает службу безопасности и аналитическую работу, сводит преимущества разворачивания базы знаний к нулю и демотивирует сотрудников, вкл. команду создателей экспертной системы. Можно выразиться сильнее. В условиях репрессивного менеджмента база знаний может стараниями нелояльных сотрудников стать бомбой, уничтожившей всю корпорацию или целый проект. Что делать см. http://www.onlineci.ru/raid-preventing.htm#2.

3.2. Бесконечный процесс.

Производство базы знаний - длительный процесс, требующий непрерывного финансирования и преданной команды специалистов (подробнее см. http://www.knowbase.ru/technologies-of-knowledge-based-management.htm#7). Работа над систематикой ведется силами корпоративных аналитиков и инженеров по знаниям, которых нужно сначала подготовить, а затем удержать. Возможна облегчение такой работы еще один сервисом, интегрированным с Мастером поиска - Мастером "Классификатор", но его разработка еще только в проекте. Кроме того, для снижения технологических рисков желательно использовать динамично развивающееся бесплатное программное обеспечение с открытым исходным кодом.

3.3. Муки законотворчества.

Гармонизация знаний сдерживается отсутствием воли первых лиц, низкой культурой дискуссий, амбициями и честолюбием отдельных авторитетов / лидеров подразделений и ответвлений и их разумным опасением потери идентичности, влияния и ресурсов. Кроме того, если база знаний является законом для корпорации, то по аналогии с законотворчеством потребуются компетентные в законодательной технике специалисты и аналогичные парламентским корпоративные процедуры проектирования, согласования и утверждения источников права: дифиниций, норм, регламентов и прецедентов.

3.4. Степень готовности ядра.

Узким местом извлечения знаний и производства базы знаний является её технологическое ядро - Мастер поиска.
Доступен web-сервис - прототип Мастера, обеспечивающий на основе русскоязычной формулировки проблемы потребителя генерацию запросов для поиска на английском языке на фиксированной группе поисковых систем Интернет. В настоящее время Мастер поиска расширен функцией генерации сервисов поиска по образцу. Поиск по образцу использует технику поисковых шаблонов (подробнее см. http://www.5186364.ru/search-query-patterns.htm) и формул (подробнее см. http://www.5186364.ru/search-query-formulas.htm) и является, как говорят программисты, шаблонизатором готового поиска на Мастере. Поиск по образцу выполнен чистым потомком конкретного поиска на Мастере, в котором исключена возможность изменения всех полей ввода лексики пользователя, кроме одного-трех. Поэтому дальнейшее развитие Мастера только увеличит возможности ранее созданных сервисов поиска по образцу. Поиск по образцу позволит быстро и единственный раз реализовать все известные автору типовые задачи поиска: баз данных, лингвистических ресурсов, персональных, правовых, маркетинговых, деловых, научных, технологических и прочих материалов. Кроме того, любой зарегистрированный пользователь сможет создать произвольное число сервисов поиска по образцу без непосредственного доступа его пользователей к Мастеру поиска.
В планах до осени 2015 года стоит подключение в Мастере возможности генерации запросов для поиска на руссском языке на группе русскоязычных поисковых систем Интернет.
До конца 2016 года планируется изменить архитектуру базового генератора поисковых запросов - перевести Мастер на документирование знаний (работы) пользователя в форме Универсального языка поисковых запросов (USQL, подробнее см. http://www.knowbase.ru/usql.htm). Компонент "Транслятор" преобразует запрос USQL в запрос целевой поисковой системы на основе ее формализованного функционального описания. Компонент "Тестировщик" сохраняет функциональное описание поисковой системы на основе результатов ее полностью автоматического тестирования. Изменение архитектуры Мастера позволит снять одну из основных проблем недоступности открытой информации: "неясно, где искать" (подробнее см. http://www.invisibleweb.ru/#3.1.2), и реализовать базовый сценарий профессионального поиска - сначала через сервис поиска по образцу находим и ставим на тестирование самые подходящие решаемой задаче базы данных, затем без проблем работаем с любым их количеством через Мастер.

3.5. Инфраструктура ядра.

Мнение представителя заказчика: «… изучить возможности российских АйТи компаний, центров и соответствующих академических институций на предмет того, чтобы создать Корпус … Знаний. … Я провёл переговоры уже с девятью компаниями. Никто не может справиться с заданием. На поверку оказывается, что все умеют работать только с базами ДАННЫХ, а не с базами ЗНАНИЙ. Проблема заключается в том, что никто не может извлекать Знания из текстов. … . К сожалению, никто в мире не может решить эту простую на вид задачу «форматирования ментальных определений». Многие считают эту задачу «неподъёмной». В том числе, и американцы.».
Поскольку базы знаний в изложенной выше постановке пока никто не делает, потребуются время и ресурсы для интеграции Мастера и результатов документирования работы персонала с унаследованной или вновь создаваемой корпоративной информационной системой и реализации совокупности методов доступа к знаниям.

4. Заключение.

Итак, знания есть только у человека. Поисковые системы через Мастер поиска позволяют предметному специалисту свои знания расширять до предела, систематизировать и поддерживать в актуальном состоянии. Мастер такие знания документирует в форме качественных запросов на поиск текстов на естественном языке. Содержательное оперирование текстом позволяет не осложнять работу и самообучение специалиста необходимостью формулировать цель поиска, находить "хорошие" базы данных, подбирать ключевые слова, изучать синтаксис языка поисковых запросов, а даже знать язык найденного текста. Все эти сложности преодолевает генератор запросов (Мастер поиска) и созданная с использованием этой технологии база знаний.


Оглавление
1. Можно ли рассчитывать, что компьютер когда-либо сможет извлекать знания из текста на естественном языке?
1.1. Ограничения компьютера.
1.2. Смысл знаков.
1.3. Природа знаний.
1.4. Процесс понимания.
1.5. Условия понимания.
1.6. Препятствия для понимания текста компьютером.
1.7. Выводы.
2. Построить экспертную систему на основе текстов на естественном языке невозможно?
2.1. Аналитическая работа.
2.2. Документирование знаний специалиста.
2.3. Систематизация результатов документирования.
2.4. Полнота систематизации.
2.5. Актуальность систематизации.
2.6. Рубрицирование текста.
2.7. Формализация текста.
2.8. Превращение в базу знаний.
3. Проблемы создания базы знаний на основе текстов на естественных языках.
3.1. Мина замедленного действия.
3.2. Бесконечный процесс.
3.3. Муки законотворчества.
3.4. Степень готовности ядра.
3.5. Инфраструктура ядра.
4. Заключение.

Опубликовано по адресу: http://www.knowbase.ru/knowledge-discovery-in-texts.htm
Дата последнего редактирования 10.04.2017
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Исследование рисков и поиск возможностей через Интернет
Невидимый Интернет для бизнеса
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке