Бизнесы на основе технологии производства баз знаний

Оглавление
1. Возможности и проблемы производства баз знаний на основе неструктурированной информации
1.1. Положение вещей
1.2. Некоторые возможности
1.3. Проблемы
1.4. Бизнес-модель

2. Бизнесы на основе технологии производства баз знаний

2.1. Сервис тематического метапоиска и мониторинга по неопределенной базе открытых источников
2.1.1. Введение
2.1.2. Процедура развития и функционирования
   2.1.2.1. Учет доступных форм для ввода поисковых запросов
   2.1.2.2. Функциональное тестирование поисковой системы
   2.1.2.3. Содержательное тестирование поисковой системы
      2.1.2.3.1. Собственная база текстов
   2.1.2.4. Формирование реестра баз данных для конкретного поиска
   2.1.2.5. Выполнение запроса на тематический метапоиск (параллельный поиск)
   2.1.2.6. Развитие сервиса
2.1.3. Возможные бесплатные услуги
2.1.4. Возможные коммерческие сервисы
2.1.5. Конкурирующие проекты
2.1.6. Уникальность
2.1.7. Маркетинг и связи с общественностью
2.1.8. Защита и оплата использования объектов интеллектуальной собственности
2.1.9. Проблемы и ограничения
2.1.10. Первый пилотный проект
  2.1.10.1. Расширенный поиск Состав производимых работ Потребительские характеристики Основные конкуренты
  2.1.10.2. Поиск аналитики Состав производимых работ Потребительские характеристики Конкуренты
  2.1.10.3. Диалоговый помощник Состав производимых работ Потребительские характеристики Конкуренты
  2.1.10.4. Универсальный метапоиск
  2.1.10.5. Пользовательский метапоиск
  2.1.10.6. Тематический мониторинг Интернет
  2.1.10.7. Коммерциализация
2.1.11. Второй пилотный проект
2.1.12. Третий пилотный проект
2.2. Патентно-информационный сервис
2.2.1. Положение вещей
2.2.2. Идея
2.2.3. Услуги
2.3. Сервис поиска и мониторинга работы и проверки частных лиц
2.4. Сервис поиска и анализа правовой информации
2.5. Сервис поиска и мониторинга информации о тендерах
2.6. Сервис поиска и мониторинга информации о нишах на рынке
2.7. Сервис информационно-аналитической поддержки инновационных бизнес-инкубаторов
Определения терминов.
2.7.1. Введение.
2.7.2. Реализация службы.
2.7.3. Требования к интерфейсу конечного пользователя.
2.7.4. Функциональные возможности службы.
   2.7.4.1. Интерфейс для домохозяек.
   2.7.4.2. Трансляторы поисковых запросов.
   2.7.4.3. Классификационный поиск.
   2.7.4.4. Тематический поиск.
2.7.5. Поддержка автоматической службы консультирования
2.7.6. Авторские права
2.7.7. Риски проекта
2.8. Национальный бизнес-архив
2.9. Корпоративная база знаний (тиражируемое ядро)

1. Возможности и проблемы производства баз знаний на основе неструктурированной информации

1.1. Положение вещей.

  1. Оценка числа источников информации. Пользователь в условиях обычного цейтнота ищет только в известных ему базах данных. Иными словами из доступных через Интернет 230+ млн. сайтов и 1,4 млн. сайтов на домене RU обычно используется не более 10. Крупнейшие поисковые системы Интернет обеспечивают доступ к не более 1.000.000.000.000 открытых документов. Объем доступной через открытые источники информации оценить затруднительно. В исследованиях 2000 года приводятся данные, что объем информации невидимого Интернет в 450-500 раз превышает то, что доступно через известные среднему пользователю поисковые системы и базы данных. Невозможно исключить наличие критически важных документов в неизвестных пользователю источниках и на незнакомых языках. При таком раскладе можно смело оценить полноту профессионального поиска даже с использованием лучших поисковых систем и коммерческих служб баз данных на уровне долей процента!
  2. Проблемы поиска в отдельном источнике. Качественный поиск в текстах документов отдельной базы данных или поисковой системы требует от пользователя высокой квалификации (см. примеры описания возможностей конкретных поисковых систем). Интуитивный полнотекстовый поиск через конкретную поисковую систему или базу данных обеспечивает полноту в пределах 4-5% при невысокой точности, и в ряде случаев вообще не дает приемлемых материалов. Формальное изучение явных цитат и связей конкретных документов вместо использования поисковых запросов-досье обеспечивает полноту анализа материала на уровне не выше 10%. Обучение специалистов-аналитиков профессиональному поиску в текстах занимает значительное время и недешево. Всех пользователей обучить до приемлемого уровня невозможно. Требуется, с одной стороны, разработка и внедрение пользовательских интерфейсов, кардинально снижающих квалификационный порог удовлетворенных потребителей (например, интуитивных вопрос-ответных интерфейсов "для домохозяек" и мастеров формирования сложных поисковых запросов для аналитиков), с другой стороны, сопровождение коммерческой службы баз данных бесплатным доступом и предельно простой документацией и системой дистанционного обучения и самообучения, с третьей стороны, перевода поискового запроса пользователя в синтаксисе известной ему поисковой системы на языки запросов всех иных подходящих баз данных.
  3. Средства поиска для неискушенных.
    • Единственным приемлемым для неподготовленного пользователя средством доступа к необходимой ему неструктурированной информации считаются классификаторы. При работе пользователя с объемными классификаторами неструктурированной информации (более 100 рубрик) сказываются эргономические ограничения - человеку трудно ориентироваться в пространстве альтернатив более 7. В результате при ручном классифицировании политематического документа персоналом производителя базы данных пропускается 19 из 20 необходимых рубрик. Таким образом полнота поиска через классификаторы конкретной базы данных не превышает 5%. Объемы генерируемой в мире и поступающей в конкретную службу баз данных неструктурированной информации превышают все разумные пределы ручной обработки. Невозможно обучить и посадить за работу армию специалистов по классифицированию. Использование систем автоматизированного классифицирования, основанных на статистической обработке текста (контрольной подборки документов), дает полноту не превышающую 50% при уровне точности в диапазоне 20-50%. В процессе поддержки принятия решений в условиях высокого риска такой уровень качества классифицирования неприемлем. Изучение компанией "Консультант Плюс" использования потребителем классификаторов показывает, что после третьей неудачной попытки получить необходимые материалы пользователь более к скомпрометировавшей себя системе доступа не обращается. Экономические ограничения не позволяют своевременно расширять имеющиеся базы данных, обеспеченные классификационным поиском, за счет подключения заметных объемов данных из новых источников, а также ретроспективных массивов.
    • Перспективным вариантом доступа к проблемно-ориентированным текстам можно считать виртуальных помощников - мастеров поиска аналогий (прошлого опыта), противоречий (коллизий, поиск от противного), объектов (сущностей, например, персон, предприятия, товаров, технологий и т.п.). Кроме всего прочего, мастера могут обеспечить рабочие места добровольцев, желающих принять участие в разработке авторских запросов для поиска и классифицирования неструктурированной информации (текстов и иных объектов с текстовым описанием). Таким образом возможна как привязка к классификаторам массивов текстов, так и дополнительная тематическая фильтрация результатов метапоиска.

1.2. Некоторые возможности производства баз знаний на основе неструктурированной информации

  1. Автоматизация поиска и классифицирования текстов. Разработана технология написания запросов для классифицирования и поиска по аналогии неструктурированных данных на любых языках с использованием любых поисковых систем Интернет и любых баз неструктурированных данных. Классифицирование любых объемов поступающей информации выполняется в автоматическом режиме средствами технологической поисковой системы (см. некоторые требования). Написание и поддержание в рабочем состоянии классифицирующих запросов выполняется подготовленным персоналом (4-8 часов работы специалиста для одной темы на одном языке). Качество классифицирующих и поисковых запросов достаточно для поддержания высокого уровня доверия неподготовленного потребителя (последствия неудовлетворенности поиском см. выше) - полнота поиска выше любого альтернативного метода, точность - не ниже 90%. Разработана технология написания запросов для поиска от противного неструктурированных данных на любых языках. Таким образом можно предложить потребителю базы знаний наряду с поиском материалов по аналогии (для изучения прошлого опыта), искать противоречия или идти от противного. Все это открывает возможности мгновенного параллельного поиска, анализа, мониторинга и систематизации неопределенной по размеру группы внешних баз данных.

  2. Автоматизация тестирования и подбора источников информации. Подготовлены алгоритмы автоматического изучения (тестирования) любого количества открытых источников: поисковых систем Интернет и баз данных. Если принять, что каждый второй сайт на домене второго уровня оснащен хотя бы одной поисковой системой, общее количество поисковых систем и баз данных, доступных через Интернет, исходя из приведенных выше данных, можно оценить снизу в 30 млн. Обход существующих поисковых систем, их тестирование и функциональное классифицирование, а также решение других проблем недоступности информации через Интернет постепенно выполняется в полностью автоматическом режиме. По результату выполнения 3-5 тыс. тестовых запросов готовится формальное описание конкретной поисковой системы (базы данных). Такое описание позволяет в автоматическом режиме сформировать поисковый запрос приемлемого качества

    • на основе классификатора типовых поисковых задач (используются доступные сценарии поиска),

    • на основе интервьюирования пользователя через вопрос-ответный интерфейс (используются доступные классификационные запросы),

    • через любые классификаторы или реестры (используются  доступные классификационные запросы),

    • из запроса пользователя на естественном языке,

    • с использованием мастера подготовки запросов (диалоговый облегченный аналог меню-ориентированного "расширенного поиска" некоторых поисковых систем),

    • на базе запроса пользователя в синтаксисе универсального языка поисковых запросов;

    • на основе запроса пользователя в синтаксисе любой известной поисковой системы, например, Google.

    • на основе работы иных вариантов пользовательских интерфейсов.

    Разработана техника подбора наилучших для решения конкретной задачи открытых источников: поисковых систем Интернет и баз данных. Скачивание не более 50 тыс. текстов через систему поиска на сайте позволяет решить проблему недоступности информации через внешние поисковые системы (т.н. Невидимый Интернет) и мгновенно оценивать пригодность тестируемой базы данных для конкретного поиска. Таким образом для описания тематического разнообразия 30 млн. поисковых систем потребуется хранение не более 1,5 триллиона текстов.

  3. Удовлетворенность неискушенного пользователя. Разработаны основы проектирования вопрос-ответных пользовательских интерфейсов, кардинально снижающих квалификационный барьер. Задачи решаемые таким интерфейсом - обеспечение доступа к необходимой информации неквалифицированного потребителя через классификаторы поисковой системы в диалоге на привычном для него языке. Кроме того, база знаний гарантирует успешность практически любого поиска: при недостатке информации по проблеме потребителя может выполнять логические обобщения, при избытке информации - предоставлять аналитические обзоры. Языковый барьер снимается

    • работой на привычном для пользователя языке, например, пользовательский интерфейс и система помощи на русском языке;

    • возможно, переводом лексики поискового запроса с родного языка пользователя на язык искомых текстов, например, поисковый запрос переводится с русского на китайский и  предоставлением результатов поиска для анализа на языке оригинала и в подстрочном переводе на язык пользователя (например, с китайского на русский).

    Сбор данных и их анализ заметно облегчается по результату самообучения и дистанционного обучения (см. открытые технологии образования) в любом месте и в любой подходящий для этого момент. Снижение квалификационных требований к пользователям позволяет существенно расширить рынок за счет индивидуальных пользователей, предприятий малого и среднего бизнеса.

  4. Прочие возможности и функции базы знаний см. http://www.knowbase.ru/#functions.

1.3. Проблемы производства баз знаний на основе неструктурированной информации

  1. Недостаток кадров (см. некоторые требования), которые нужно сначала научить, затем удержать.

  2. Трудности формализации объема понятий и рубрик классификаторов: в практике автора был случай, когда заказчик системы автоматизированного классифицирования не могу внятно объяснить, почему ему не нравятся найденные материалы. Работы пришлось прекратить по причине полной неясности того, что нужно найти или как классифицировать.

  3. Значительные объемы программирования и отладки поисковых / классифицирующих запросов.

  4. Кардинально новый продукт сложно продавать.

  5. Прочие сложности см. http://www.knowbase.ru/#problems

1.4. Бизнес-модель

В качестве базовой предлагается использовать модифицированная использованием творческого потенциала отдельных граждан (краудсорсинг) и профессиональных сообществ (ноосорсинг) бизнес-модель "Freemium" - сначала используй ограниченную часть сервиса бесплатно, например, некоммерческий сервис поиска ниш на рынках, затем арендуй полноценный сервис.

Беспрецедентная угроза для рынков телекоммуникаций и информационных технологий создана компанией Google. Это бизнес-модель "доплати клиенту товара или услуги" (бизнес-модель "Дешевле, чем бесплатно", Less than free business model). Как эта разрушающая рынки бизнес-модель может быть использована?

2. Бизнесы на основе технологии производства баз знаний

2.1. Тематический метапоиск (тематический метапоисковый робот, автоматический брокер межбазового полнотекстового поиска, автоматизированный сценарий поиска информации во многих базах данных, поиск в невидимом Интернет). Subject metasearch (subject federated search robot, automated full text federated retrieval broker, multiply databases information retrieval scenario, Invisible Web search).

2.1.1. Введение. Тематический метапоиск (subject metasearch) - авторский проект автоматизации поиска, разведки через Интернет, поиска в Невидимом Интернет и документирования знаний будет работать как частично-бесплатный web-сервис или закрытый (корпоративный) сервис, обеспечивающий автоматический опрос сотен наилучших открытых баз данных с формированием единого отчета и устранением дублирований результатов.

Метапоиск - параллельный поиск по многим " href="http://www.onlineci.ru/oci-in-termins.htm#search-engine">поисковым системам с консолидацией результатов и удалением дублей и, возможно, проверкой работоспособности ссылок и сохранением результатов.

Такой сервис может использовать внутренний (невидимый пользователю) универсальный язык поисковых запросов (Universal search query language, далее USQL, подробнее см. отдельную статью про USQL). Такой язык поисковых запросов обеспечивает описание задач пользователя при поиске по собственной базе данных. Поиск по любой иной базе данных (прошедшей тестирование, см. далее) выполняется с использованием поисковых запросов, сформированных автоматическим транслятором с универсального языка запросов на язык запросов конкретной (точнее, любой) поисковой машины. Формирование и отладку поисковых запросов формата USQL обеспечивается виртуальными ассистентами, общающимися с пользователями и разработчиками на естественном языке.

Первоначальная база открытых источников для такого сервиса может составить порядка 2 млн. поисковых систем. Такая коллекция открытых источников обеспечивает доступ к информации на 110 естественных языках, являющихся официальными хотя бы в одной из стран мира. Реестр наилучших для конкретного поиска баз данных формируется автоматически "на лету" из миллионов поисковых систем. Для жителей конкретной страны должен быть разработан пользовательский интерфейс на языке этой страны, а также будет реализован поиск со словоизменениями.

2.1.2. Процедура развития и функционирования.Как может создаваться и будет работать тематический метапоиск?

 2.1.2.1. Учет доступных форм для ввода поисковых запросов (каталогизация поисковых систем, используемых в тематическом метапоиске). Автоматически опрашиваются

Предметом такого опроса является проверка наличия формы для ввода поискового запроса и определения технических характеристик такой формы. Если форма запроса на поиск на головной странице сайта не обнаружена, делается попытка найти карту сайта и на ней ссылку на страницу с поисковой формой. Работы планируются с учетом пожеланий партнеров и клиентов.

 2.1.2.2. Функциональное тестирование поисковой системы. Если форма для ввода поискового запроса обнаружена, проводится автоматическое тестирование ее функциональности (робот направляет не более 10000 тестовых запросов). В результате обработки результатов таких запросов заполняет компактное описание возможностей поисковой системы (см. пример). Один из тестовых запросов предназначен для поиска описаний (руководств пользователя) поисковой системы. Если обнаружены какие-либо описания поисковой системы, они ставятся в очередь ручного тестирования соответствия. Ручное тестирование соответствия выполняется, как правило, только для основных поисковых систем конкретного сегмента Интернет, лидирующих по числу проиндексированных документов, например, избранных автором http://www.5186364.ru/search-query-patterns.htm#3.

 2.1.2.3. Содержательное тестирование поисковой системы. Для каждой типовой задачи поиска готовится система запросов на конкретном естественном языке для оценки числа документов, интересных для решения типовой задачи и доступных через конкретную поисковую систему. Эти данные в дальнейшем регулярно обновляются и учитываются в процессе автоматического формирования реестра баз данных, пригодных для решения типовой задачи. Некоторые критерии отбора поисковых систем см. в статье "Невидимый Интернет для бизнеса" http://www.invisibleweb.ru/#3.1.2.

 2.1.2.3.1. Собственная база текстов. Для содержательного тестирования "на лету" в процессе решения произвольных (нетиповых) задач в собственную базу данных могут сохраняться не менее 10% и не более миллиона доступных записей из конкретной поисковой системы (базы данных). Собственная база данных может использоваться для мгновенного формирования результатов бесплатных поисков (на основе собственного полнотекстового индекса) и быстрой трансляции запросов с универсального языка на язык запросов конкретной поисковой системы. Открытой является задача подбора или разработки технологической поисковой системы для осуществления полнотекстового поиска и анализа по собственной базе. Некоторые требования см. в статье "Технологическая основа базы знаний" http://www.knowbase.ru/tech-platform-for-knowledge-base.htm.

2.1.2.4. Формирование реестра баз данных для конкретного поиска. В результате содержательного тестирования (п.3) поисковых систем появляется возможность автоматического формирования реестра баз данных, в наибольшей степени подходящих для решения любой задачи поиска. Для бесплатного тематического метапоиска используется реестр минимального объема (несколько десятков поисковых систем). Число поисковых систем в реестре зависит от тарифного плана и в принципе может быть любым. С увеличением числа поисковых систем, используемых в конкретном поиске, растет полнота поиска и, соответственно, стоимость результатов обработки поискового запроса.

 2.1.2.5. Выполнение запроса на тематический метапоиск (параллельный поиск).

 2.1.2.6. Развитие сервиса может вестись:

  • систематически головной организацией и ее партнерами (последовательным подключением наиболее востребованных типовых задач поиска и классификаторов / реестров объектов поиска);

  • эпизодически, предоставлением любому добровольцу возможности подготовить собственный тематический метапоиск или дополнительный сервис к тематическому метапоиску с правом получать роялти.

Где это только возможно реализуется модифицированная концепция коллективного авторского творчества (краудсорсинг / crowdsourcing). Для ликвидации слабых мест сервиса, выявленных в процессе практического использования, диверсионного анализа и тестирования (антибенчмаркинг), объявляются открытые конкурсы. Неожиданные инновации получаются и от зарегистрированных добровольцев. Для любого инициативного предложения фиксируется внутрикорпоративный приоритет (электронный аналог международного патента). По всем предложениям проводится голосование в части их полезности. Лучшие предложения выносятся на обсуждение всех заинтересованных клиентов. В случае одобрения предложение дорабатывается с возможным участием автора и запускается в производство. Все авторские предложения и разработки, имеющие коммерческое применение, оплачиваются в приемлемой для автора форме.

Развитие сервиса может вестить

 2.1.3. Возможные бесплатные услуги.

Безвозмездно может (а из соображений маркетинга и обязательно должен) быть доступен с сайта разработчика (после обязательной регистрации) тематический метапоиск в следующих вариантах:

  1. по произвольной задаче с использованием ограниченного числа динамически выбираемых баз данных;

  2. с использованием бесплатных вариантов любых коммерческих сценариев поиска;

  3. с использованием всех некоммерческих (социальных) сценариев поиска.

Обязательно предоставление услуг бесплатного размещения поисковых форм метапоиска на любых сайтах.

Кроме того журналистам, чиновникам, преподавателям, учебным заведениям и другим потенциальным агентам вирусного маркетинга должны бесплатно предоставляется отдельные коммерческие возможности службы тематического метапоиска.

В качестве средства расширения возможностей, повышения конфиденциальности и убыстрения работы тематического метапоиска пользователям, обеспеченным персональными компьютерами с подходящей операционной системой и неограниченным доступом в Интернет, может быть предложено установить специализированную настольную программу. Такая программа с согласия пользователя обеспечивает шифрование интернет-трафика и сохранение описаний проблем пользователя с возможностью повторного запуска, мониторинга и т.п. Одновременно, такая программа в фоновом режиме выполняет запросы к ближайшим к пользователю внешним поисковым серверам, обрабатывает полученные результаты и отправляет их на сервер для дальнейшей обработки. Таким образом возможна реализация распределенной сети компьютеров для снижения трафика и скрытия его источника при опросе баз данных и скачивания их содержимого.

 2.1.4. Возможные коммерческие сервисы. По подписке (за плату) могут предоставлять следующие дополнительные сервисы:

 2.1.5. Конкурирующие проекты. Заголовок не совсем точный. Это выдающиеся интернет-проекты, в начале 2010 года как-то решающие отдельные подзадачи тематического метапоиска. Прямых конкурентов пока нет. Появление конкурентов возможно при одновременном решении всех задач из следующего раздела "Уникальность".

 2.1.6. Уникальность.

 2.1.7. Маркетинг и связи с общественностью.

 2.1.8. Защита и оплата использования объектов интеллектуальной собственности.

 2.1.9. Проблемы и ограничения.

Большинство успешных бизнесов, основанных на поиске в Интернет или предоставлении информации, например, Google или Яндекс,

2.1.10. Первый пилотный проект

Концепция. Готовится Интернет-сервис полного и точного поиска русскоязычной информации по массиву более 3 млрд. страниц с параллельным использованием ведущих поисковых систем русского сегмента Интернет (статический реестр из шести открытых поисковых систем). За счет ввода запроса на естественном языке и, возможно, диалога такой сервис пригоден для потребителей без знания Интернет (уровень старших классов средней школы).
За счет быстрого поиска аналитических, узкоспециализированных и обзорных материалов, высокой полноты, точности и лаконичности результатов метапоиска существенно экономится время и силы пользователя, повышается результативность его работы. Быстрый тематический метапоиск позволяет расширить спектр и повысить качество решений, которые успевают готовить доступные специалисты.
Помимо быстрого поиска аналитических материалов пользователь (аналитик) в диалоге с виртуальным консультантом может собрать все материалы по слабо освещенной в открытых источниках теме, разместить в Интернет собственный специализированный сервис метапоиска или запустить систему тематического web-мониторинга новостей и новых поступлений.

Порядок выполнения работ (этапность).
  2.1.10.1. Расширенный поиск Состав производимых работ Потребительские характеристики Основные конкуренты
  2.1.10.2. Поиск аналитики Состав производимых работ Потребительские характеристики Конкуренты
  2.1.10.3. Диалоговый помощник Состав производимых работ Потребительские характеристики Конкуренты
  2.1.10.4. Универсальный метапоиск
  2.1.10.5. Пользовательский метапоиск
  2.1.10.6. Тематический мониторинг Интернет
  2.1.10.7. Коммерциализация
Важно заметить, что все последующие этапы наследуют потребительские характеристики предыдущих этапов.

2.1.10.1 этап. Расширенный поиск. Готовится web-сервис поиска через Рамблер http://r0.ru со следующими улучшениями.

На всех последующих этапах первого пилотного проекта "Тематический метапоиск" 1 этап "Расширенный поиск" позволяет
   * обеспечить функционал, традиционный для коммерческих служб баз данных (см. далее),
   * скрыть поисковые запросы и используемую поисковую систему или поисковые системы,
   * снизить риск утечки технологий через клиентов (платных пользователей)
   * и снизить риск блокирования сервиса со стороны вендоров (поисковых систем). В качестве дополнительной защиты сервиса от блокировки со стороны поисковых систем желательно решить вопрос о скрытии IP-адреса сервиса при частом направлении запросов к поисковым системам, не существенно ухудшающим время отклика сервиса на запросы пользователя.
Состав производимых работ
1. Подготовить форму передачи пользовательского запроса поисковой системе Рамблер, позволяющую искать тексты. Подготовить функцию распознавания результатов поиска текстов, позволяющую в дальнейшем произвольно обрабатывать найденное. Подготовить также функцию загрузки информации по найденным ссылкам, позволяюшую выдавать в отчет фрагмент заданного объема или полный текст с маркировкой найденного и приемлемой навигацией (переходами по внутренним ссылкам к следующему / предыдущему подходящему фрагменту текста). Продолжительность - 1 месяц. Полезные фунции - см. далее.
2. Подготовить функцию, позволяющую искать новости и функцию распознавания результатов поиска новостей, позволяющую в дальнейшем произвольно обрабатывать найденное с сортировкой по дате. Подготовить также функцию загрузки новостей и функцию слияние результатов поиска текстов и новостей с возможностью сортировки по дате. Продолжительность - 1 месяц. Полезные фунции - см. далее.
3. Подготовить функцию, позволяющую сохранять результаты каждого нового поиска на сервере в заданном формате с возможностью последующего доступа, а также получить результаты каждого нового поиска по электронной почте. Продолжительность - 1 месяц. Полезные фунции - см. далее.
Потребительские характеристики. Расширенный поиск через Рамблер обеспечивает следующие возможности, не предоставляемые ни одной из известных автору бесплатных поисковых систем и некоторыми коммерческими службами баз данных.
   * Обычно поисковые системы и службы баз данных (см. далее) каждый найденный по запросу пользователя документ представляют минимальным фрагментом из 1-2 предложений с выделением найденных терминов. В результате по представленному обрывку текста не всегда понятно, о чем идет речь. Пользователю предоставляется возможность выбрать любой размер найденного текста, помещаемый в отчет о поиске. Размер просматриваемого текста пользователь может задавать или в предложениях (числом более 3) или долей полного текста (10-100%). Кроме того, пользователь может настроить макет выдачи: выделять найденную лексику выбранным цветом или не выделять вообще, а результаты печатать в 2-4 колонки (журнальная верстка). Читать с экрана короткие строки менее утомительно.
   * Если пользователю нужна только свежая информация и новые поступления, он вынужден последовательно пользоваться службой поиска в Интернет с сортировкой результатов по дате (сначала новые), а затем сервисом поиска новостей без возможности увидеть единый список материалов по убыванию даты публикации. Объединение результатов поиска с различных поисковых служб (новостей и текстов, а также документов различных форматов) дает возможность сэкономить время, исключить дублирование и просматривать в едином отчете по хронологии и новости из онлайновых средств массовой информации, и свежие публикации на прочих сайтах Интернет. Также удобно для различных исследований объединение поисков по материалам офисных форматов (MS Word + Adobe Acrobat).
   * До 80% материалов, продаваемых коммерческими службами баз данных по ценам 7-600 рублей за 1 полную статью, доступны бесплатно через Интернет. Полные тексты таких материалов находятся в открытом доступе на сайтах средств массовой информации, домашних страницах авторов и в других бесплатных серверах. Если пользователь собирает материал для работы, безусловный интерес представляет доставка результатов поиска по электронной почте или сохранение их на сервере. Доставка по почте может быть в теле письма или в виде приложенных архивов с маркированными избранными или всеми результатами отдельного поиска или всех произведенных поисков. Пользователь может выбрать форму (единый отчет или отдельные файлы), формат (текст или html) и наиболее удобный для последующего использования макет. Каждое письмо или архив может содержать подборку (дайджест) авторских материалов в форме извлечений (цитат, фрагментов) или полных текстов с обязательным указанием источника и, возможно, авторства и должен сопровождаться следующей оговоркой: "Все материалы настоящего письма/архива являются произведениями уважаемых авторов и предоставляются только для индивидуального использования. Любое воспроизведение, опубликование, последующая передача в эфир или публичный показ могут повлечь за собой нарушение законодательства об авторском праве." (практика WPS). Доставка или резервирование результатов самим Сервисом гарантирует пользователю автоматическое сохранение всего найденного и существенную экономию при возможном последующем использовании коммерческих служб баз данных.

Основные конкуренты (среди российских и иностранных коммерческих служб баз данных, работающих на российском рынке, информационные посредники не включены). В отношении полноты поиска в коммерческих службах баз данных нужно заметить, что по состоянию на конец ноября 2010 года только в России в качестве средств массовой информации официально зарегистрировано более 91 тыс. изданий (впрочем, неясно, сколько выжило после кризиса) и что один только Рамблер предоставляет доступ к не менее 700 млн. русскоязычных документов, т.е. на порядок больше, чем в крупнейших коммерческих базах данных (без документов из Интернет).

2.1.10.2 этап. Поиск аналитики. Готовится быстрый поиск с использованием сервиса "Расширенный поиск" (п.2.1.10.1) аналитических материалов по проблеме потребителя. Под быстрым поиском понимается получение результатов в течение не более 5 секунд. Предполагается, что формулировка проблемы потребителя состоит из не менее чем двух слов без операторов. Такой поиск должен выдать пользователю за одну итерацию содержательные, узкоспециализированные материалы по проблеме с уменьшением объема найденного не менее, чем в 100 раз (в сравнении с число документов, найденных по исходной формулировке проблемы пользователя).
Известно, что наиболее успешные поисковые проекты осуществляют ранжирование результатов (т.н. сортировка по релевантности используется по умолчанию)
1) по индексу цитирования (числу ссылок на материал с авторитетных страниц / сайтов),
2) по авторитетности сайтов
3) и по числу переходов из результатов поиска.
Таким образом, в расчет идет а) фактор раскрученности материала (определяется бюджетом веб-проекта, коммуникативностью автора или искуссностью вэб-мастера) и б) голосование переходами по ссылкам с первых страниц результатов поиска. Известно, что мало кто из пользователей поисковых систем смотрит более 20 документов из доступных тысяч, таким образом эффективность голосования переходами по ссылкам сильно зависима от индекса цитирования. В результате, на первый позициях результатов поиска с сортировкой по умолчанию располагаются общеизвестные материалы, размещенные на старых и раскрученных сайтах. Автор постоянно сталкивается с безсодержательными материалами из Википедии (это незавершенная статья) и Живого Журнала. Поэтому большинство обзорных материалов, особенно малоизвестных, редко цитируемых или опубликованных недавно, не могут попасть в первую выдачу поисковых систем. Следствиями такого положения вещей при использовании традиционного поиска являются
1. проблема т.н. "поискового спама" (выдачи на первых позициях результатов поиска по несложным запросам малоинтересных или совсем неинтересных материалов, "оптимизированных" под заданный поисковый запрос),
2. одинаковая с конкурентами неинформированность о положении вещей и возможных сценариях решения проблемы
3. и невозможность нахождения информации о редких (нестандартных) решениях.
Предлагается искать аналитические материалы с использованием группы сложных запросов, учитывающих специфику структуры и состава обзоров, с частотным анализом результатов, полученных при сортировке по умолчанию (наиболее известные материалы) и сортировке по дате (недавно индексированные материалы). Такой подход, по мнению автора,
1) основывается на предпочтительной структуре и составе требуемых текстов,
2) позволит использовать сильные стороны традиционного ранжирования поисковых систем,
3) полностью исключает поисковый спам, пропуски свежих или малоцитируемых обзоров, а также аналитических материалов из недостаточно "авторитетных" источников.
Примерная процедура поиска аналитики.
1. Ввод и орфографическая проверка формулировки проблемы потребителя, исключение возможных операторов поисковых систем.
2. Исключение на основе словаря стоп-слов несущественных терминов из формулировки пользователя с таким расчетом, чтобы оставить в ней не менее двух слов.
3. Формирование базового запроса для поиска по аналогии. Если такой запрос дает в совокупности менее 20 документов, сервис выдает их в отчет с предложением использовать для кардинального увеличения полноты поиска диалог с виртуальным помощником (п.2.1.10.3) или изменить формулировку проблемы.
4. Лемматизация каждого существенного термина (приведение к нормальной форме, например, шел -> идти) и формирование реестра из не более 5 наиболее часто употребляемых словоформ, обязательно включая словоформу из формулировки потребителя.
5. Подбор 3 синонимов к каждому существенному термину и формирование реестра из не более 5 наиболее часто употребляемых словоформ для каждого синонима.
6. Автору известно более десятка способов поиска обзоров, основанных только и исключительно на характеристиках текстов. Формирование поисковых запросов для реализации каждого метода поиска аналитики с получение результатов поиска по ним (по 1 или 2 отчета по каждому запросу, дающему более удвоенного максимального числа результатов на странице (50 для Рамблер) - с сортировкой по умолчанию и сортировкой по дате).
7. Объединение непустых отчетов с результатами поиска по всем методам с присвоением каждому найденному материалу рейтинга, равного числу отчетов, в которые он вошел. Таким образом, первые позиции в отчете займут материалы, имеющие наибольшее число отличий аналитики от рядовых текстов.
8. Формирование отчета с ранжированием результатов по убыванию рейтинга (п.7).
Состав производимых работ
1. Подготовить функцию орфографической проверки пользовательского запроса и исключения нелитературной лексики, подготовить словарь стоп-слов и функцию отладки базового запроса для поиска аналогий. Продолжительность - 1 месяц. Полезные фунции - возможность оценки достаточности материала для поиска аналитических статей (аналитических материалов в 100 и более раз меньше, чем банальных публикаций, поэтому для поиска аналитики нужен массив из многих сотен, если не тысяч документов).
2. Подготовить функцию лемматизации терминов из пользовательского запроса (приведение к нормальной форме) и построения реестра наиболее часто употребляемых словоформ, а также функцию поиска синонимов к терминам из пользовательского запроса. Продолжительность - 1 месяц. Полезные фунции - подготовка на основе пользовательского запроса материала, достаточного для реализации различных способов поиска аналитических материалов.
3. Подготовить функции поиска аналитических материалов, которые учитывают требования к форме и составу аналитических материалов и которые можно реализовать с использованием поисковой системы Рамблер. Подготовить функцию объединения результатов поиска, полученных с использованием различных методов поиска аналитических материалов, с ранжирования результатов по критерию удовлетворения первых материалов в отчете максимальному числу требований к аналитическим материалам. Продолжительность - 1 месяц. Полезные фунции - см. далее.
Потребительские характеристики.
1) Быстрота знакомства пользователя с проблематикой. Успешное нахождение с первой попытки аналитических материалов позволяет сразу перейти к их изучению, не тратя время на просмотр неинтересных материалов, повторные попытки найти что-либо бесполезное или на диалог с виртуальным помощником (п.2.1.10.3).
2) Осведомленность пользователя по слабо освещенным проблемам. Отсутствие или малое количество результатов поиска может быть мотивом для диалога с виртуальным помощником (п.2.1.10.3). В результате такого диалога пользователь может изучить существенно больше редких материалов по проблеме.
3) Обоснование необходимости слежения за проблематикой и профилактики рецидивов. Выдача обзорных узкотематических документов полезна для оценки критичности и регулярности возникновения проблемы и обоснования необходимости готовить пользовательский метапоиск (п.2.1.10.5) или систему тематического мониторинга Интернет, п.2.1.10.6).
Конкуренты не известны. Услуги поиска бесплатных аналитических материалов не предлагает никто. Предлагается продажа уже готовых коммерческих аналитических отчетов за прошлые периоды, а также и подготовка аналитических отчетов на заказ.

2.1.10.3 этап. Диалоговый помощник полного и точного поиска с использованием поисковой системы Рамблер http://r0.ru (далее – "Помощник").
2.1.10.3.1. Всё общение должно быть реализовано на единственной странице Интернет-сервера исполнителя в форме вопросов Помощника с ответами прошедшего авторизацию пользователя на естественном языке, либо ответами пользователя путем выбора из списка предложенных Помощником альтернативных вариантов. На любом этапе диалога число предлагаемых альтернатив не должно превышать 10 (только в таком случае для будущего управления сервисом может применяться телефонная трубка с кнопочной клавиатурой). При завершении каждого этапа диалога на основе полученного описания понятия (существенный элемент проблемы пользователя) предлагается реестр баз данных для расширения базы открытых источников и уместные готовые сценарии поиска (например, поиск ниш на рынке для любых понятий типа "объект", "товар", "услуга" или проблематизация для любых ситуаций и понятий типа "субъект", "объект", "товар" или "услуга").
2.1.10.3.2. Все вопросы Помощника должны быть минимальными по объему, должны без дополнительных разъяснений быть понятны среднему по успеваемости выпускнику современной российской средней школы и должны сопровождаться всплывающими подсказками для всех слов, могущих вызвать непонимание.
2.1.10.3.3. По результату получения на все заданные вопросы добросовестных ответов пользователя Помощник должен сформировать профессиональный запрос поисковой системы Рамблер, отвечающий следующим требованиям.
• Профессиональный запрос поисковой системы Рамблер должен обеспечить существенное увеличение полноты поиска через Рамблер. Минимальное увеличение числа подходящих документов, найденных запросом Помощника, должно составлять 30% в сравнении числом подходящих документов, полученных с использованием поискового запроса без операторов на основе полной формулировки проблемы, как она дана пользователем.
• Доля подходящих документов, найденных по запросу Помощника, должна составлять не ниже 90% после сортировки найденного по дате (нормативная точность поиска).
2.1.10.3.4. Тестирование заключается в поиске через Рамблер решений собственных проблем или классификации русскоязычных текстов с использованием следующих рубрик Международной классификации товаров и услуг для регистрации знаков (МКТУ 9, Ниццкая классификация, русский текст см. http://www1.fips.ru/wps/portal/IPC/MKTU9_RTF/)
• 400042 Обработка металлов
• 420161 Исследования и разработка новых товаров [для третьих лиц]
• 420193 Экспертиза инженерно-техническая
Каждый тест завершается оценкой в процентах абсолютной точности и относительной полноты поиска через Рамблер. Абсолютная точность поиска – отношение числа подходящих документов на первой странице результатов поиска (желательно после сортировки по дате) к общему числу документов на первой странице, выраженное в процентах. Относительная полнота поиска – отношение числа подходящих документов по профессиональному запросу к поисковой системе к числу подходящих документов по многословному запросу без операторов к этой же поисковой системе, выраженное в процентах. Число подходящих документов – произведение абсолютной точности поиска на общее число найденных документов. Тест считается пройденным удовлетворительно в случае полного соответствия результатов требованиям п. 2.1.10.3.3.
Состав производимых работ
1. Подготовить функцию диалога с пользователем с целью последовательного усечения формулировки проблемы пользователя с оставлением в ней только существенных терминов. Продолжительность - 1 месяц. Полезные фунции - несущественные термины в формулировке проблеме потребителя (пользовательском запросе), такие, например, как "кто", "какой", "зачем", существенно ухудшают характеристики полноты поиска. Их исключение может увеличить число найденных полезных документов в 10 и более раз.
2. Подготовить функцию диалога с пользователем с целью последовательного отбора близких по смыслу слов для каждого оставшегося (существенного) термина из пользовательского запроса (обеспечение полноты поиска на уровне терминов, см. фрагмент методики). Подготовить функции поиска иных частей речи, сокращений, антонимов и паронимов. Продолжительность - 1 месяц. Полезные фунции - расширение поиска синонимами и иным близкими по смыслу словами дает среднее увеличение числа найденных документов в три раза.
3. Подготовить функцию диалога с пользователем с целью подбора настроек ситуационного запроса (запроса из пары терминов) или итогового запроса (запроса из всех существенных терминов) для обеспечения точности поиска, см. фрагмент методики. Продолжительность - 1 месяц. Полезные фунции - диалоговая настройка параметров составного (сложного) запроса дает увеличение точности поиска до нормативного значения 90%, т.е. 9 из 10 найденных документов пользователю нравятся. Прочие потребительские функции см. в следующем абзаце.
Потребительские характеристики. Увеличение полноты и обеспечение точности поиска по базовому профессиональному запросу Рамблер критично при сборе информации для решения плохо разработанных, мало освещенных и сильно зашумленных проблем, при необходимости исчерпывающего и точного однократного поиска, при разработке сервисов "пользовательский метапоиск" (п.2.1.10.5) или систем тематического мониторинга Интернет, п.2.1.10.6).
Конкуренты не известны. Услуги виртуальных помощников формирования профессиональных поисковых запросов не предлагает никто. Предлагаются услуги обучения написанию запросов (бесплатные и платные), услуги формирования поисковых запросов силами персонала коммерческой службы баз данных (иногда бесплатные - Публичная библиотека) и услуги подготовки отчетов по пользовательским запросам (всегда платные).

2.1.10.4 этап. Универсальный метапоиск. Срок выполнения этапа - 8 недель.
2.1.10.4.1. Готовится система преобразования (конвертор) профессиональных поисковых запросов Рамблер в профессиональные запросы Яндекс http://ya.ru/, Гугл http://www.google.ru/, Бинг http://www.bing.com/, Мейл http://go.mail.ru. Такая система позволит дополнительно найти документы, недоступные через Рамблер, но известные другим поисковым системам (это даст увеличение полноты примерно в полтора раза).
2.1.10.4.2. Готовится система экстрагирования результатов поиска по запросу Яндекс, Гугл, Бинг.
2.1.10.4.3. Готовится система объединения результатов поиска по запросам. В случае отказа отдельной поисковой системы в обслуживании сервиса параллельное использование многих поисковых систем делает такой отказ незаметным для пользователя. При сохранении нормативной точности поиска это должно обеспечить дополнительное увеличение числа найденных подходящих документов минимально на 40% (оценка по этому параметру проводится только при числе найденных документов менее 50).
2.1.10.4.4. Тестирование заключается в оценке качества классификации русскоязычных текстов с использованием следующих рубрик
2.1.10.4.4.1. Общероссийского классификатора видов экономической деятельности, продукции и услуг (ОКВЭД http://www.lawint.ru/okved.htm);
40.10.11 Производство электроэнергии тепловыми электростанциями
72.40 Деятельность по созданию и использованию баз данных и информационных ресурсов
74.14 Консультирование по вопросам коммерческой деятельности и управления
2.1.10.4.4.2. Общероссийского классификатора товаров (ОКП http://www.lawint.ru/okp.htm)
24 6380 3 Препараты оптические отбеливающие (белофоры)
31 1029 6 Турбины газовые энергетические для электростанций
Каждый тест завершается численной оценкой в процентах абсолютной точности и относительной полноты поиска для отдельных поисковых систем. Полученные результаты оформляются в таблицу с вычислением сводных среднеарифметических оценок точности и полноты по всей группе поисковых систем. Тест считается пройденным удовлетворительно в случае полного соответствия сводных оценок требованиям п. 2.1.10.3.3.
Потребительские характеристики.
   * Использование для поиска нескольких поисковых систем позволяет увеличить полноту поиска минимальное на 20-40%, что исключительно важно при сборе информации для решения плохоразработанных и малоосвещенных проблем.
   * Высокое качество поиска при параллельной работе с многими поисковыми системами позволяет сохранить доверие пользователя к сервису и обеспечить его лояльность (а в результате - пользование сервисом многие годы).

2.1.10.5 этап. Пользовательский метапоиск. Готовится web-сервис формирования узкотематических метапоисковых сервисов (далее - "Спецпоиск") на основе проектов, подготовленных пользователем в диалоге с Помощником (п. 2.1.10.3). Такой сервис должен выполнять следующие операции:
   * назначить в качестве подставляемого (изменяемого) параметра Спецпоиска новое понятие или одно из понятий уже выполненного с Помощником проекта;
   * сформировать документацию для пользовательского интерфейса Спецпоиска;
   * выбрать или спроектировать дизайн пользовательского интерфейса Спецпоиска (форма ввода пользовательского запроса и генератор отчета).
Потребительские характеристики.
   * Возможность создания индивидуальных и корпоративных сервисов метапоиска значительно снижает квалификационный барьер и стоимость владения информационной системой, облегчает разовый и периодический сбор информации, уменьшает риск утечки информации о целях и стратегии корпорации, повышает скорость и качество решения типовых проблем.
   * Получение инструментария для быстрого разворачивания поисковых сервисов заметно расширяет возможности производства и документирования корпоративных баз знаний и систематизации внешней и корпоративной информации, а также позволяет заказчику чувствовать себя независимым от поставщика базового сервиса.
   * Создание инструментария для быстрого разворачивания поисковых сервисов при условии решенности вопросов оплаты / компенсации творческой работы авторов позволяет привлечь массу инициативных частных лиц и компаний для быстрого расширения фронта охваченных тем и числа партнерских сайтов, предлагающих услуги узкотематического метапоиска.

2.1.10.6 этап. Тематический мониторинг Интернет. На основе проектов, подготовленных пользователем в диалоге с Помощником (п. 2.1.10.3) или в результате использования Спецпоиска (п. 2.1.10.6) готовится сервис слежения за новостями и новыми поступлениями.
Такой сервис должен с заданной пользователем периодичностью или по расписанию осуществлять метапоиск новых поступлений и новостей по теме, разработанной с использованием Помощника или Спецпоиска, проверять найденное на уникальность и доставлять пользователю по удобному каналу (электронная почта, SMS, блог, RSS ...) или по нескольким каналам в приемлемом формате как уведомления о новых поступлениях, так и полные тексты новых поступлений.
Потребительские характеристики.
   * Служебные задания типа слежения за положением вещей, аналогичные должностные обязанности или постоянный личный интерес требуют использования какого-либо планировщика, повторяющихся поисков по многим открытым источникам Интернет с отсеиванием неподходящих или ранее просмотренных материалов по теме. Сервис в автоматическом режиме выполняет все эти функции.
   * При создании профессиональных сайтов, как правило, планируется обновление ленты новостей и другие пополняемые разделы, требующие постоянной доставки свежей информации. Сервис позволяет силами неподготовленного персонала создать произвольное число новостных лент в приемлемом формате (html, rss...), неопределенное число рассылок, дайджестов и т.п. обзорных информационных продуктов (потоков). И, что самое важное, в дальнейшем поддерживать все это в автоматическом или полуавтоматическом режиме.

2.1.10.7. Коммерциализация.
Ограничения первого пилотного проекта - работа на статических реестрах предварительно подобранных и изученных поисковых систем одного языка с невозможностью менять логику отбора материалов при поиске (только аналогии) и одношаговый характер (т.е. найденные результаты не используются автоматически для дальнейшего поиска и нет табличного представления извлеченных результатов поиска).
Коммерческое использование первого пилотного проекта возможно как по подписке (для работы русскоязычных специалистов), так и для выполнения заказов на создание корпоративных сайтов и/или тематических порталов, лент новостей, дайджестов и рассылок.
Развитие первого пилотного проекта возможно в следующих направлениях:
   * прямой тематический метапоиск на ограниченном числе поисковых систем другого языка (например, поиск на английском языке),
   * прямой тематический метапоиск на ограниченном числе поисковых систем конкретной страны мира (например, поиск персональных данных по открытым русскоязычным источникам России),
   * прямой метапоиск на ограниченном числе тематических поисковых систем (например, околопатентной и научно-технической информации на английском языке во всем мире),
   * прямой метапоиск на ограниченном числе поисковых систем по документами определенного типа (например, официальные / правовые русскоязычные документы РФ федерального уровня или официальные русскоязычные документы муниципальных образований выбранного субъекта РФ или финансовая русскоязычная отчетность публичных компаний РФ).

2.1.11. Второй пилотный проект

Готовится Интернет-сервис метапоиска информации на выбранном языке (например, английском) с параллельным использованием сотен динамически (под задачу) выбираемых поисковых систем выбранного сегмента Интернет. За счет диалога на естественном языке такой сервис пригоден для потребителей без знания Интернет (но со знанием выбранного языка и, возможно, предметной области). За счет объединения результатов и автоматизации профессионального использования возможностей всех проблемно-ориентированных поисковых систем выбранного сегмента Интернет обеспечивается беспрецедентно высокая полнота поиска. Чем больше найдено материалов по теме, тем существеннее польза от использования этого сервиса за счет предоставления не всех подряд, а в первую очередь, аналитических (обзорных) статей.
Возможный состав работ второго пилотного проекта:
   * Разработка функциональный классификации поисковых систем Интернет и универсального языка поисковых запросов (подробнее см. отдельную статью).
   * Разработка технологии полностью автоматического функционального тестирования поисковых систем для выбранного языка, верификации, хранения и доступа к результатам такого тестирования.
   * Разработка технологии полностью автоматического содержательного тестирования поисковых систем для выбранного языка и частичной выгрузки их содержимого в централизованное хранилище.
   * Выбор стратегического партнера - производителя технологической поисковой системы для централизованного хранилища (возможные требования см. http://www.knowbase.ru/tech-platform-for-knowledge-base.htm) и/или доработка или разработка собственной поисковой системы для реализации USQL.
   * Доработка технологии прямого поиска (тематического отбора) поисковых систем для решения задачи потребителя.
   * Доработка пользовательских интерфейсов и мастера прямого поиска аналогий для выбранного языка.
Ограничения второго пилотного проекта - работа только на одном языке, невозможность менять логику отбора материалов при поиске, стратегию поиска и одношаговый характер метапоиска.
Развитие второго пилотного проекта возможно в следующих направлениях:
   * прямой метапоиск на всех поисковых системах другого иностранного языка (например, арабского),
   * прямой метапоиск на всех поисковых системах конкретной страны мира (например, Тайваня),
   * прямой метапоиск для тематических классификаторов (например, ОКЭВД или МПК),
   * прямой метапоиск на всех поисковых системах по документами определенного типа (например, тендеры или работа).

2.1.12. Третий пилотный проект

Готовится Интернет-сервис метапоиска информации на любых официальных языках из перечня (например, английский, арабский, бенгальский, испанский, итальянский, китайский, корейский, немецкий, португальский, русский, французский, хинди, японский) с изменяемой стратегией поиска (прямой поиск, обратная стратегия, непрямой поиск по связям.), с изменяемой логикой отбора материала (аналогия, противоречия, фактография) и извлечением результатов для типовых задач с представлением в табличной или иной удобной для анализа форме.
Возможный состав работ третьего пилотного проекта:
   * Доработка мастера прямого поиска аналогий на многих языках.
   * Разработка мастера прямого поиска противоречий.
   * Разработка мастера прямого поиска, извлечения и представления фактографической информации для типовых задач.
   * Изучение непрямых и многошаговых статегий поиска и решения типовых задач основных потребителей (обратная стратегия, поиск по связям, многошаговые сценарии метапоиска.).
   * Разработка мастера обратного поиска аналогий.
   * Разработка мастера непрямого поиска по связям.
   * Поиск, обучение и сертификация национальных партнеров.
   * Доработка бизнес-модели сервиса "Тематический метапоиск", разработка публичной и технологической документации для клиентов, авторов и партнеров.
Фундаментальное ограничение третьего пилотного проекта - невозможность средствами полнотекстового поиска работать с нетекстовыми данными:
   * двоичными файлами (изображения / звуки и их ряды, ноты, прикладные программы.),
   * пространственными объектами (например, структурами Маркуша).
Развитие третьего пилотного проекта возможно в следующих направлениях:
   * метапоиск на поисковых системах всех официальных языков мира,
   * метапоиск только новостей, с сортировкой и ограничением по дате,
   * метапоиск нетекстовых объектов, в том числе по метаданным (EXIF и т.п),
   * генерация метаданных для всех материалов из централизованного хранилища и под заказ,
   * метапоиск с привязкой к географическому положению потребителя и ограничением по местоположению серверов (идеально с использованием классификаторов административно-территориального деления стран мира),
   * коммерческий метапоиск с использованием коммерческих служб баз данных.

2.2. Патентно-информационный сервис

2.2.1. Положение вещей.

  1. Общая глобальная тенденция экономического развития - движение к обществу знаний.

  2. Более 100 государств (из 260) уже имеют патентные ведомства и в различной степени предоставляют охрану отдельных форм промышленной собственности.

  3. Оборот мирового рынка патентно-информационных услуг превышает 10 млрд. долларов в год с устойчивой тенденцией к росту. Основные игроки (конкуренты):

  4. Иностранные и транснациональные корпорации заблаговременно патентуют на перспективных рынках свои и заимствованные технологии (по России в 2006 году это более 50% патентов). Вступление страны в ВТО может заметно усилить уровень судебной защиты прав иностранных патентовладельцев. Проигранные патентные споры чреваты катастрофическими последствиями для конкретного предприятия, в частности, значительными выплатами, ущербом деловой репутации и даже остановкой производства. Заметные расходы предприятия на НИОКР и продвижение нового товара на рынке могут быть напрасны ввиду нарушения прав третьих лиц.

  5. Самым трудным для анализа является мировой фонд патентных документов и патентно-ассоциированных публикаций. Сложность поиска патентной информации определяется

    • низкой подготовкой патентоведов в области полнотекстового поиска и сложностью такого поиска;

    • множественностью классификаторов патентной информации (в принципе, каждая патентная юрисдикция может иметь свой классификатор);

    • объемностью, разнообразием и изменчивостью самих классификаторов патентной информации (сотни тысяч рубрик и тома разъяснений к ним);

    • неполнотой классифицирования (см. выше);

    • критически важный документ может

      • находиться в неизвестной пользователю базе патентной или непатентной информации (при отсутствии межбазового поиска);

      • быть на неизвестном пользователю языке (при отсутствии перевода приемлемого качества);

      • быть доступен только через неизвестный пользователю национальный классификатор патентной информации (при отсутствии средств перехода от одного классификатора к другому);

    •  и анализа найденных материалов и связей между ними.

  6. Оспорить можно практически любой охранный документ, успешность такого оспаривания упирается в доступные ресурсы (технологии, кадры, время, деньги).

2.2.2. Идея патентно-информационного сервиса.

  1. Собрать и оперативно пополнять мировой фонд патентной информации и патентно-ассоциированной литературы и данных из открытых источников (включая Интернет), далее "ФПИ". Общий объем - более 50 млн. патентных документов + 500 миллионов патентно-ассоциированных документов. Динамика пополнения - 500 тыс. патентов в год + 5 млн. патентно-ассоциированных публикаций. Рабочие языки - английский, арабский, испанский, итальянский, китайский, корейский, немецкий, португальский, русский, французский, японский.

  2. Классифицировать ФПИ нужно с использованием официальных международных, национальных и корпоративных классификаторов (даны в порядке приоритетности):

  3. Обновление ФПИ может проводиться в основном по бартеру (обменом официальных документов на услуги классифицирования и ограниченного доступа к ФПИ) и в крайнем случае за счет покупки прав использования материалов.

2.2.3. Патентно-информационные услуги (используются все возможности технологии производства баз знаний)

  1. Доступ к систематизированной патентной и патентно-ассоциированной информации для неподготовленных потребителей

  2. Различные виды патентного поиска на неопределенной баз открытых источников непатентной информации, ее мониторинг и анализ

  3. Оценка известного уровня техники

  4. Оспаривание патентов

  5. Научно-техническое прогнозирование

  6. Подбор интересной технологии для заказчика (для лицензирования или заимствования)

  7. Поиск специалистов - носителей технологий

  8. Оценка патентных рисков НИОКР по конкретным направлениям

  9. Классифицирование информации по заказам третьих лиц с использованием патентных классификаторов

2.3. Сервис поиска и мониторинга работы и проверки частных лиц

Некоторые материалы см. http://www.onlinehr.ru/

2.4. Сервис поиска и анализа правовой информации

Некоторые материалы см. http://www.lawint.ru/

2.5. Сервис поиска и мониторинга информации о тендерах

Некоторые материалы см. http://www.onlineci.ru/hotline5.htm

2.6. Сервис поиска и мониторинга информации о нишах на рынке

Бесплатный сервис для поиска русскоязычной информации о незанятых нишах на рынках см. http://www.onlinemi.ru/nishi-na-rynke-ya.htm

2.7. Сервис информационно-аналитической поддержки инновационных бизнес-инкубаторов

Определения терминов.
Открытые источники – источники информации, доступ к которой возможен на законных основаниях. Различают первичные и вторичные источники. К первичным источникам относятся источники, непосредственно генерирующие информацию: люди (например, эксперты) и различные устройства измерения (в части генерации технических данных). К вторичным источникам относятся различные варианты сохраненной с использованием знаковых систем информации (тексты, звукозаписи, базы данных…).

2.7.1. Введение.
Рыночная ниша проекта – автоматизированное информационно-аналитическое обслуживание внедрения инноваций.
Потенциальные клиенты – частные лица - изобретатели, инновационные и высокотехнологичные предприятия, стартапы, технопарки и бизнес-инкубаторы.
Проблемы клиентов целевой ниши рынка:
• неизвестность клиенту большинства открытых источников, содержащих важную информацию по его проблеме;
• низкая точность результатов поиска по конкретному открытому источнику;
• неполнота поиска по конкретному открытому источнику.
Технологическая уникальность см. http://www.5186364.ru/subject-metasearch.htm#un
Маркетинг см. http://www.5186364.ru/subject-metasearch.htm#ma

2.7.2. Реализация службы.
• Разработка службы должна быть проведена стандартными средствами управления и верстки сайтов Интернет.
• Объем обновляемой информации на входе: не менее 1 млрд. русскоязычных документов. Возможна реализация службы для работы по открытой информации на иных языках (до 210 языков).
• Необходимость оплаты найденной информации и мониторинга ее изменений должна отсутствовать.
• Режим работы - круглосуточно.
• Точность поиска баз данных, содержащих уникальную информацию по проблемам инновационных бизнес-инкубаторов - не ниже 40% (4 из 10 первых в списке автоматически найденных баз данных должны обеспечивать доступ хотя бы к одному уникальному документу, полезному для решения поставленной проблемы).
• Точность выдачи информации по проблемам инновационных бизнес-инкубаторов - не ниже 80% (8 из 10 автоматически найденных документов должны быть полезны для решения поставленной проблемы).
• Полнота выдачи (число документов по конкретной проблеме инновационных бизнес-инкубаторов) - выше любых коммерческих служб баз данных общего назначения: Агентство "Интегрум" http://www.integrum.ru, Публичная Интернет-библиотека http://www.public.ru, Информационная система "Парк" http://park.ru и любых иных.
• Актуальность выдачи (число документов за последнюю неделю по конкретной проблеме инновационных бизнес-инкубаторов) - выше коммерческих служб баз данных (см. выше).
• Подписка на новости по любым проблемам инновационных бизнес-инкубаторов (любые пересечения пользовательских запросов, тем из перечисленных ниже классификаторов и сервисов поиска информации) должна обеспечить полностью автоматический мониторинг изменений.

2.7.3. Требования к интерфейсу конечного пользователя.
Система описания проблем инновационных бизнес-инкубаторов и выдачи информации для их разрешения должна гарантировать
2.7.3.1. достаточно оперативную и понятную для пользователя с законченным средним образованием, имеющего компьютер и доступ в Интернет, возможность получения и интерпретации необходимой информации с возможностью ввода описания проблемы без клавиатуры в диалоге на естественном языке;
2.7.3.2. достаточную для консультанта / аналитика при очном и оперативном решении (10 минут от постановки проблемы до выдачи письменного отчета) возможность разрешения любых (в рамках перечисленных ниже классификаторов) проблем, касающихся инновационных бизнес-инкубаторов;
2.7.3.3. возможность продуктивной работы с автоматической службой без компьютера (голосовой ввод-вывод информации с использованием любой телефонной трубки с 10-кнопочной клавиатурой).

2.7.4. Функциональные возможности службы.
Возможности службы должны быть приемлемы для потребителя с законченным средним образованием.

2.7.4.1. Интерфейс для домохозяек. Отказ от традиционных компьютерных интерфейсов позволяет кардинально снизить квалификацию пользователя и повысить комфортность работы с аналитической службой. Автоматические мастера формирования поисковых запросов позволяют уточнить проблему потребителя в диалоге на естественном языке. Планируется подготовить мастера (виртуальные ассистенты) для реализации следующих базовых стратегий поиска:
2.7.4.1.1. поиск аналогий или прошлого опыта (подробнее см. методику http://www.onlineci.ru/oci-in-how-to.htm),
2.7.4.1.2. поиск упоминаний или цитирований конкретных объектов (подробнее см. методику http://www.osint.ru/oci-in-check.htm);
2.7.4.1.3. поиск "от противного" или противоречий (подробнее см. методику http://www.lawint.ru/lecontra.htm#4);

2.7.4.1.4. иные виртуальные помощники.
Мастер реализации конкретной стратегии поиска - многошаговый сценарий последовательного уточнения потребности пользователя. Кроме реализации основной функции – обеспечение поиска фактографической информации, мастера поиска аналогий и противоречий параллельно выполняют последовательный запуск одношагового сценария поиска проблемно-ориентированных баз данных. В результате "на лету" может формироваться реестр подходящих для решения поставленной задачи баз данных (кроме перечисленных в п.4.2).
Мастер поиска аналогий открывает возможность вести продуктивную работу с 2+ млрд. русскоязычных документов без постановки задачи, подбора "ключевых" слов и знания синтаксиса языка запросов каких-либо поисковых систем или баз данных (например, перечисленных в п.4.2.). Можно решать произвольно сформулированные проблемы разной степени абстрактности, например, вести функционально-ориентированный поиск (для поддержки технического творчества). Кроме всего прочего, обеспечивается проверка гипотез и нахождение нестандартных решений "от противного". Можно находить открытую информацию о конкретных объектах (экспертах, заказчиках, предприятиях, товарах, услугах, территориях, оборудовании, технологиях, производственных единицах и т.п.). Использование мастеров позволяет кардинально увеличить полноту и точность работы готовых поисковых сервисов (см. п.4.4.) и, что самое главное, не разочаровать потребителя. Таким образом, у потребителя формируется понимание простоты, продуктивности и уникальности сервиса и устойчивое желание им пользоваться.

2.7.4.2. Трансляторы поисковых запросов. Значительно (в 1,5-3,0 раза) повышают объем найденного автоматические преобразователи (трансляторы) сложных поисковых запросов (сформированных мастером п.4.1.) в запросы следующих бесплатных поисковых систем:
2.7.4.2.1. Поиск@Mail.ru http://mail.ru/;
2.7.4.2.2. Яндекс http://www.yandex.ru/;
2.7.4.2.3. Bing http://bing.com/;
2.7.4.2.4. Google http://www.google.ru/.
При необходимости готовятся трансляторы поисковых запросов для следующих коммерческих служб баз данных:
• Агентство "Интегрум" http://www.integrum.ru,
• Публичная Интернет-библиотека http://www.public.ru
• и других по выбору Заказчика.
Результаты поиска с перечисленных выше поисковых систем объединяются в единый отчет.

2.7.4.3. Классификационный поиск. Служба должна круглосуточно обеспечивать возможность автоматической выборки и мониторинга бесплатной информации с использованием подходящих рубрик или фрагментов группы классификаторов.
2.7.4.3.1. Международные классификаторы
2.7.4.3.1.1. Классификаторы патентов
2.7.4.3.1.1.1. Международная патентная классификация (МПК 9) http://www.wipo.int/classifications/ipc/ipc8/?lang=en  / http://www1.fips.ru/wps/wcm/connect/content_ru/ru/inform_resources/international_classification/Inventions/)
• B82B Наноструктуры; их изготовление или обработка (нанотехнологии)
2.7.4.3.1.1.2. Европейская патентная классификация http://v3.espacenet.com/eclasrch
2.7.4.3.1.1.3. Патентная классификация США http://www.uspto.gov/web/patents/classification/
2.7.4.3.1.1.4. Патентная классификация Японии / Patent Map Guidance JPO http://www5.ipdl.inpit.go.jp/pmgs1/pmgs1/pmgs_E
2.7.4.3.1.1.5. Корпоративный Индекс мировых патентов Дервент / Derwent World Patents Index http://science.thomsonreuters.com/support/patents/dwpiref/reftools/classification/
2.7.4.3.1.2. Классификаторы прочих объектов интеллектуальной собственности
2.7.4.3.1.2.1. Международная классификация товаров и услуг для регистрации знаков (МКТУ 9, Ниццкая классификация) http://www.wipo.int/classifications/nivilo/nice/index.htm?lang=EN / http://www1.fips.ru/wps/portal/IPC/MKTU9_RTF/)
• 400042 Обработка металлов
• 420161 Исследования и разработка новых товаров [для третьих лиц]
• 420040 Исследования технические
• 420193 Экспертиза инженерно-техническая
2.7.4.3.1.2.2. Международная классификация изобразительных элементов товарных знаков (Венская классификация) http://www.wipo.int/classifications/nivilo/vienna/index.htm?lang=EN
2.7.4.3.1.2.3. Международная классификация промышленных образцов (Локарнская классификация) http://www.wipo.int/classifications/nivilo/locarno/index.htm?lang=EN / http://www.fips.ru/mkpo/
2.7.4.3.2. Российские классификаторы
2.7.4.3.2.1. Общероссийского классификатора видов экономической деятельности, продукции и услуг (ОКВЭД http://www.lawint.ru/okved.htm);
• 40.10.11 Производство электроэнергии тепловыми электростанциями
• 72.40 Деятельность по созданию и использованию баз данных и информационных ресурсов
• 74.14 Консультирование по вопросам коммерческой деятельности и управления
2.7.4.3.2.2. Общероссийского классификатора товаров (ОКП http://www.lawint.ru/okp.htm);
• 02 5720 2 Присадки к топливу
• 23 2000 3 Пигменты
• 24 6380 3 Препараты оптические отбеливающие (белофоры)
• 31 1029 6 Турбины газовые энергетические для электростанций
• 93 3770 2 Средства противовирусные
2.7.4.3.2.3. Общероссийского классификатора услуг населению (ОКУН http://www.lawint.ru/okun.htm);
• 115000 7 Обучение населения на курсах
• 123106 3 Хранение сельскохозяйственной продукции в холодильниках
2.7.4.3.2.4. Общероссийского классификатора объектов административно-территориального деления (ОКАТО http://www.lawint.ru/okato.htm);
• 01 2 Алтайский край г Барнаул;
• 04 8 Красноярский край г Красноярск;
• 05 9 Приморский край г Владивосток;
• 14 9 Белгородская область г Белгород;
• 20 2 Воронежская область г Воронеж;
• 50 5 Новосибирская область г Новосибирск;
• 57 8 Пермская область г Пермь;
• 63 1 Саратовская область г Саратов;
• 68 0 Тамбовская область г Тамбов;
• 69 2 Томская область г Томск;
• 92 2 Татарстан г Казань;
• и другие субъекты РФ.
2.7.4.3.3. иных национальных, отраслевых, корпоративных и пользовательских классификаторов и реестров:
• Биотехнологии

2.7.4.4. Тематический поиск. Возможный реестр сервисов поиска (отбора, фильтрации) информации (поисковых сценариев, подробнее см. http://www.5186364.ru/parallel-search-results-script.htm) для разрешения проблем инновационных бизнес-инкубаторов:
2.7.4.4.1. поиск информации о возможных нишах на рынке (см. работающий прототип для Яндекс http://www.onlinemi.ru/nishi-na-rynke-ya.htm);
2.7.4.4.2. поиск информации о возможных проблемах технологий, оборудования, клиентов, товаров и т.п. (см. работающий заполнитель поисковых шаблонов Яндекс http://www.osint.ru/problematization.htm);
2.7.4.4.3. поиск информации о носителях технологий;
2.7.4.4.4. поиск цен:
-- оптовый / розничный сбыт продукции (закупочные цены);
-- закупки техники, комплектующих, расходных материалов, э/энергии и т.п.;
2.7.4.4.5. поиск информации о потенциальных потребителях;
2.7.4.4.6. поиск информации о потенциальных партнерах в кооперации;
2.7.4.4.7. поиск информации для проверки: контрагентов; персонала; клиентов и т.п.
2.7.4.4.8. поиск тендеров;
2.7.4.4.9. поиск информации об условиях кредитования / инвестициях / грантах;
2.7.4.4.10. поиск информации об успешном опыте работы инновационных бизнес-инкубаторов;
2.7.4.4.11. функционально-ориентированный поиск информации для технического творчества;
2.7.4.4.12. любые иные функции для выборки информации по направлению "Исследование рисков и поиск возможностей через Интернет" (подробнее см. http://www.onlineci.ru/32-dir.htm)
2.7.4.4.13. любые иные функции для выборки информации по направлению "Юридические исследования через Интернет" (подробнее см. http://www.lawint.ru/31-dir.htm);
2.7.4.4.14. любые иные функции для выборки информации по направлению "Аналитические исследования по открытым источникам" (подробнее см. http://www.osint.ru/39-dir.htm);
2.7.4.4.15. иные пользовательские функции (по требованию).

2.7.5. Поддержка автоматической службы консультирования по проблемам инновационных бизнес-инкубаторов в течение календарного года с момента внесения полной оплаты работ должна бесплатно осуществляться в следующих формах:
2.7.5.1. горячая линия для штатных консультантов инновационных бизнес-инкубаторов (письменный ответ на письменный вопрос в течение 2 рабочих дней);
2.7.5.2. исправление выявленных ошибок (поисковые запросы, интерфейс конечного пользователя, сценарии поиска и т.п.);
2.7.5.3. руководства пользователя к мастеру формирования запросов и каждому сервису поиска, достаточные для самообучения заинтересованных лиц с законченным средним образованием.
Кроме того, исполнитель должен обеспечить возможность как платного очного или дистанционного обучения и сертификации заинтересованных лиц, так и их консультирования.

2.7.6. Авторские права сохраняются за исполнителями и обозначаются на каждой странице службы и результатов ее работы.

2.7.7. Риски проекта и ограничение ответственности исполнителя. Прекращение работы отдельной поисковой системы русского сегмента Интернет или кардинальное ухудшение ее функциональности (в части возможностей поиска) исполнитель не может предвидеть и, соответственно, не несет ответственность за последствия такого прекращения или ухудшения для службы информационно-аналитического обеспечения консультирования инновационных бизнес-инкубаторов. Риск одновременного отказа или ухудшения функциональности всех поисковых систем п.2.7.4.2. минимален.
 

2.8. Национальный бизнес-архив

Идея проекта состоит в создании архива резервных копий всех редакций общедоступных текстов, включающих упоминание предприятия и снабженных средствами подтверждения их юридической значимости (например, электронная подпись). При возникновении любого рода проблем с указанным предприятием, сервис предоставляет заинтересованным лицам за плату для анализа в процессе следствия и использования в качестве доказательства в суде юридические факты (приемлемые доказательства в электронной форме и/или показания экспертов на основании информации из национального бизнес-архива).

2.9. Корпоративная база знаний (тиражируемое ядро)

Некоторые материалы см. http://www.knowbase.ru/knowledge-management-technologies.htm#722

Оглавление
1. Возможности и проблемы производства баз знаний на основе неструктурированной информации
1.1. Положение вещей
1.2. Некоторые возможности
1.3. Проблемы
1.4. Бизнес-модель

2. Бизнесы на основе технологии производства баз знаний

2.1. Сервис тематического метапоиска и мониторинга по неопределенной базе открытых источников
2.1.1. Введение
2.1.2. Процедура развития и функционирования
   2.1.2.1. Учет доступных форм для ввода поисковых запросов
   2.1.2.2. Функциональное тестирование поисковой системы
   2.1.2.3. Содержательное тестирование поисковой системы
      2.1.2.3.1. Собственная база текстов
   2.1.2.4. Формирование реестра баз данных для конкретного поиска
   2.1.2.5. Выполнение запроса на тематический метапоиск (параллельный поиск)
   2.1.2.6. Развитие сервиса
2.1.3. Возможные бесплатные услуги
2.1.4. Возможные коммерческие сервисы
2.1.5. Конкурирующие проекты
2.1.6. Уникальность
2.1.7. Маркетинг и связи с общественностью
2.1.8. Защита и оплата использования объектов интеллектуальной собственности
2.1.9. Проблемы и ограничения
2.1.10. Первый пилотный проект
  2.1.10.1. Расширенный поиск Состав производимых работ Потребительские характеристики Основные конкуренты
  2.1.10.2. Поиск аналитики Состав производимых работ Потребительские характеристики Конкуренты
  2.1.10.3. Диалоговый помощник Состав производимых работ Потребительские характеристики Конкуренты
  2.1.10.4. Универсальный метапоиск
  2.1.10.5. Пользовательский метапоиск
  2.1.10.6. Тематический мониторинг Интернет
  2.1.10.7. Коммерциализация
2.1.11. Второй пилотный проект
2.1.12. Третий пилотный проект
2.2. Патентно-информационный сервис
2.2.1. Положение вещей
2.2.2. Идея
2.2.3. Услуги
2.3. Сервис поиска и мониторинга работы и проверки частных лиц
2.4. Сервис поиска и анализа правовой информации
2.5. Сервис поиска и мониторинга информации о тендерах
2.6. Сервис поиска и мониторинга информации о нишах на рынке
2.7. Сервис информационно-аналитической поддержки инновационных бизнес-инкубаторов
Определения терминов.
2.7.1. Введение.
2.7.2. Реализация службы.
2.7.3. Требования к интерфейсу конечного пользователя.
2.7.4. Функциональные возможности службы.
   2.7.4.1. Интерфейс для домохозяек.
   2.7.4.2. Трансляторы поисковых запросов.
   2.7.4.3. Классификационный поиск.
   2.7.4.4. Тематический поиск.
2.7.5. Поддержка автоматической службы консультирования
2.7.6. Авторские права
2.7.7. Риски проекта
2.8. Национальный бизнес-архив
2.9. Корпоративная база знаний (тиражируемое ядро)

Опубликовано по адресу: http://www.knowbase.ru/knowbase-business.htm
Дата последнего редактирования 10.04.2017
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Исследование рисков и поиск возможностей через Интернет
Невидимый Интернет для бизнеса
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке