информационный центр

Телефон: + 7 (495) 104-44-06
E-mail: info@srcsoft.ru

ON-LINE Консультации

Главная страница  »  Обзоры  »  Электронная библиотека  »  Интересные статьи  »  Семантический архив

Семантический архив

Ответы на самые распространенные вопросы, которые интересуют наших Заказчиков, и те, которые они задают в процессе переговоров

 Вопрос:
Как в Системе реализована доставка информации?

Ответ:
Информация в систему заносится следующими основными способами.

Из имеющегося архива на локальном компьютере или любом другом электронном носителе.
Вручную из сети Интернет  или любого документа с помощью специальной утилиты
Автоматическая доставка из сети Интернет. А именно: в ИАС «Семантический архив» встроен компонент – так называемый «движок интернет-роботов». Он устанавливается на компьютер, имеющий выход в Интернет, и в своей базе данных хранит список «каналов» (настроек на web-ресурсы самого различного плана). По расписанию «каналы» обеспечивают доставку информации с настроенных сайтов. Все файлы сохраняются в «промежуточной» базе данных.
Почта
Перенос информации из структурированных баз данных.
В свою очередь, в системе «Семантический архив» можно описать набор фильтров. Каждый фильтр – это список названий объектов интереса (компаний, персон, ключевых понятий) с синонимами, то есть список слов, тексты с которыми должны попасть в Систему. В базу данных системы «Семантический архив» из промежуточной базы данных забираются только те статьи, которые удовлетворяют требованиям фильтра. Остальные файлы из «промежуточной» базы периодически удаляются или могут архивироваться для повторной обработки.

 Первые четыре способа в большей степени касаются доставки неструктурированной текстовой информации. Пятый способ информационного наполнения Системы предназначен для обработки табличных данных – это импорт информации из баз данных, переведенных в формат Microsoft SQL Server. Для этого в системе реализован компонент «Сквозной поиск» (это аналог «Глобального поиска» в системе Cronos Plus).

Вопрос:
Что понимается под обработкой информации в Системе? Каким образом это происходит?

Ответ:
Система представляет собой инструмент работы с объектно-ориентированной моделью базы данных. Структурная основа этой базы данных – иерархия типов связей и отношений. Эта модель позволяет описать всю совокупность событий, фактов, отношений окружающего мира (как частный случай – позволяет описать бизнес-среду).
Обработка неструктурированной информации: используя соответствующий инструментарий, пользователи, работающие с Системой, автоматически или в автоматизированном режиме выделяют из текста фактографические данные, которые заносятся в базу данных, она называется «Внутренняя база досье». Далее аналитики, посредством различных запросов, находят нужные для отчета объекты и факты и на их основе делают отчет в актуальном для получающего этот отчет виде.

Обработка структурированной информации: посредством компонента Системы «Сквозной поиск» аналитик получает и обрабатывает информацию об объекте интереса из всей совокупности баз данных, хранящихся на сервере(ах), и переносит эту информацию во «Внутреннюю базу досье». Полученные данные автоматически «ложатся» в структуру «Внутренней базы досье» и связываются с ранее занесенными данными в базе.

 Вопрос:
Комплектуется ли Система информационными базами данных?

Ответ:
Компания «Аналитические бизнес решения» является разработчиком оболочки для хранения текстовой и табличной информации. Но поскольку компания «Аналитические бизнес решения» в том числе оказывает своим Заказчикам и информационные услуги, нами проводятся консультации по приобретению интересующих БД.

Вопрос:
Необходим ли какой-то свой формат структурированных данных (баз данных) для работы с Системой?

Ответ:
Да, с системой «Семантический архив» работают базы данных в формате  Microsoft SQL Server. Для этого в Поставке предусмотрен универсальный конвертор для наиболее распространенных форматов баз. При желании Заказчика компания осуществляет конвертацию баз данных.

 

Вопрос:
Может ли Система работать с текстами на украинском языке, мультиязычными документами?


Ответ:
Так как система построена над СУБД MS SQL 2000/2005, то она поддерживает литерацию и морфологию шести европейских языков (английского, немецкого, французского, итальянского, испанского, португальского) и русского языка. Для поддержки украинского языка необходимо купить дополнительный plug-in. Он стоит около $500.

 

Вопрос:
Какие возможности полнотекстового поиска реализованы в Системе?

Ответ:
Инструмент полнотекстового поиска использует практически все возможности, предоставляемые MS SQL Server. В запросе можно применять логические операторы и оператор близости, а также осуществлять поиск по начальным символам искомых слов.

Вопрос:
Имеется ли в системе возможность задания запросов к Системе на каком-нибудь языке?

Ответ:
Специально для ИАС «Семантический архив» разработан язык запросов, который называется формальным языком описания задач FTDL (Formal Task Description Language). FTDL-запросы формулируются в терминах информационной модели и позволяют получить как список экземпляров, так и статистику по одному или двум параметрам (т.е. вместо списка экземпляров возвращается количество найденных экземпляров). В обоих этих случаях поиск может осуществляться как по одному типу экземпляров, так и по цепочке связанных типов. При этом для каждого типа в цепочке могут накладываться условия по набору из нескольких свойств с логикой "И", "ИЛИ", "НЕ" и набору логических скобок. Одним из преимуществ применения FTDL-запросов является возможность использовать условия с текущей датой вместо указания конкретной даты (т.е. запросы «за последний день», «за последнюю неделю»).

Вопрос:
Какие виды отчетов можно формировать в ИАС «Семантический архив»? Предусмотрены ли в базовой поставке Системы элементы деловой графики (карты, логотипы, флаги), используемые при формировании отчетов?

Ответ:
Система позволяет создавать следующие типы отчетов:
Семантическая сеть (схема) – создается во встроенном редакторе схем, где можно поместить в качестве элементов графического оформления линии, различные геометрические фигуры и любой графический файл (иконку, фотографию и пр.). При построении семантической сети в Системе пользователь может сохранить такую схему сразу в bmp-файл или выгрузить в формат MS VISIO, для которого уже созданы соответствующие шаблоны отчетов.
Отчет в формате Crystal Report. Шаблон такого отчета создается в программе Crystal Report Studio, где проектируется его внешний вид и пишутся запросы к базе данных. Практическое применение такого шаблона в ИАС «Семантический архив» – создание формальных досье на организации и персоны. Но есть опыт создания и более сложных (многоуровневых) отчетов для целей департамента по маркетингу одного из наших Заказчиков.
Отчет в формате MS EXCEL. Любые данные из системы можно выгрузить в Excel и там добавить любые элементы (например, если выгружены цены на товары по датам,  построить график изменения цен).
Отчет в формате MS WORD.  В Систему встроен мощный генератор отчетов в этом формате. При генерации отчета можно указать шаблонный doc-файл (там могут быть логотипы, колонтитулы и пр.). В частности, при экспорте статей в таком отчете при необходимости автоматически строится цветной график, отражающий статистику встречаемости слов или словосочетаний.

Вопрос:
Реализована ли в Системе возможность построения тематических иерархий на основе авторубрикаций? Есть ли механизм построения иерархий связанных сущностей (тем, объектов, действий) в режиме реального времени – так называемых тематических «деревьев» и «рядов» – для отслеживания активности сущностей в определенные временные интервалы?

Ответ:
В Системе есть возможность создания древовидных справочников (например, есть тематический рубрикатор «Политика – Внешняя политика – Арабо-израильский конфликт»; тематический рубрикатор «Политика–Внутренняя политика» и т.д.). Это дает возможность пользователю проводить ручную рубрикацию документов. При визуальном построении запроса Система ищет все записи, удовлетворяющие условию запроса, с учетом иерархии (например, необходимо найти статьи по теме «внешняя политика», в этом случае Система найдет также статьи, относящиеся и к нижележащим рубрикам).
 Для организации авторубрикации в Системе реализована возможность построения набора сохраненных запросов, которые группируются по папкам и подпапкам. Каждый такой запрос производит полнотекстовый поиск в документах по условию. Пример: запрос типа «Арабо-израильский конфликт» может искать слова «палестинские боевики» И [«теракт» ИЛИ «похищение»] и пр. Поиск возможен с применением оператора близости слов.

 Для реализации более мощного механизма авторубрикации (например, на основе обучающихся нейронных сетей) есть возможность использовать в Системе компоненты типа «Медиалингва Классификатор 2.0» или аналогичные продукты от компаний Hummingbird и Convera.

Вопрос:
Как сказывается на скорости работы сервера одновременное решение задач по обращению к хранилищу нескольких сервисов: интернет-роботов, системы обработки текста и пр.? Есть ли необходимость распределения нагрузки (например: сервер-хранилище, сервер обработки, сервер интернет-роботов)?

Ответ:
При интенсивной работе созданную «Внутреннюю базу досье» стоит вынести на один сервер (на нем будет работать индексация добавляемых документов, выделение из документов объектов и фактов, отработка запросов пользователей), а все архивные базы – на другой. Важно отметить, что поставляемая утилита «Сквозной поиск» позволяет искать искомую фразу или объект параллельно в разных базах, которые могут находиться на различных серверах.

 

Вопрос:
Предусмотрен ли в системе механизм обеспечения отказоустойчивости, восстановления данных после сбоев, а также резервное хранение? Есть ли возможность на уровне системы разграничить права доступа к документам или сервисам?

Ответ:
Система «Семантический архив» представляет собой клиент-серверное приложение, работающее с СУБД MS SQL Server 2000/2005, соответственно, база данных этой системы – это база данных формата MS SQL.  Таким образом, созданную и наполняемую базу данных системный администратор имеет возможность регулярно "бэкапить", что дает возможность восстановить данные после сбоев. К ней также применимы все другие операции, поддерживаемые данной СУБД: шифрование, индексация отдельных таблиц и свойств, разграничение прав доступа к отдельным таблицам.

Вопрос:
Как в Системе реализована безопасность доступа, в том числе защита от пиратского копирования?

Ответ:
В рамках корпоративного использования разделение прав доступа реализуется инструментами Microsoft SQL Server.
От переноса программного продукта и его использования вне установленного у Заказчика экземпляра Система защищена индивидуальным USB-ключом, который регламентирует как количество пользователей, так и срок эксплуатации Системы (коммерческая поставка предполагает бессрочное эксплуатирование USB-ключа). USB-ключ при потере не восстанавливается.

Другой аспект этого вопроса – инновационный характер разработок Системы. Другими словами, без обновления данного программного продукта силами разработчиков Система достаточно быстро может потерять коммерческую привлекательность. Это в определенной степени обессмысливает теоретическую возможность взлома USB-ключа.