Rus  Eng 
   
Программы О компании Поддержка  
   
 
  Главная страница / О компании / Наши публикации
Университетам и школам
 
Библиотекам
 
Наши партнeры
 
Наши публикации
Автоматизация процесса создания цифровых архивов научно-технической документации
Роль новых технологий поиска информации в образовании
Компьютерная программа "Антиплагиатор"
Проект разработки метода корреляционной индексации текстовой и графической информации.
Технология хранения и обработки электронных документов с элементами интеллектуального поиска
Полнотекстовая технология поиска документов “Незабудка”
Поиск и анализ графической информации. Идентификации личности по изображению лица
Создание электронных образовательных ресурсов в условиях традиционной отраслевой библиотеки
Электронный тренажёр для обучения физике
Программный комплекс по созданию архивов научно-технической документации с возможностью размещения на съемных носителях и в Интернете
Поиск и анализ похожих документов в информационно-поисковой системе, базирующийся на методе корреляционной полнотекстовой индексации
Использование программы ССТ PUBLISHER для создания электронного архива Соровского образовательного журнала
Роль новых технологий поиска информации в образовании
Динамический метод фильтрации интернет сайтов с агрессивным содержанием.
Системы обнаружения, сопровождения и кластеризации объектов на основе нейроноподобного кодирования
Поиск и анализ похожих документов в информационно-поисковой системе, базирующийся на методе корреляционной полнотекстовой индексации:

ПОИСК И АНАЛИЗ ПОХОЖИХ ДОКУМЕНТОВ В ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЕ, БАЗИРУЮЩИЙСЯ НА МЕТОДЕ КОРРЕЛЯЦИОННОЙ ПОЛНОТЕКСТОВОЙ ИНДЕКСАЦИИ.

Калафати Ю.Д., к.ф.-м.н., Генеральный директор «ССТ – Технология хаоса», Москва,

http://www.controlchaostech.com

Ссылка: http://e-expo.ru/docs/sem/chaos_2.pdf

 Поиск похожих документов в электронных архивах является новым многообещающим

направлением развития информационных систем. Метод корреляционной индексации при

создании индекса архива электронных документов учитывает корреляции между словами или

ASCII символами. Учет корреляций позволяет при индексации автоматически выявлять

терминологию (слова и/ или последовательности слов), характерную для документов, записанных

в архив. Такой подход позволил разработать поиск похожих документов, при котором в качестве

поискового запроса может использоваться полная страница текста. Поиск похожих документов

дает возможность не только искать необходимую информацию, но анализировать и

классифицировать эту информацию.

Основанные на применении метода корреляционной индексации подходы к созданию

поисково-аналитических систем для современных хранилищ электронной информации, позволяют

обеспечить высокую релевантность, сократить временные затраты поиска определять в архиве

дубликаты документов, искать плагиат. Это особенно важно для баз данных с научно-технической

информацией.

В случае индексации текстовой информации с учетом корреляций между ASCII

символами поиск похожих документов является языковонезависимым.

Поисковой системе в качестве поискового запроса может быть передано предложение на

естественном языке, абзац или даже целая страница текста. Поисковый запрос, переданный на

вход процедуры поиска похожего, кодируется при помощи существующего расширенного

алфавита.

Для каждой проиндексированной страницы на основе полученного списка символов

считаем сумму:

где lengthk - это длина в ASCII символах k-ого элемента списка символов, countk

количество k-ого элемента списка на странице i, а α и β – внешние параметры. Далее

упорядочиваем полученные значения Pi и страницы с самыми большими значениями выдаем

пользователю в качестве результатов поиска.

Программная реализация и применение.

В настоящее время описанный выше алгоритм обработки текста и алгоритмы

полнотекстового поиска реализованы и используются в программных продуктах CCT Archive и

CCT Publisher компании Controlling Chaos Technologies. Программные продукты предназначены

для создания электронных архивов неструктурированных документов с возможностью

полнотекстового поиска информации, а также для создания и подготовки к изданию на CD и DVD

электронных книг, энциклопедий, архивов журналов. Примерами успешного использования

программных продуктов стали электронные архивы журналов «Химия и Жизнь», «Квант»,

«Знание-Сила».

На рис. 2 приведен пример результатов работы поисковой системы на примере

электронного архива журнала «Квант». Вверху слева представлен запрос на естественном языке,

по которому осуществлялся поиск, ниже изображен ранжированный список найденных

документов. Справа – страница документа с выделенными входами.

Рис. 2. Пример результатов работы поисковой системы на примере электронного архива

Ниже приведены основные временные характеристики, которых удалось достичь при

нынешней программной реализации описанных здесь алгоритмов. Все цифры были получены на

обычном персональном компьютере, под размером текста понимается количество ASCII символов

в тексте, а не размер содержащих этот текст файлов.

Максимальный размер индексируемого текста: ~100 мБ

Скорость индексации тексов: ~ 1 мБ в мин. (средняя скорость при индексации 100 мБ)

Время открытия индекса: не более 1 мин.

Время поиска: порядка 1 сек.

Следует отметить, что разрабатываемая технология является языково независимой и

может быть настроена на любые языковые системы. Развитие идей, заложенных в процедуру

поиска похожего, позволяет решать такие задачи, как поиск плагиата, рубрикация и кластеризация

текстов, фильтрация Интернет контента. Последние исследования показали, что основные

принципы, заложенные в метод поиска текстовых документов, могут быть успешно перенесены

для поиска похожих изображений.


  Copyright Controlling Chaos Technologies 2001-2010 Разработка и поддержка - Auroom Group