Rus  Eng 
   
Программы О компании Поддержка  
   
 
  Главная страница / О компании / Наши публикации
Университетам и школам
 
Библиотекам
 
Наши партнeры
 
Наши публикации
Автоматизация процесса создания цифровых архивов научно-технической документации
Роль новых технологий поиска информации в образовании
Компьютерная программа "Антиплагиатор"
Проект разработки метода корреляционной индексации текстовой и графической информации.
Технология хранения и обработки электронных документов с элементами интеллектуального поиска
Полнотекстовая технология поиска документов “Незабудка”
Поиск и анализ графической информации. Идентификации личности по изображению лица
Создание электронных образовательных ресурсов в условиях традиционной отраслевой библиотеки
Электронный тренажёр для обучения физике
Программный комплекс по созданию архивов научно-технической документации с возможностью размещения на съемных носителях и в Интернете
Поиск и анализ похожих документов в информационно-поисковой системе, базирующийся на методе корреляционной полнотекстовой индексации
Использование программы ССТ PUBLISHER для создания электронного архива Соровского образовательного журнала
Роль новых технологий поиска информации в образовании
Динамический метод фильтрации интернет сайтов с агрессивным содержанием.
Системы обнаружения, сопровождения и кластеризации объектов на основе нейроноподобного кодирования
Проект разработки метода корреляционной индексации текстовой и графической информации.:
Данный проект был выполнен совместно с Федеральным агенством по науке и инновацям (Роснаукой).

Цель проекта

Разработка метода корреляционной индексации текстовой и графической информации для анализа научно-технической документации. В результате выполнения проекта был разработан новый универсальный метод корреляционной индексации информации. Универсальность метода состоит в его способности индексировать и в процессе индексации 
 как текстовой, так и графической информации. 

В рамках метода корреляционной индексации разработано два варианта индексации: 
индексация с учетом корреляций между ASCII символами,
индексация с учетом корреляций между словами.

Метод корреляционной индексации текстовой информации.

Предположим, на индексацию передана первая страница, представленная следующей строкой текста:
a b с a с a d a b a с a b с (1)
1. В качестве первого шага к исходному алфавиту добавляется символ– признак начала страницы. Этот символ будет иметь номер 256. Преобразуем исходный текст в последовательность символов и добавляем символ 256 в конец последовательности символов. Для того, чтобы избавиться от избыточной информации в исходной последовательности вводится понятие расширенного алфавита. Каждый элемент расширенного алфавита создается на основе двух уже существующих символов. Например, если необходимо избавиться от повторяющейся последовательности символов a b c то вводится новый символ 257 = ‘a’ + ‘b’ и 258 = 257 + ‘c’ и с его помощью осуществляется замена в исходном тексте последовательность a b c символом 258. Проиндексируем текст (1) на основе изложенной выше идеи. Пытаемся искать в исходном тексте повторяющиеся пары символов. Берем пару символов из приведенного выше примера – пару a b.Так как данная пара символов повторяется в тексте больше одного раза, добавляем эту пару в расширенный алфавит:

2.Символ 257 = ‘a’ + ‘b’

3.Преобразуем исходную последовательность символов, заменив пару символов a b новым символом с индексом 257. 

Получаем: 257 с a с a d 257 a с 257 с 256 (2)
4.Далее пытаемся искать повторение других пар и при нахождении повторения создаем новые символы. На основе этой последовательности, создаем массив описания страницы, каждый элемент которого состоит из трех символов: an, an+1, an+2. Далее строится дерево, которое для каждого элемента массива позволяет определить, какие элементы слева от него, а какие справа. Данный метод позволяет производить быстрый поиск пары символов.Необходимым условием для работоспособности системы является уникальность пары (an, an+1)в созданном массиве.

Программно-реализованный алгоритм корреляционной индексации

обеспечивает на современном процессоре (Pentium IV) работу с электронным архивом научно-технических документов различных форматов общим объемом 10 - 100 Гб, при объеме текста до 1 Гб;

скорость индексации текстовой информации на процессорах с тактовой частотой от 1.5 до 3 Ггц меняется от 8 до 20 Мб/мин., что значительно превышает параметры, заявленные в Техническом задании;

позволяет индексировать файлы форматов ТХТ, RTF, HTML, DOC, а также PDF, TIF, JPEG. Дополнительно включен в список индексируемых форматов текстографический формат DjVu; 

Пример формирования символов расширенного алфавита в процессе индексации текстов

Проиндексирована одна страница текста
И][О][Н][О][С][Е][ЛЕКТ][И][В][Н][Ы][Е][ ][Э][ЛЕКТ][Р][О][Д][Ы][][Н][. ][В. ][Ш][В][Е][Д][Е][Н][Е]
[М][о][ск][ов][ск][ий][ г][ос][у][да][рс][тве][нны][й ][у][ни][ве][рс][ит][ет][][им][. М][.][В. ][Л][ом][он][ос][ова][] 
[С][ с][ер][ед][и][ны][ ][6][0-х годов ][з][а ][ру][б][еж][ом][,][ а][ с][ ][7][0-х годов ][в ][на][ш][ей][ ст][ра][не][ ст][ал][а ][б][ур][но][ раз][ви][вать][ся ][нова][я ][обла][ст][ь][ ][ф][изи][ко][-][х][ими][чески][х ][метод][ов][ анализ][а -][ иономет][ри][я. ][Э][то][т ][метод][ ос][нова][н][ н][а ][раз][р][аб][от][к][е][, ][из][у][че][нии][ и][ пра][кт][ическ][ом][ использова][нии][ различ][ного][ р][од][а и][он][оселе][ктивных ][элект][родов][ (][ИСЭ][).]

Проиндексирован 1 Мб текстов (примерно 500 страниц) 
[ИОНО][СЕЛЕКТИВНЫЕ][ ЭЛЕКТРОДЫ][Н][. В][. ШВЕ][ДЕ][НЕ]
[Московский государственный университет им. М.В. Ломоносова]
[С][ середины 60-х годов][ за рубежом][, а с ][70-х годов ][в нашей стране][ стала бурно развиваться][ новая область][ физико-химических методов анализа ][- ][ионометрия][. Этот метод][ основан на][ разработ][ке,][изучении][ и практическом ][использовании][ различного рода][ ионоселективных электродов][ (ИСЭ).] 

В квадратных скобках выделены символы расширенного алфавита для случая, когда начальным алфавитом являются ASCII символы .

Разработаны основные алгоритмы поиска и анализа текстовой и графической информации на базе метода корреляционной индексации:

Aлгоритмы поиска текстовой информации:

поиск похожих документов
ассоциативный поиск
неточный поиск
точный поиск

Aлгоритмы поиска графической информации:

поиск похожих изображений

Разработана компьютерная программа, в рамках которой реализованы алгоритмы поиска для текстовой информации:
ассоциативный поиск
точный поиск
поиск похожих документов

Разработаны алгоритмы и новый метод автоматической рубрикации текстовой информации, основанный на методе корреляционной индексации. Важная особенность - многоязычность алгоритма рубрикации - возможность рубрицировать тексты на разных языках.

Автоматическая рубрикация текстов на базе метода корреляционной индексации

Разработана компьютерная программа, реализующая алгоритмы рубрикации на базе метода корреляционной индексации. Программа позволяет классифицировать научно-технические документы текстовой информации с высокой скоростью, которая превышает 1 Мб/сек для компьютера с современным процессором Pentium IV.
Разработана методика обучения текстовых рубрикаторов по набору экспертных текстов.
Точность рубрикации документов по заданной теме составляет более 90% (ошибка 1-го рода менее 10%), пропускается не более 5% (ошибка 2-го рода) документов из других тем.

С целью проверки эффективности созданных алгоритмов и соответствия их характеристик требованиям технического задания проведены экспериментальные исследования в соответствии с разработанной «Программой и методикой экспериментальных исследований алгоритмов поиска текстовой и графической информации и алгоритмов рубрикации на базе метода корреляционной индексации» на сформированной функциональной тестовой базе.
Все выявленные в ходе исследований технические параметры программно реализованных алгоритмов отвечают требованиям Технического задания, а в ряде случаев, например, по скорости индексации текстовой информации, превосходят их. 

Проведены патентные исследования, которые показали перспективность метода корреляционной индексации для использования его в аналитических информационно-поисковых системах. 
В Роспатент подана Заявка на патент Российской Федерации на изобретение «Способ и устройство для определения степени взаимной корреляции текстов» (вх. № 026650 от 4.6.2008 г.), в которой предлагается способ для классификации документов и поиска.

Внедрения полученных результатов

Созданы электронные архивы журналов в электронных форматах DjVu и PDF:
«В мире науки» с 1983 по 2007 год
«Юный техник» с 1956 по 2007 год.


Совместно с ГПНТБ России выпущена тематическая коллекция по истории развития космоса «Дорога в космос», состоящая из трех дисков: 
1) К.Э. Циолковский «Путь к звездам»
2) Ф.А. Цандер «Взор, устремленный в небо» 
 3) Н.Е. Жуковский «Отец русской авиации»

Совместно с ГНУ ГНПБ им. К.Д. Ушинского РАО выпущен тираж электронного издания  «К. Д. Ушинский, Избранные произведения».

Заключен контракт с администрацией Губернатора Ханты-Мансийского автономного округа на выполнение работы по созданию и первичному  наполнению сегмента «Электронные архивы научно-популярных и образовательных периодических изданий» - размещение на Образовательном информационном портале Ханты-Мансийского автономного округа.

В ряде библиотек установлены для пробного тестирования фильтры порнографических сайтов.
  Copyright Controlling Chaos Technologies 2001-2010 Разработка и поддержка - Auroom Group