Rus  Eng 
   
Программы О компании Поддержка  
   
 
  Главная страница / О компании / Наши публикации
Университетам и школам
 
Библиотекам
 
Наши партнeры
 
Наши публикации
Автоматизация процесса создания цифровых архивов научно-технической документации
Роль новых технологий поиска информации в образовании
Компьютерная программа "Антиплагиатор"
Проект разработки метода корреляционной индексации текстовой и графической информации.
Технология хранения и обработки электронных документов с элементами интеллектуального поиска
Полнотекстовая технология поиска документов “Незабудка”
Поиск и анализ графической информации. Идентификации личности по изображению лица
Создание электронных образовательных ресурсов в условиях традиционной отраслевой библиотеки
Электронный тренажёр для обучения физике
Программный комплекс по созданию архивов научно-технической документации с возможностью размещения на съемных носителях и в Интернете
Поиск и анализ похожих документов в информационно-поисковой системе, базирующийся на методе корреляционной полнотекстовой индексации
Использование программы ССТ PUBLISHER для создания электронного архива Соровского образовательного журнала
Роль новых технологий поиска информации в образовании
Динамический метод фильтрации интернет сайтов с агрессивным содержанием.
Системы обнаружения, сопровождения и кластеризации объектов на основе нейроноподобного кодирования
Полнотекстовая технология поиска документов “Незабудка”:

Полнотекстовая технология поиска
документов “Незабудка”

Full-Text Document Search Technology “Nezabudka”

Ю.В. Андреев, А.С. Дмитриев, Ю. Д. Калафати, К. В. Моисеев
Институт радиотехники и электроники Российской академии наук (ИРЭ РАН),
Москва, Россия

Yu.V. Andreyev, A.S. Dmitriev, Yu. D. Kalafati, K. V. Moiseyev
Institute of Radioengineering & Electronics, Russian Academy of Science,
Moscow, Russia

Обсуждены проблемы поиска информации по тексту: неоднозначность (субъективность) формирования запроса, разные механизмы индексации при записи архивов, слишком большое количество найденной информации… Предложены пути решения этих проблем на примере поисковой технологии “Незабудка”, в которой реализована полнотекстовая индексация, формирование запроса на “естественном языке”, поиск информации по странице текста (по документу).

The problems of full-text indexing and full-text searching of information have been discussed. The full-text indexing and the use of text page as a query for searching (“natural language query) in the new search technology “Nezabudka” have been considered as a possible way to overcome these problems.

В доэлектронную эру поиск информации был организован главным образом с помощью каталогов библиотек, архивов и издательств, а также оглавлений самих печатных изданий с использованием системы ссылок (назовем эту технологию, для краткости, поиском внутри каталога). Такая технология поиска внутри каталога однозначна: зная автора, или название документа или издательство и год издания, можно в принципе найти искомый документ. Затем, прочитав оглавление и аннотацию, можно принять решение, та ли это информация, что была необходима. Следует отметить, что и тогда технология поиска внутри каталога не удовлетворяла все потребности исследователей. Так в ряде специальных изданий (например, библия или труды классиков научного коммунизма) из общего текста выделялись наиболее значимые слова (ключевые слова) и словосочетания, а иногда и целые выражения и указывались страницы, где эти ключевые элементы располагались (технология поиска внутри текста). Однако процесс составления таких ссылок (индексация) был очень долог и трудоемок и, поэтому, технология поиска внутри текста не могла быть широко распространена.

В настоящее время количество информации многократно увеличилось, а ее структура усложнилась. Количество информации увеличилось не только за счет появления большого числа независимых источников информации, но и в силу того, что электронные технологии сделали информацию более доступной. Под усложнением структуры информации понимается главным образом то, что эта информация в значительной своей части не систематизирована. Кроме того, при работе с большими объемами информации резко уменьшается время на анализ уже найденных документов. В этих условия технология поиска внутри каталога становится уже совершенно недостаточной и ее необходимо дополнить технологией поиска внутри текста.

Современные поисковые программы обеспечивают в той или иной степени технологию поиска информации внутри текста. Однако процедуру такого поиска и его результаты никак нельзя считать однозначными. Неоднозначность возникает уже на стадии формирования запроса, по которому затем производится поиск текста с определенным содержанием. Обычно в поисковых программах запрос формируется в виде ключевого слова или комбинации ключевых слов, связанных логическими операциями. Для поиска одной и той же текстовой информации можно использовать разные ключевые слова, причем процедура выбора ключевого слова достаточно субъективна. Но даже в случае, когда ключевые слова определены, а запрос состоит только из одного слова, результат поиска может отличаться при использовании разных поисковых программ. Это объясняется, во-первых, тем, что разные поисковые программы используют разные процедуры индексации текста документов (например, ряд программ не индексируют весь текст, другие отличаются способом учета грамматических особенностей языка и т.д. и т.п.). Во-вторых, результат поиска представляется в виде списка найденных документов. Этот список может быть столь большим, что просмотреть его за разумный промежуток времени невозможно и результат поиска, таким образом, зависит от порядка, в котором расположены документы. Все сказанное означает, что на современном этапе развития поисковых систем технология поиска внутри текста является скорее искусством, чем хорошо определенной процедурой и, кроме того, зависит от типа поисковой программы.

Число найденных документов в списке при поиске по ключевому слову можно уменьшить, если продолжить поиск, но уже среди этих найденных документов (ряд поисковых программ предоставляют такую возможность), используя в качестве запроса другое ключевое слово. Увеличение количества ключевых слов и продолжение процедуры поиска в найденных документах, позволяет уменьшить число найденных документов до разумного значения, при котором просмотр текста документов на интересующую тему оказывается уже реальным. Проблема, однако, состоит в том, что правильный выбор достаточного количество ключевых слов, а еще лучше словосочетаний, представляет определенную сложность, особенно при работе с незнакомым материалом. В настоящем докладе обсуждается поисковая технология “Незабудка”, которая частично решает указанные проблемы поиска внутри текста.

Предлагаемая поисковая технология “Незабудка”, во-первых, проводит полнотекстовую индексацию архивируемых документов. Во-вторых, позволяет формулировать запрос для поиска на “естественном языке”, использовать в качестве запроса фрагмент текста, размер которого не ограничен, например, страницу документа (поиск по документу). Программа сама определяет ключевые слова и ключевые словосочетания, которые содержатся в запросе (фрагменте текста) и по которым затем ведется поиск. Ключевые элементы, а именно слова и словосочетания, образуются в процессе полнотекстовой индексации содержания книги или архива документов и создают внутренний язык программы. Поиск по тексту означает поиск по этому специфическому языку. Например, все выделенные в тексте доклада жирным шрифтом слова и словосочетания стали бы элементами этого языка. В-третьих, реализован поиск по неточному запросу (ассоциативный поиск). Это значит, что искомый фрагмент текста может быть найден внутри архива, несмотря на некоторое количество различий (ошибок) в тексте этого фрагмента и в тексте запроса для поиска. В-четвертых, список составляется не из найденных документов, а из страниц найденных документов, что позволяет быстро просматривать текстовую информацию. При этом программа расставляет найденные страницы документов (страницы, а не документы!) в порядке, который определяется количеством ключевых слов и ключевых словосочетаний, входящих в тексты этих страниц. В-пятых, технология поиска позволяет искать информацию в текстах, написанных на любом языке.

В технологии осуществлен и классический вариант поиска информации: поиск по “слову”, “по родственным словам”, поиск по “группе слов, связанных логическими операциями”, поиск в “найденном”.

Поисковая технология “Незабудка” не хранит текстовую информацию в исходном виде. В процессе индексации происходит устранение избыточной информации, для чего повторяющиеся фрагменты текстовых документов (слова, фразы), как уже говорилось, заменяются новыми символами внутреннего языка архива. При этом объем записываемой информации уменьшается в несколько раз. После индексации исходные текстовые документы становятся ненужными, и в архиве хранятся только сжатые в несколько раз тексты. Поиск происходит в сжатых текстах без промежуточной распаковки.

Технология поиска “Незабудка” была разработана [1,2] в лаборатории “ИнформХаос” Института радиотехники и электроники РАН г. Москва и запатентована в США, Канаде и Европе.

На сегодняшний день технология поиска “Незабудка” реализована в двух программных продуктах: “Электронная книга” и “Электронный архив”. Программа “Электронная книга” предназначена для издания электронных книг, трудов конференций и т.п. и последующего распространения их на CD-ROM. (Программа позволяет издавать труды конференций, где рабочими являются несколько языков, так как поиск может производиться по документам на всех языках.) Интерфейс программы представляет собой рисунок развернутой книги с группой служебных кнопок по краям обложки. Программа позволяет показывать сразу две страницы книги, листать их, увеличивать размер шрифта для удобства чтения, а при необходимости еще большего увеличения переходить к одностраничному представлению. С нашей точки зрения чтение документа (книги) по страницам более удобно, чем чтение непрерывного текста, да и постраничный анализ найденных при поиске документов проводится легче. Программа на сегодняшний день может работать с документами разных форматов: TXT, PDF, DOC, RTF, HTML, осуществляя полнотекстовый поиск внутри текстовой части этих документов. Программа также позволяет издавать факсимильные копии книг, которые ранее издавались в бумажном виде (например, редкие книги) , сохраняя оригинальный дизайн книги, а при желании и все пометки, сделанные на полях. Для издания кириллической или рукописной книги, компьютерное распознавание текста которых затруднительно, поиск может быть организован по тексту, приложенному к каждой странице рукописи. Например, это могут быть комментарии специалиста или текст, напечатанный с использованием соответствующей транскрипции.

Программа “Электронный архив” позволяет создавать архив из разноязычных документов разных форматов: TXT, PDF, DOC, RTF, HTML, осуществляя полнотекстовый поиск внутри текстовой части этих документов. (Имеется локальная и интернет версия.) Локальная версия программы имеет стандартный для операционной системы Windows интерфейс. В режиме записи (индексации) документа в архив на экране появляются два окна: в первом окне список файлов с документами для записи, а во втором открыта папка, куда с помощью мышки эти документы складываются. В режиме просмотра и поиска может быть одновременно открыто четыре окна, где в зависимости от ситуации могут быть показаны: страница документа оригинального формата, текстовая часть этой страницы, окно поиска, список документов, содержащихся в архиве, и/или список страниц документов, найденных в процессе поиска.

В “Электронном архиве” помимо возможностей, которые перечислены выше для технологии поиска “Незабудка”, есть еще функция анализа запроса поиска. При этом весь текст запроса разбивается на фрагменты, каждый из которых является элементом внутреннего языка программы, т.е. ключевым словосочетанием. Такая функция позволяет по набору ключевых словосочетаний понять, правильно ли выбран текст запроса, и определить содержится ли необходимая информация в архиве, где производится поиск, еще до того, как процесс поиска будет запущен. Функция анализа запроса может быть использована для сравнения документов и определения плагиата. Действительно, если в архиве встречаются два одинаковых фрагмента текста, то весь фрагмент становится элементом языка программы (ключевым словосочетанием) и может быть легко обнаружен.

В заключение следует отметить, что представленная нами технология полнотекстового поиска “Незабудка”, может быть интегрирована в библиотечные программы, которые на сегодняшний день имеют возможность искать только по каталогу.

Литература

  1. Дмитриев А.С. Запись и восстановление информации в одномерных динамических системах. // РЭ.,1991, Т.36, №1, с.101–108.
  2. Андреев Ю.В., Дмитриев А.С. Запись и восстановление информации в одномерных динамических системах. // РЭ.,1994, Т.39, №1, с.104–113.



  Copyright Controlling Chaos Technologies 2001-2010 Разработка и поддержка - Auroom Group