Rus  Eng 
   
Программы О компании Поддержка  
   
 
  Главная страница / О компании / Наши публикации
Университетам и школам
 
Библиотекам
 
Наши партнeры
 
Наши публикации
Автоматизация процесса создания цифровых архивов научно-технической документации
Роль новых технологий поиска информации в образовании
Компьютерная программа "Антиплагиатор"
Проект разработки метода корреляционной индексации текстовой и графической информации.
Технология хранения и обработки электронных документов с элементами интеллектуального поиска
Полнотекстовая технология поиска документов “Незабудка”
Поиск и анализ графической информации. Идентификации личности по изображению лица
Создание электронных образовательных ресурсов в условиях традиционной отраслевой библиотеки
Электронный тренажёр для обучения физике
Программный комплекс по созданию архивов научно-технической документации с возможностью размещения на съемных носителях и в Интернете
Поиск и анализ похожих документов в информационно-поисковой системе, базирующийся на методе корреляционной полнотекстовой индексации
Использование программы ССТ PUBLISHER для создания электронного архива Соровского образовательного журнала
Роль новых технологий поиска информации в образовании
Динамический метод фильтрации интернет сайтов с агрессивным содержанием.
Системы обнаружения, сопровождения и кластеризации объектов на основе нейроноподобного кодирования
Роль новых технологий поиска информации в образовании :

РОЛЬ НОВЫХ ТЕХНОЛОГИЙ ПОИСКА ИНФОРМАЦИИ В ОБРАЗОВАНИИ

Калафати Юрий Дмитриевич, 

Моисеев Константин Владимирович

Институт радиотехники и электроники Российской академии наук (ИРЭ РАН), г. Москва.

Ссылка: http://www.ito.su/2002/III/1/III-1-1233.html

Обсуждены проблемы поиска информации по тексту: неоднозначность (субъективность) формирования запроса, разные механизмы индексации при записи архивов, слишком большое количество найденной информации…. Предложены пути решения этих проблем на примере поисковой технологии «Незабудка», в которой реализована полнотекстовая индексация, формирование запроса на «естественном языке», поиск информации по документу.

The problems of full-text indexing and searching of information have been discussed.

Обучение навыкам поиска и сам процесс поиска литературы (текстовой информации) являлись и, тем более, являются сейчас необходимой частью образовательного процесса. В до электронную эру поиск информации был организован главным образом с помощью каталогов библиотек, архивов и издательств, а также оглавлений самих печатных изданий с использованием системы ссылок (назовем эту технологию, для краткости, поиском по каталогу). Такая технология поиска больших трудностей в использовании и обучении не вызывала поскольку процедура поиска по каталогу однозначна: зная автора, или название документа или издательство и год издания, можно в принципе найти искомый документ. Затем, прочитав оглавление и аннотацию, можно принять решение, та ли это информация, что была необходима. Следует отметить, что и тогда технология поиска по каталогу не удовлетворяла полностью потребности общества. Так в ряде специальных изданий из общего текста выделялись наиболее значимые слова (ключевые слова) и словосочетания, а иногда и целые выражения (например, библия или труды классиков научного коммунизма) и указывались страницы, где эти ключевые элементы располагались (технология поиска по тексту). Однако процесс составления таких ссылок (полнотекстовая индексация) был очень долог и трудоемок и, поэтому, технология поиска по тексту не могла быть широко распространена.

В настоящее время количество информации многократно увеличилось, а ее структура усложнилась. Количество информации увеличилось не только за счет появления большого числа независимых источников информации, но и в силу того, что электронные технологии сделали информацию более доступной. Под усложнением структуры информации понимается главным образом то, что эта информация в значительной своей части не систематизирована. Кроме того, при работе с большими объемами информации резко уменьшается время на анализ уже найденных документов. В этих условия технология поиска по каталогу становится уже совершенно недостаточной и ее необходимо дополнить технологией поиска по тексту.

Современные поисковые программы обеспечивают в той или иной степени технологию поиска информации по тексту. Однако процедуру такого поиска и его результаты никак нельзя считать однозначными. Неоднозначность возникает уже на стадии формирования запроса, по которому затем производится поиск текста с определенным содержанием. Обычно в поисковых программах запрос формируется в виде ключевого слова или комбинации ключевых слов, связанных логическими операциями. Для поиска одной и той же текстовой информации можно использовать разные ключевые слова, причем процедура выбора ключевого слова достаточно субъективна.

Но даже в случае, когда ключевые слова определены, а запрос состоит только из одного слова, результат поиска может отличаться при использовании разных поисковых программ. Это объясняется, во-первых, тем, что разные поисковые программы используют разные процедуры индексации текста документов (например, ряд программ не индексируют весь текст, другие отличаются способом учета грамматических особенностей языка и т.д. и т.п.). Во-вторых, результат поиска представляется в виде списка найденных документов. Этот список может быть столь большим, что просмотреть его за конечный промежуток времени невозможно и результат поиска, таким образом, зависит от порядка, в котором расположены документы. Все сказанное означает, что на современном этапе развития поисковых систем технология поиска по тексту является скорее искусством, чем хорошо определенной процедурой и, кроме того, зависит от типа поисковой программы.

Число найденных документов в списке можно уменьшить, если продолжить поиск, но уже среди этих найденных документов (ряд поисковых программ предоставляют такую возможность), используя другое ключевое слово. Увеличивая количество ключевых слов и продолжая процедуру поиска в найденных документах, можно уменьшить число найденных документов до разумного значения и, что более важно, найти документы на интересующую тему. Проблема лишь в том, что очень немногие поисковые системы могут работать с большим числом ключевых слов, да и выбор таких слов, а еще лучше словосочетаний, представляет определенную сложность. В настоящем докладе обсуждается поисковая технология «Незабудка», которая частично решает указанные проблемы поиска по тексту.

Предлагаемая поисковая технология «Незабудка», во-первых, проводит полнотекстовую индексацию архивируемых документов. Во-вторых, позволяет формулировать запрос для поиска на «естественном языке», использовать в качестве запроса фрагмент текста, размер которого не ограничивается, например, страницу документа (поиска по документу). Программа сама определяет ключевые слова и ключевые словосочетания, которые содержатся в запросе (фрагменте текста) и по которым затем ведется поиск. Ключевые элементы, а именно слова и словосочетания образуются в процессе полнотекстовой индексации содержания книги или архива документов и создают внутренний язык программы. Поиск по тексту означает поиск по этому специфическому языку. Например, все выделенные в тексте доклада жирным шрифтом слова и словосочетания стали бы элементами этого языка. В-третьих, список составляется не из найденных документов, а из страниц найденных документов, что позволяет быстро просматривать текстовую информацию. В-четвертых, программа расставляет найденные страницы документов (страницы, а не документы!) в порядке, который определяется количеством ключевых слов и ключевых словосочетаний, входящих в тексты этих страниц.

В программе осуществлен и классический вариант поиска: поиск по «слову», «по родственным словам», поиск по «группе слов, связанных логическими операциями», поиск в «найденном». Остается добавить, что технология поиска в программе не зависит от языка, т.е. поиск будет работать с текстом на любом языке (кроме, может быть уж очень экзотического).

Технология поиска была разработана в лаборатории «ИнформХаос» Института радиотехники и электроники РАН г. Москва и запатентована в США, Канаде и Европе.

На сегодняшний день технология поиска «Незабудка» реализована в двух программных продуктах: «Электронная книга» и «Электронный архив». Программа «Электронная книга» предназначена для издания электронных книг, трудов конференций и т.п. и последующего распространения на CD-ROM. (Программа особенно удобна для издания трудов конференций, где рабочими являются несколько языков, так как поиск будет производиться по документам на всех языках.) Интерфейс программы представляет собой рисунок развернутой книги с группой служебных кнопок по краям обложки. Помимо того, что элегантный рисунок книги доставляет эстетическое удовольствие (и может быть, примирит противников электронных книг), с нашей точки зрения чтение книги по страницам более удобно, чем чтение непрерывного текста, да и постраничный анализ найденных при поиске документов провести легче. Программа позволяет показывать сразу две страницы книги, листать их, увеличивать размер шрифта для удобства чтения, а при необходимости еще большего увеличения переходить к одностраничному представлению. Программа на сегодняшний день позволяет работать с документами разных форматов: TXT., PDF., DOC., RTF., HTML., осуществляя поиск по текстовой части этих документов. Программа также позволяет издавать факсимильные копии книг, которые ранее издавались в бумажном виде, сохраняя оригинальный дизайн книги, а при желании и все пометки, сделанные на полях.

Программа «Электронный архив» позволяет создавать архив из разноязычных документов разных форматов: TXT., PDF., DOC., RTF., HTML., осуществляя поиск по текстовой части этих документов. Имеется локальная и интернет версия. Программа имеет стандартный для «Windows» интерфейс. В режиме записи (индексации) документа в архив на экране появляются два окна: в первом окне список файлов с документами для записи, а во втором открыта папка, куда с помощью мышки эти документы складываются. В режиме просмотра и поиска может быть одновременно открыто четыре окна, где в зависимости от ситуации могут быть показаны: страница документа оригинального формата, текстовая часть этой страницы, окно поиска, список документов, содержащихся в архиве, и/или список страниц документов, найденных в процессе поиска. В «Электронном архиве» помимо возможностей, которые перечислены выше для технологии поиска «Незабудка», можно еще и анализировать запрос. При этом весь текст запроса разбивается на фрагменты, каждый из которых является элементом внутреннего языка программы, т.е. ключевым словосочетанием. Такой сервис чрезвычайно удобен тем, что позволяет по набору ключевых словосочетаний понять правильно ли выбран текст для запроса и даже определить содержится ли необходимая информация в архиве, где производится поиск, еще до того, как процесс поиска будет запущен.

 В заключение следует отметить, что формирование запроса при поиске на «естественном языке» и поиск информации по документу, реализованные в технологии «Незабудка», делают процесс обучения технологии поиска по тексту более понятным. Функция анализа запроса может быть также использована в учебном процессе, во-первых, для выработки навыков в формировании запроса из ключевых слов и ключевых словосочетаний, а, во-вторых, для определения плагиата. Действительно, ведь если в архиве встречаются два одинаковых фрагмента текста, то весь фрагмент становится элементом языка программы (ключевым словосочетанием) и может быть легко обнаружен.

  Copyright Controlling Chaos Technologies 2001-2010 Разработка и поддержка - Auroom Group