Методика поиска специализированной информации в пищевой промышленности

Переработка сельскохозяйственного сырья / 05 сентября 2012


Эффективность любых научно-исследовательских и опытно-конструкторских работ зависит от качества их информационного обеспечения, а поиск информации является первоочередным этапом научного исследования в любой предметной области. Первостепенным источником информации для всех областей знаний является глобальная сеть Internet, однако поиск специализированных информационных ресурсов, при помощи этой сети, зачастую оказывается малоэффективным.

Эффективность любых научно-исследовательских и опытно-конструкторских  работ зависит от качества их информационного обеспечения, а поиск информации является первоочередным этапом  научного исследования в любой предметной области. Первостепенным источником информации для всех областей знаний является глобальная сеть Internet,  однако поиск специализированных информационных ресурсов, при помощи этой сети, зачастую оказывается малоэффективным.

В настоящее время наблюдается бурный рост информационного наполнения сети разнообразной информацией. Этот рост вызывает парадоксальную проблемную ситуацию: вероятность присутствия необходимой информации в глобальном информационном пространстве растет, а вероятность ее нахождения – уменьшается. Во-первых, наполнение сети очень разнородно, колоссально по объему, быстро обновляется и практически не  поддается структуризации и управлению. Во-вторых, поиск информации требует определённой квалификации и практических навыков при работе с глобальной информацией. Одна из причин заключается в том, что русский язык, как никакой другой, имеет  большое количество  слов близкого, смежного, почти одного значения – синонимов.

В настоящее время в глобальной сети  используется два основных вида или средства поиска информации: по тематическим каталогам ресурсов и по ключевым словам (машины поиска).

Эти популярные средства обладают целым рядом недостатков с точки зрения поиска специфичной специализированной научной информации.

Дело в том, что процесс отнесения к одному из разделов тематического каталога не поддается полной автоматизации, поэтому каталоги охватывают ограниченное количество информационных ресурсов и не успевают вовремя обновляться.

Машины поиска по ключевым словам чаще обновляются и охватывают больше информационных ресурсов, чем средства поиска информации по тематическим каталогам. Но они часто оказываются малоэффективными из-за большого уровня шума (ссылок на нерелевантные документы), ограниченных возможностей языков запросов и формы представления результатов поиска.

Предлагается методика повышения эффективности поиска необходимой информации в слабо структурированных информационных базах сети Internet. включающая следующую последовательность новых приёмов поиска.

Во-первых, по тезаурусу определяются все синонимы ключевых слов, в их смысловом поисковом словосочетании и по всем синонимам в этом сочетании последовательно производится поиск.

Во-вторых, ищутся, кроме синонимов, схожие слова, используемые в конкретной предметной области.

Например, при словосочетании «оценка качества сыра» синонимов  слову «оценка» в тезаурусе нет. Поэтому в массивах последовательно ищется упоминания о новом слове «определение», схожего по смыслу со словом «оценка». Затем, в массивах информации  первое словосочетание заменяется  новым словосочетанием – «определение качества сыра» и далее используются синонимы слову «определение»: нахождение, установление и т.п.

В-третьих, последовательно производится  изменение падежей  существительных в ключевых словах. Например, существительное слово  «сыр» склоняется по падежам: «сыра», «сыре»  и т.д.

Второе ключевое слово «качество» также проходит стадию последовательного изменения при поиске как по тезаурусу «свойство, признак, особенность», так и по склонению по падежам слов синонимов, причём определяется схожее слово для всех синонимов. Например, синониму «свойства» находится схожее слово – «структура» и в поиск вводится новое ключевое  словосочетание «определение структуры сыра».

В-четвёртых, в такой последовательности вариаций ключевых словосочетаний идёт постоянное определение количества их повторения в тексте каждого элемента массива информации: патента, статьи, диссертации и т.п.

Это делается с целью снижения вероятности неявных упоминаний  в тексте этих ключевых сочетаний и исключения из анализа, например, статей, не относящихся к теме и предмету поиска информации. При числе повторения ключевого сочетания один раз в анализируемом источнике информации (статьи) есть вероятность того, что в его библиографическом списке хотя и есть ссылка на  конкретное словосочетание, но статья посвящена решению других,  смежных, не интересующих нас проблем.

По данной методике разработано алгоритмическое и программное обеспечение. Проведённый автоматизированный информационно-патентный поиск  по НИР «Исследовать возможность создания переносного экспресс-прибора для  определения механических свойств сыра» показал высокую его результативность. При этом временные затраты на проведение такого поиска существенно сократились.

Алейников А. Ф., Чанышев Д. И.,
Государственное научное учреждение
Сибирский физико-технический институт
аграрных проблем Россельхозакадемии
e-mail: fti2009@yandex.ru
 

Источник: BORONA.net



Другие статьи