Методика поиска специализированной информации в пищевой промышленности
Переработка сельскохозяйственного сырья / 05 сентября 2012
Эффективность любых научно-исследовательских и опытно-конструкторских работ зависит от качества их информационного обеспечения, а поиск информации является первоочередным этапом научного исследования в любой предметной области. Первостепенным источником информации для всех областей знаний является глобальная сеть Internet, однако поиск специализированных информационных ресурсов, при помощи этой сети, зачастую оказывается малоэффективным.
Эффективность любых научно-исследовательских и опытно-конструкторских работ зависит от качества их информационного обеспечения, а поиск информации является первоочередным этапом научного исследования в любой предметной области. Первостепенным источником информации для всех областей знаний является глобальная сеть Internet, однако поиск специализированных информационных ресурсов, при помощи этой сети, зачастую оказывается малоэффективным.
В настоящее время наблюдается бурный рост информационного наполнения сети разнообразной информацией. Этот рост вызывает парадоксальную проблемную ситуацию: вероятность присутствия необходимой информации в глобальном информационном пространстве растет, а вероятность ее нахождения – уменьшается. Во-первых, наполнение сети очень разнородно, колоссально по объему, быстро обновляется и практически не поддается структуризации и управлению. Во-вторых, поиск информации требует определённой квалификации и практических навыков при работе с глобальной информацией. Одна из причин заключается в том, что русский язык, как никакой другой, имеет большое количество слов близкого, смежного, почти одного значения – синонимов.
В настоящее время в глобальной сети используется два основных вида или средства поиска информации: по тематическим каталогам ресурсов и по ключевым словам (машины поиска).
Эти популярные средства обладают целым рядом недостатков с точки зрения поиска специфичной специализированной научной информации.
Дело в том, что процесс отнесения к одному из разделов тематического каталога не поддается полной автоматизации, поэтому каталоги охватывают ограниченное количество информационных ресурсов и не успевают вовремя обновляться.
Машины поиска по ключевым словам чаще обновляются и охватывают больше информационных ресурсов, чем средства поиска информации по тематическим каталогам. Но они часто оказываются малоэффективными из-за большого уровня шума (ссылок на нерелевантные документы), ограниченных возможностей языков запросов и формы представления результатов поиска.
Предлагается методика повышения эффективности поиска необходимой информации в слабо структурированных информационных базах сети Internet. включающая следующую последовательность новых приёмов поиска.
Во-первых, по тезаурусу определяются все синонимы ключевых слов, в их смысловом поисковом словосочетании и по всем синонимам в этом сочетании последовательно производится поиск.
Во-вторых, ищутся, кроме синонимов, схожие слова, используемые в конкретной предметной области.
Например, при словосочетании «оценка качества сыра» синонимов слову «оценка» в тезаурусе нет. Поэтому в массивах последовательно ищется упоминания о новом слове «определение», схожего по смыслу со словом «оценка». Затем, в массивах информации первое словосочетание заменяется новым словосочетанием – «определение качества сыра» и далее используются синонимы слову «определение»: нахождение, установление и т.п.
В-третьих, последовательно производится изменение падежей существительных в ключевых словах. Например, существительное слово «сыр» склоняется по падежам: «сыра», «сыре» и т.д.
Второе ключевое слово «качество» также проходит стадию последовательного изменения при поиске как по тезаурусу «свойство, признак, особенность», так и по склонению по падежам слов синонимов, причём определяется схожее слово для всех синонимов. Например, синониму «свойства» находится схожее слово – «структура» и в поиск вводится новое ключевое словосочетание «определение структуры сыра».
В-четвёртых, в такой последовательности вариаций ключевых словосочетаний идёт постоянное определение количества их повторения в тексте каждого элемента массива информации: патента, статьи, диссертации и т.п.
Это делается с целью снижения вероятности неявных упоминаний в тексте этих ключевых сочетаний и исключения из анализа, например, статей, не относящихся к теме и предмету поиска информации. При числе повторения ключевого сочетания один раз в анализируемом источнике информации (статьи) есть вероятность того, что в его библиографическом списке хотя и есть ссылка на конкретное словосочетание, но статья посвящена решению других, смежных, не интересующих нас проблем.
По данной методике разработано алгоритмическое и программное обеспечение. Проведённый автоматизированный информационно-патентный поиск по НИР «Исследовать возможность создания переносного экспресс-прибора для определения механических свойств сыра» показал высокую его результативность. При этом временные затраты на проведение такого поиска существенно сократились.
Источник: BORONA.net