Выяснилось, что для числа авторов, публикующих определенное количество работ в течение своей жизни, числа журналов, ежегодно публикующих определенное количество статей, числа публикаций, содержащих определенное количество ссылок на другие публикации, существует общая закономерность распределения.

"Они следуют тому же типу распределения, который характеризует соотношение миллионеров и бедняков в условиях высокоразвитой капиталистической экономики: огромная доля богатств находится в руках узкого круга богачей, а небольшой остаток - в руках несметного множества мелких производителей. Является ли точная форма распределения логарифмической, экспоненциальной, описывается ли она законом Ципфа или обратной квадратной функцией - это предмет особого рассмотрения в каждом отдельном случае" [5].

Это означает, что большинство авторов за всю жизнь публикуют лишь одну или две статьи, тогда как небольшая группа авторов отличается плодовитостью, публикуя по несколько десятков или даже сотен работ. По большей части прекращают выходить в свет периодические издания, успевшие выпустить несколько годовых комплектов, тогда как небольшое число давно выходящих изданий публикует львиную долю всех статей. Примерно половина опубликованной литературы обязана такому числу авторов или журналов, которое составляет квадратный корень общего их количества.

Рост литературы выражается в непрерывном увеличении числа новых названий вновь появляющихся изданий и публикаций. Широко распространенное представление об экспоненциальном росте основных видов литературы справедливо лишь для ее суммарного количества, причем без учета старения. Реальной моделью такого представления могут служить крупные научные библиотеки, комплектующие литературу по широкому профилю и выполняющие функции архивного хранения литературы. Но если нас интересует ежегодный прирост новой литературы, то приходится быть более осторожными в оценках.

Статистика мирового книжного рынка за последние полстолетия показывает, что число ежегодно выпускаемых на рынок книг увеличивается в арифметической прогрессии, а именно на несколько десятков тысяч названий, и достигает ныне 3 млн. Справедливость требует заметить, что это все выходящие книги - тех, которые поступают в продажу, существенно меньше. Если бы было возможно учесть заказные, бесплатные, ведомственные, учебно-методические и другие издания ограниченного распространения, то приведенные цифры были бы более точными. Следует также иметь в виду, что книги, содержащие научную информацию, составляют четверть от общего их числа.

Подсчет числа журналов значительно сложнее, так как они, в отличие от книг, все время находятся в процессе изменений. Журналы возникают, прекращаются, сливаются, дробятся, меняют название, издателей, периодичность. По мнению специалистов, на каждые три новых журнала один перестает выходить. Наиболее достоверные сведения о числе выходящих журналов можно получить из "Международной библиографии периодических изданий", выходящей под именем Констанции Ульрик. В последнем издании этого справочника зарегистрировано около 200 тыс. названий журналов, из которых около 50% падает на издания по общественным и гуманитарным наукам, 40% составляют журналы по точным, естественным и прикладным наукам и лишь 10% - литературно-художественные и общественно-политические журналы.

Старение публикаций заключается в том, что они с увеличением своего "возраста" теряют ценность как источники информации и все меньше используются специалистами. Степень этого использования можно устанавливать при помощи учета цитирования. В данном случае стареет не сама информация, а содержащие ее публикации, поскольку в свежих работах эта информация может быть "упакована" более плотно вместе с новой.

Для измерения скорости старения публикаций американские ученые Р. Бартон и Р. Кеблер предложили в 1960 г. меру, названную периодом полужизни публикаций, по аналогии с показателем скорости распада радиоактивных веществ. Период полужизни публикаций - это время, в течение которого была опубликована половина всей используемой в настоящее время литературы по какой-либо отрасли или предмету. Например, если этот период ранен 5, то это значит, что 50% всех процитированных в текущем году по данному предмету работ не старше пяти лет. Ниже приводятся данные разных авторов о периодах полужизни публикаций в различных отраслях науки:

Биомедицина 3,0

Химия 8,1

Физика 4,6

Государство и право 8,2

Металлургия 4,6

Ботаника 10,0

Хим. технология 4,8

Математика 10,5

Социология 5,0

Геология 11,8

Машиностроение 5,2

География 16,0

Физиология 7,2

История 16,3

Достоверность приведенных цифр зависит от величины выборки цитирования, от типа и характера публикаций, поэтому даже в пределах одной науки данные разных авторов могут существенно расходиться. Но дело не только в этом. В 70-е и 80-е гг. прошлого века проблема старения литературы подверглась интенсивным исследованиям, в результате которых ее понимание стало сильно отличаться от концепции периода полужизни. Начало этому пересмотру положил М. Лайн, который ввел в расчет характеристики старения литературы темпы ее экспоненциального роста. Сущность того, что произошло в трактовке старения, как всегда ярко выразил Д. Прайс.

"В течение нескольких лет после публикации спрашиваемость статьи или ее относительная цитируемость уменьшается крайне медленно (по параболе, если считать по логарифмам прошедших лет). Даже через столетие возможность цитирования уменьшается только на порядок. Большинство ссылок падает на работы последних лет потому, что этих работ большинство, и очень сомнительно, чтобы это вызывалось эффектом немедленности, связанным с быстрым старением..." [6].

Этой проблеме до сих пор и у нас, и в ряде зарубежных стран посвящается много серьезных работ, которые убеждают в том, что частота использования определенной совокупности литературы одного года издания меняется очень медленно. Использование публикаций, определяемое по их цитированию или на основе запросов читателей, отражает не только старение литературы, но и ее рост.

Для теоретиков информатики и историков науки важно учитывать старение литературы в чистом виде, для информаторов и библиотекарей период полужизни служит важным практическим показателем и продолжает широко использоваться. Следует также иметь в виду, что цитируются далеко не все научные публикации. Половина статей в определенной области в текущем году, как правило, не упоминается, а еще 40 % цитируется лишь один раз (обычно самим автором). Таким образом, активный исследовательский фронт, т. е. число работ, цитируемых более одного раза в году, на порядок меньше корпуса опубликованной литературы.

13.  Оценка значимости (влиятельности) ученых и журналов

Распространенная оценка продуктивности научной деятельности основывается на абсолютных показателях общего числа опубликованных научных работ и/или библиографических ссылок на них. Однако такая оценка, как правило, носит односторонний характер. Общее число статей в действительности оценивает лишь публикационную активность научного работника, но не учитывает значимости публикаций, того информационного вклада, который они вносят в науку. Общее число ссылок на работы автора не учитывает возможности большого числа ссылок только на некоторые из его работ, написанные притом в соавторстве. Этот показатель дает неоправданный приоритет цитирующим обзорным работам перед исследовательскими. В этих случаях показатель также не оценивает реального вклада ученого в науку.

Чтобы устранить указанные ограничения, можно считать только число значимых статей, установив для их значимости критерий определенного числа ссылок на них. Но такой критерий произволен и субъективен, поскольку он должен быть разным в разных науках и для разных возрастных категорий ученых. Можно было бы ограничиться подсчетом числа только наиболее цитируемых статей, но и этот абсолютный критерий обладает недостатками предыдущего. Кто и как будет устанавливать порог наибольшей цитируемости?

Индексы цитирования могут относительно адекватно отражать результативность научной деятельности, если они опираются на объективную выборку журналов. Хотя самые известные из них Science Citation Index фирмы Thomson Reuters и Scopus фирмы Elsevier претендуют на статус международных, первый из них отражает мнение и практику американских, а второй - европейских ученых.

Для оценки и сравнения результативности научной деятельности российских ученых необходимо дождаться полной готовности Национального российского индекса цитирования (РИНЦ), который разрабатывается с 2005 г. Научной электронной библиотекой (НЭБ). Основные задачи, которые решает этот проект, - создание информационно-поисковой системы по публикациям российских ученых, единого их реестра, инструментария для статистического анализа отечественной науки, эффективной системы навигации в массиве научной информации.

Названный проект является не единственной отечественной инициативой по созданию указателя библиографических ссылок. Другим подобным проектом является Указатель Российского фонда фундаментальных исследований (РФФИ). Начиная с 1992 г. РФФИ является основной организацией, финансирующей фундаментальные научные исследования на конкурентной основе. Источником данных для Указателя РФФИ является база данных, в которой содержится информация о поданных конкурсных заявках на исследовательские проекты и результатах их выполнения. В отличие от РИНЦ, в этом указателе учитываются и иноязычные публикации (около 40% от общего числа). Почти половину вводимых публикаций составляют журнальные статьи. Общее число отечественных и зарубежных журналов, в которых публикуются эти статьи, превышает 5 тыс. наименований, из которых 40% представлены в Journal Citation Report (JCR) фирмы Thomson- Reuters.

По данным, которые подсчитывают названные учреждения, вычисляют и показатели значимости (влиятельности) и быстроты отклика (оперативности) научных журналов, получивших названия Impact factor и Immediacy index. Влиятельность конкретного журнала в определенном году вычисляется как отношение числа ссылок этого года в других журналах на статьи нашего журнала, опубликованные за два предыдущих года, а оперативность - на статьи, опубликованные в том же году. По этим показателям корректируется комплектование периодики научных библиотек и ПРНД ученых, публикующих статьи в журналах.

Введенные в JCR показатели "Impact factor" и "Immediacy index" являются тонкими количественными оценками научного статуса журнала, отражающими, по сути, качество работ, публикуемых в журнале, через оценку двух аспектов журнала - продуктивности (числа опубликованных в нем работ) и цитируемости (количества ссылок на него, т. е. его используемости учеными).

Impact factor можно рассматривать как показатель влиятельности журнала (обозначим его http://*****/img/tex/f72a431916ca886c0f80c018ad965f22.png), который рассчитывается как отношение числа ссылок, которые получил журнал в текущем году на статьи, опубликованные в этом журнале в предшествующие два года, к числу статей, опубликованных в этом журнале в эти же два предшествующих года.

Immediacy index можно рассматривать как показатель быстроты отклика на журнал. Этот показатель равен отношению числа ссылок, полученных журналом на статьи текущего года, к числу статей, опубликованных в нем в том же году.

Любые количественные показатели при оценке научной деятельности могут служить лишь формальными данными для содержательной интерпретации, поскольку они не учитывают индивидуальных особенностей мыслительной работы ученого и национальных традиций сложившейся системы информационной коммуникации. Вместе с тем, эти данные позволяют корректировать субъективную оценку значимости отдельных ученых, научных коллективов и даже сравнивать интеллектуальную деятельность разных стран.

14.  Закон рассеяния статей конкретной тематики по журналам

Еще одним важным свойством научных публикаций является их рассеяние. Закон рассеяния научных статей в журналах был открыт в 1934 г. С. Бредфордом, который в 1948 г. дал ему следующую формулировку [8]:

"Если научные журналы расположить в порядке убывания числа помещенных в них статей по какому-либо заданному предмету, то в полученном списке можно выделить ядро журналов, посвященных непосредственно этому предмету, и несколько групп или зон, каждая из которых содержит столько же статей, что и ядро. Тогда числа журналов в ядре и в последующих зонах будут относиться как http://*****/img/tex/e804bd5caad9d68ddf10a62.png".

В соответствии с этим законом журналы по продуктивности можно сгруппировать так, чтобы они как бы образовали три зоны. Включенные в каждую такую зону журналы содержали бы одну треть публикаций по данному предмету, помещенных во всех этих журналах.

Первая, ядерная зона содержит публикации из небольшого числа самых продуктивных журналов - http://*****/img/tex/acedd2d0ec19c136cf7bbdb37b3d09ce.png. Вторая зона содержит публикации из большего числа журналов средней продуктивности - http://*****/img/tex/c25098b6ee74ac16fbb9d8ce50e92f25.png, а третья зона - из еще большего числа журналов с низкой продуктивностью, http://*****/img/tex/b7d191701c7757b94630fd37affcacc2.png. Тогда в соответствии с рассматриваемым законом

http://*****/img/tex/1df2ea8855d83b55e5c755332a3aace0.png

где http://*****/img/tex/93d32bb47b06c8721dc0fe3bb9634de4.pngявляется коэффициентом рассеяния, т. е. величиной для данного предмета и времени постоянной.

Другими словами, если совокупность всех публикаций по какому-либо вопросу принять за целое, то в специальных журналах данного профиля (число которых невелико) помещается лишь одна треть этих публикаций. Вторая треть статей по данному вопросу оказывается опубликованной в значительно большем числе тематически родственных (смежных) журналов. Последняя треть этих публикаций рассеяна в огромном числе периодических изданий, в которых появление статей данной тематики трудно предвидеть, так как эти издания имеют широкий профиль или общенаучный характер.

За годы, прошедшие со времени открытия этого закона, проведены сотни исследований с целью проверки его истинности и поиска для него строгого математического выражения. Они показали, что закон этот выполняется только при определенных условиях, когда предмет или тема четко сформулированы, учитываются все релевантные документы в пол-ном перечне изданий и строго ограничено время выхода этих изданий.

Последнее условие имеет особый смысл, так как закон этот характеризует рассеяние в определенный момент. Он является частным случаем более общего распределения, описываемого законом Ципфа. Дж. Ципф установил, что если к достаточно большому тексту составить список всех встретившихся в нем слов и расположить их в порядке убывания частоты встречаемости в данном тексте, то для любого слова произведение его порядкового номера (ранга) на эту частоту есть постоянная величина, имеющая одинаковое численное значение в данном тексте. Этому закону подчиняется распределение не только слов во всех языках мира, но и других явлений социального характера: ученых по числу опубликованных ими работ, городов по численности населения, людей по размерам дохода и даже биологических родов по числу входящих в них видов.

Закон Бредфорда отражает одно из свойств открытой социальной системы, каковой и является научная литература по предмету, а именно - стабильность ее иерархической структуры. Некоторое отличие этого закона от ципфовского распределения объясняется спецификой периодических изданий как формы квантования научной литературы. Эти издания обладают большой инерционностью: изменения в их профилях и номенклатуре происходят значительно медленнее, чем в содержании статей, которые непосредственно отражают все процессы в науке и технике.

Закон рассеяния публикаций имеет большое практическое значение. Из него следует, что охват всех публикаций по какой-либо отрасли или предмету не может быть обеспечен, если ограничиться просмотром лишь профильных журналов и журналов по родственной тематике - для этого приходится просматривать значительную часть научно-технических журналов. Этот закон учитывается при организации национальных информационных систем. Он позволяет решить ряд практических задач информационной деятельности:

    определять число журналов, которые обеспечивают тот или иной процент всех публикаций по какой-либо отрасли или предмету; составлять списки журнальных публикаций по теме с гарантированной степенью полноты; оценивать полноту библиографических списков журнальных публикаций; комплектовать журнальные фонды при фиксированных ассигнованиях; вычислять длину полок, необходимых для хранения фонда журналов. Предыстория и сущность

В основе этого понятия лежит представление о том, что поиск необходимой информации в любом собрании документов практически невозможен путем прочтения или даже беглого просмотра текстов всех документов данного собрания. Поэтому уже с незапамятных времен для поиска информации применяют ряд логических процедур, которые в совокупности и составляют процесс информационного поиска. Прочтение полного текста документа заменили просмотром заглавий, аннотаций, рефератов. Однако и эта процедура в многотысячных собраниях документов оказалась слишком трудоемкой. Документы пришлось систематизировать по содержанию, которое условно стали обозначать индексами, т. е. буквами и/или цифрами. Систематизация по разделам наук (классам) - один из самых первых способов раскрытия содержания научно-технических документов, моделирующий работу человеческого сознания и восходящий к глубокой древности.

По мере увеличения количества письменных и печатных документов и объема наших знаний о мире их классификация усложнялась. Эти классификации получили название иерархических. Многотомные схемы клас-сификации конца прошлого - начала нашего века насчитывали десятки тысяч классов, подклассов, отдельных рубрик. Специалистам смежных областей знания и особенно массовому читателю библиотек стало трудно ориентироваться в схемах классификации и определять в их иерархии место той рубрики, по которой необходимо получать информацию.

Да и сами рубрики, которые строго ориентированы на узкие разделы наук, подвергающихся непрерывному процессу дифференциации, перестали удовлетворять специалистов-практиков, которым нужна была все более комплексная, предметная информация. Это привело к созданию в 70-х годах XIX в. предметной или, точнее, алфавитно-предметной классификации. На долгие годы она стала господствующей при составлении энциклопедий, вспомогательных указателей к трудам, систематически излагающим проблему или раздел науки, а в США, где она была создана, - при организации каталогов.

Стремительный рост объемов литературы значительно усложнил также задачу идентификации каждого произведения печати. Библиотеки первыми столкнулись с необходимостью создать инструмент, при помощи которого можно было бы быстро и надежно устанавливать наличие определенного произведения в их фондах. Таким инструментом стал в XIX в. авторский, именной указатель (алфавитный каталог, по библиотечной терминологии), который однозначно идентифицировал произведение по фамилиям лиц, принимавших участие в его создании или же свя-занных с его содержанием. Таким образом, до середины ХХ в. возможности содержательного поиска информации по справочникам или документов, содержащих нужную информацию, в библиотеках ограничивались тремя способами: систематическим, предметным и алфавитным.

Традиционной технологией реализации этих способов были списки, перечни книг и статей, содержавших необходимую информацию. С 70-х годов XIX в. эти сведения стали записываться на дискретных носителях - библиотечных карточках из плотного картона формата 75х125 мм (размер сложенной пополам американской почтовой карточки). Следует отдать должное этой традиционной технологии. Она успешно обеспечивала культурный прогресс на протяжении целого столетия вплоть до нынешнего этапа научно-технической революции, позволила накапливать и использовать многомиллионные собрания документов, обслуживать тематические потребности ученых и специалистов в необходимой им информации. На ней и сегодня еще в значительной степени зиждется деятельность всей мировой библиотечной системы - этого краеугольного камня человеческой культуры, важными составными частями которой является наука и техника.

Однако недостаточность, ограниченность этой технологии стала все более остро ощущаться уже в первой четверти ХХ в. В науке первыми почувствовали это химики из-за быстрого роста числа синтезируемых ими веществ. Обычные методы оповещения - библиографические указатели, библиотечные каталоги, справочники - начали значительно отставать по времени от успехов исследователей и перестали охватывать их результаты в полном объеме. Революции в физике и электронике, характеризующие середину прошлого столетия, усугубили трудности информационной коммуникации.

    Процедуры и понятия

Научное сообщество осознало необходимость организационного оформления информационной деятельности, которая в течение нескольких десятилетий подспудно созревала в недрах науки и техники. Большая наука индустриального типа, пришедшая на смену "малой" науке университетского типа, выдвинула задачу создания систем научно-технической информации. Именно в это время, в конце 40-х - начале 50-х гг. прошлого века были сформулированы понятия информационного поиска, информационно-поисковой системы, информационно-поискового языка, была выдвинута задача механизации, а затем и автоматизации информационного поиска.

К этому времени стало ясно, что информационный поиск - это совокупность логических процедур, в результате которых в ответ на информационный запрос выдается либо необходимая информация, либо документы, в которых она может содержаться, либо библиографические адреса этих документов. В первом случае поиск получил название фактографического, во втором - документального, в третьем - библиографического. Эти процедуры сводятся к следующему.

Каждый вновь появляющийся документ подвергается анализу, в результате которого определяется его смысловое содержание. Затем это абстрактное представление о содержании (считается, что оно должно совпадать с авторским) выражается на некотором информационно-поисковом языке, т. е. синтезируется в виде библиографического описания и индекса.

Индекс образуется путем мысленного сопоставления основного смыслового содержания с потенциальными запросами потребителей информации. Эти запросы как бы зафиксированы в схемах классификации и обозначены индексами. Сама процедура выражения основного смыслового содержания документов и информационных запросов на информационно-поисковом языке получила название индексирования и составляет существенную часть аналитико-синтетической обработки документов. Информационный поиск, таким образом, заключается в замене содержательного прочтения полного текста документов формальным сличением (сравнением на соответствие) их поисковых образов с запросами на языке индексов.

Понятно, что такая замена значительно упрощает и убыстряет нахождение нужной информации, делает возможной автоматизацию процедуры сравнения. Но за это приходится платить неполнотой и неточностью поиска. Описанные выше логические процедуры допускают субъективизм осуществляющих их лиц, а используемые информационно-поисковые языки несовершенны и не способны адекватно передавать содержание документов и смысл запросов. Следовательно, информационные потери и шум - неизбежные условия информационного поиска. Когда говорят, что поиск осуществлен со 100-процентной полнотой, имеют в виду, что информационного поиска не производилось, а был осуществлен полный перебор всех текстов (современная технология в некоторых случаях предоставляет такую возможность).

Информационный поиск реализуется при помощи информационно-поисковой системы, которая в абстрактном виде должна состоять из информационно-поискового языка, правил перевода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации (критерий выдачи). Конкретная система включает также средства реализации (перечень, картотека, механический селектор, компьютер), информационный массив и обслуживающий персонал.

 Блок-схема информационно-поисковой системы


Рис. 3.1. Блок-схема информационно-поисковой системы

Функционирование простейшей документальной информационно-поисковой системы можно проследить по ее блок-схеме на рис. 3.1. В системе имеется два входа (для документов и запросов) и один выход (для выдачи документов по запросам). На входах имеются преобразователи для индексирования документов и запросов. Поисковые образы документов вместе с адресами их хранения (номерами) направляются в активное запоминающее устройство (ЗУакт), а сами документы - в пассивное (ЗУпас). Индексы каждого запроса сравниваются с индексами всех документов в решающем устройстве (РУ), которое в случае их соответствия (полного или предусмотренного критерием выдачи) дает в хранилище (ЗУпас) команду на выдачу документа. Это хранилище составляет как бы второй контур системы (сами документы), которого нет у библиографических (одноконтурных) систем.

Даже названия элементов на блок-схеме говорят о компьютерной реализации информационно-поисковой системы. Однако блок-схема верно обрисовывает работу любой системы, включая и наиболее традиционные. Это легко видеть на примере библиотеки. Преобразователи на входах соответствуют отделам обработки и справочно-библиографическому, ЗУакт - каталогам, ЗУпас - фондам. Нет в библиотеке только РУ - оно моделируется интеллектом читателя, который (хотя часто он и не осознает этого) вырабатывает собственный критерий выдачи и собственную стратегию поиска.

Не случайно именно эта интеллектуальная часть функционирования информационно-поисковой системы представила наибольшие трудности для автоматизации, именно она больше всего сдерживала развитие этих систем. Камнем преткновения явились, прежде всего, традиционные информационно-поисковые языки, ограничивающие возможности содержательного поиска информации. Расхожее мнение о том, что эти языки трудно поддаются автоматизации, неверно. Но они рассчитаны на ручную реализацию, и поэтому использование их в компьютерах удорожает поиск, ограничивает число пользователей и не дает никаких выигрышей, т. е. не снимает ограничений, присущих этим языкам.

А ограничения эти стали особенно ощутимыми на нынешнем этапе научно-технической революции. Прежде всего, традиционная технология поиска рассчитана на стабильный, медленно меняющийся состав запросов. В схемах классификации и перечнях предметных рубрик уже заранее как бы скоординированы все понятия, по которым можно извлекать информацию из документов и затем производить по ним поиск (такие языки поэтому и получили название предкоординатных). Это приводит к тому, что при возникновении новой проблемы или направления исследований, по которым имеется полученная прежде информация, система не обеспечивает ее поиска. Ведь эта тематика раньше не была сформулирована и не нашла места в схемах классификации и списках предметных рубрик, а значит, и индексирование по ней не производилось.

Другими словами, традиционная технология поиска не позволяет искать информацию по любому, заранее не предвиденному сочетанию признаков. При этом субъективизм индексатора при извлечении основного содержания документа увеличивает информационный шум и потери, предопределенные характером традиционных поисковых языков. Нельзя не отметить также, что основанные на них системы ручного поиска, даже фактографические, не предназначены для манипулирования полученными из них данными. Они не имеют логического аппарата для содержательной переработки этих данных. Подобная задача всегда решалась самими потребителями без помощи информационных систем.

15.  Координатное индексирование

Новая технология пришла в информационный поиск в виде метода координатного индексирования, разработанного в США в 50-е гг. прошлого века математическим логиком М. Таубе и работником службы химической информации К. Муэрсом. Этот метод основан на предположении, что основное смысловое содержание любого документа и информационного запроса можно выразить при помощи набора терминов, по большей части содержащихся в самом индексируемом документе. Эти термины получили название ключевых слов. Если, к примеру, нужно индексировать документ, в котором говорится о защите от коррозии лопаток газовых турбин, то совокупность терминов "турбина", "газ", "лопатки", "коррозия", "защита" и будет служить поисковым образом документа. Эти ключевые слова образуют для данного документа как бы координатную сетку, по которой в дальнейшем ведется информационный поиск по соответствующему запросу.

Преимущества данного метода очевидны. Прежде всего, информационные работники и потребители информации освобождаются от жестких рамок классификационных схем и перечней предметных рубрик. Индексирование новых документов ведется без оглядки на отраженные в них потенциальные и часто уже устаревшие запросы специалистов. С другой стороны, индексирование освобождается от субъективизма - ключевые слова выбираются формально. Эту работу, в принципе, можно поручить автомату. Во многих современных информационно-поисковых системах оператор вводит в машину библиографические данные документа, его реферат (аннотацию, резюме), а иногда и наиболее информативные части текста (например, первый и последний абзацы статьи, которые содержат наибольшее число терминов, относящихся к ее содержанию). Эти элементы текста можно просто отсканировать. При помощи "запретительного" списка служебных и общезначимых слов, введенных в компьютер, осуществляется автоматический отбор ключевых слов, которые программно приводятся к нормальному виду (единственное число имени-тельного падежа существительных и прилагательных, инфинитив глаголов). Это существенный шаг к автоматизации ввода информации в информационно-поисковую систему.

При поиске необходимой информации специалист может формулировать свой запрос в виде цепочки терминов, на пересечении которых и окажется большинство документов, содержащих необходимую информацию. При этом потребитель может произвольно менять стратегию поиска в зависимости от оценки его промежуточных результатов. Если документов по запросу мало или нет в системе, можно снять из запроса какие-либо ключевые слова (в приведенном выше примере "газ" и "защита"). Тогда система выдаст документы более широкого содержания о коррозии лопаток турбин, в которых все же может содержаться нужная информация. В случае если документов по запросу слишком много, можно добавить ключевые слова, ограничивающие поиск, например, определенным классом турбин или же конкретными методами защиты их лопаток от коррозии. В этом уже заключен важный элемент возможности диалога с системой при помощи слов естественного языка.

Основные достоинства этого принципиально нового подхода к раскрытию содержания документов и поиску информации заключаются в том, что он позволяет находить информацию по любому, заранее не предвиденному сочетанию признаков. Кроме того, при появлении совершенно новых направлений исследований можно вести поиск во всем массиве документов, ранее индексированных по этому методу. Традиционные методы таких возможностей не предоставляли.

Было бы несправедливо умолчать о том, что достоинства нового метода приходится оплачивать преодолением дополнительных трудностей. Прежде всего, поиск с использованием естественного языка ограничивает его рамками знакомых пользователю языков. Чтобы расширить этот круг, приходится прибегать к словарям. Затем, каждый естественный язык отличается богатством своего словарного состава - слова, одинаковые по написанию, могут иметь разный смысл (многозначность, омонимия), а одно и то же понятие может выражаться разными терминами (синонимия). Запросив информацию о косах, вы получите сведения не только о сельскохозяйственных орудиях, но и о географических объектах, а может быть, и о прическах. Желая получить документы о транзисторах, следует помнить, что они могут также называться полупроводниками.

Термины находятся в сложных взаимоотношениях между собой, выражают более узкие или более широкие понятия, могут быть связанными по сходству, по контрасту или по другим ассоциациям. Чтобы иметь возможность учитывать это при поиске, приходится составлять на каждом языке специальные понятийные справочники (тезаурусы). В них для каждого понятия (класса условной эквивалентности) выбирается один термин - дескриптор, а для остальных слов указывается их связь с дескриптором. Тезаурусы иногда называют дескрипторными словарями, а сам поиск с их использованием - дескрипторным. Кроме словарей, для поиска по ключевым словам и дескрипторам часто создают специальную грамматику. Необходимость в ней вызывается возникновением ложной координации терминов, ошибочным их сочетанием. В ответ на запрос

http://*****/img/tex/a6e32f1ddf81cadd8bb13.png

можно получить не только необходимую информацию о покрытии медных труб свинцом, но и о покрытии свинцовых труб медью.

Курьеза ради следует упомянуть, что метод координатного индексирования для поиска информации, явившийся принципиальным шагом к новой информационной технологии, на самом деле новшеством не был. В 1915 г. он был реализован на перфокартах американским орнитологом Т. Т ейлором при составлении определителя птиц, а у Б. Виккери возникло предположение, что шумерские врачи еще в III тысячелетии до н. э. пользовались диагностическими устройствами, работавшими по этому принципу. На глиняных клинописных плитках записывались симптомы болезней, а под каждым из них - названия болезней, при которых эти симптомы встречаются. Совокупность симптомов составляла координатную сетку, а совпадающие для всех симптомов названия болезней - наиболее вероятные недуги больного.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7