Проблема создания электронного описания библиографического ресурса

Описание библиографического ресурса в электронной форме является неотъемлемой частью процесса автоматизации библиотечной деятельности. Многообразие видов библиографических ресурсов и способов их описания для задач систематизации и каталогизации, а также поиска накладывает дополнительные требования на качество аппарата описания этих ресурсов. В настоящее время для описания библиографических данных используются структуры (форматы) стандарта ISO-2709. В мире наиболее распространены два формата USMARC (MARC21), созданный в Библиотеке Конгресса США и являющийся основным стандартом каталогизации в Соединенных Штатах и формат UNIMARC, созданный IFLA (International Federartion Library Association) - организацией объединяющей библиотеки более 200 стран мира. В России разработан стандарт RUSMARC, основанный на стандарте UNIMARC, но имеющий некоторые особенности и включающий ряд полей описания стандарта USMARC. Процесс описания библиографических ресурсов- это сложный с технологической и производственной точки зрения процесс.

Введение

Описание библиографического ресурса в электронной форме является неотъемлемой частью процесса автоматизации библиотечной деятельности. Многообразие видов библиографических ресурсов и способов их описания для задач систематизации и каталогизации, а также поиска накладывает дополнительные требования на качество аппарата описания этих ресурсов. В настоящее время для описания библиографических данных используются структуры (форматы) стандарта ISO-2709. В мире наиболее распространены два формата USMARC (MARC21), созданный в Библиотеке Конгресса США и являющийся основным стандартом каталогизации в Соединенных Штатах и формат UNIMARC, созданный IFLA (International Federartion Library Association) - организацией объединяющей библиотеки более 200 стран мира. В России разработан стандарт RUSMARC, основанный на стандарте UNIMARC, но имеющий некоторые особенности и включающий ряд полей описания стандарта USMARC. Процесс описания библиографических ресурсов- это сложный с технологической и производственной точки зрения процесс.

В крупных библиотеках для описания одной книги высококвалифицированному каталогизатору требуется 2-2,5 часа, чтобы описать ее как ресурс и внести все точки доступа и составить необходимые ссылки на авторитетные данные об этой книге. От качества ввода описательной информации о ресурсе зависит в дальнейшем работа большой цепочки программ автоматизации электронного поиска, электронного и кафедрального заказа, книговыдачи, статистики, регистрации и учета читателей, учета движения фонда как внутри одной библиотеки, так и в рамках межбиблиотечного абонемента.

Что такое электронный каталог и зачем он нужен?

В узком понимании этого слова электронный каталог - это база данных о книгах в одной библиотеке, которая хранит список всех книг для осуществления учета поступления, поиска, заказа, книговыдачи, статистических данных и книгообеспеченности.

При столь узком рассмотрении появляется возможность автоматизации работы библиотеки при создании “конвейера книговыдачи”. Если оценить работу библиотеки не с позиции ежеминутной автоматизации (как магазин), где срок хранения информационного объекта и соответственно ссылки на него определяется максимум несколькими годами, в библиотеке информационный ресурс хранится веками и соответственно формат хранения информации должен быть продуман на длительный срок.

Так в крупнейших библиотеках страны автоматизация началась с 1973 года, и в те годы началось создание электронных каталогов, которое идет и по сей день и будет продолжаться в течение не одного десятилетия. Ближайшая к нам крупная библиотека ГПНТБ СОРАН (Новосибирск) является четвертой по объемам носителей в России, и это значение составляет 16 млн. единиц хранения. В настоящее время в электронном каталоге ГПНТБ СОРАН нашли отражение лишь 270 тысяч документов (Прим. авт. на конец 2001 года). Аналогичная ситуация и с другими библиотеками, в том числе областными, краевыми и некоторыми центральными городскими. При таком длительном сроке автоматизации нет смысла говорить о приоритете какого-либо программного обеспечения, поскольку срок жизни ПО составляет не более 5-7 лет. Также сложно говорить о форматах хранения данных и носителях информации. Насколько изменился спектр программного обеспечения и возможности оборудования с 1990 года, например, не говоря о семидесятых годах.

За столь длительный период времени изменяются не только технические средства, но и мировоззрения людей. Таким образом, встает вопрос о стандартизации с одной стороны и гибкости в описании ресурсов нового поколения с другой. Так, вновь требующие описания электронные ресурсы на магнитных и оптических носителях, определяют дополнительные сложности в создании стандартов описания этих ресурсов.

На начальном этапе автоматизация библиотек понималась лишь как создание электронных каталогов для ускорения и упрощения поиска читателей, однако в процессе развития технологий автоматизации стало ясно, что становится возможным создание технологии для библиотеки, в которой не будет библиотекарей, как это не парадоксально звучит. И единственным связующим звеном в передачи информации от первой идеи электронных каталогов к идеи полной автоматизации и ее воплощению стал формат передачи данных, упомянутый ранее (форматы семейства MARC).

Что такое электронная каталогизация в библиотеке?

В самом простом определении - это ввод информации об информационном носителе в соответствующие поля, необходимые для описания ресурса (ввод информации в ячейки базы данных).

Сложности поддержки таких структур баз данных:

  • Заранее невозможно сказать, сколько полей потребуется для описания того или иного ресурса и какие они будут. Не секрет, что для описания книги требутся совсем другой набор описательных признаков (точек доступа), чем для описания журнала.
  • Невозможно сказать про объем вносимой в поле информации. Так, заглавие может состоять из одного слова, а может составлять до 3 кб текста, если это заглавие к изменению закона. Еще сложнее дело обстоит с вводом аннотаций и содержаний.
  • Невозможно сказать про количество ряда полей при описании. Например, у книги может не быть автора, а может быть более 100, если это сборник трудов конференции.
  • При работе с библиографическими данными встает вопрос о многоуровневых поисковых системах, например, журнал (подписной талон) - номера журналов, имеющиеся в библиотеке с расписанным содержанием и ссылками на используемую литературу авторами статей - описание отдельной статьи журнала - полный текст найденной статьи.
  • Использование многоуровневых связок с внешними базами данных, как тезаурусы, словари синонимов, словари переводов, авторитетных файлов, разночтений авторов и заглавий организаций, и т.п.
  • На основе вышеописанных особенностей можно сделать вывод о неспособности реляционной модели данных удовлетворить всем изложенным требованиям. В результате начали возникать библиографические модели хранения данных. Первая такая модель появилась в 1962 году в США. На данное время список библиографических СУБД, очень схожих с технологией объектных баз данных представлен не менее 10 типами.

    В большинстве российских библиотек процесс автоматизации находится в очень плохом состоянии. Обусловлено это, прежде всего, низким уровнем финансирования и низким профессиональным уровнем работающих с вычислительной техникой. Если вопросы обслуживания ЭВМ освещены и достаточно просты, то вопросы создания автоматизированных технологий в библиотеках нигде не описаны. Кроме всего этого у большинства работников библиотек, занятых в автоматизации нет видения этих процессов даже на ближайшие несколько лет. И в большинстве библиотек ни состав программистов, ни руководящий состав не даст гарантии за качество работ по автоматизации.

    Проблемы электронной каталогизации

    Ввод информации в электронные каталоги библиотек осуществляется, как правило каталогизаторами, которые тоже самое делали на печатных машинках. Однако, ввод информации в электронную базу данных намного сложнее, чем просто печать. И долгое время единственным критерием качества работы каталогизаторов с электронным каталогом - это количество распечатанных карточек за единицу времени. Утрирование труда наполнения баз данных произошло также за счет появившихся на рынке программных продуктов, где не затронуты вопросы комплексной автоматизации как таковой, а лишь поверхностно получены технические решения. Кроме всего этого в программах автоматизации для ускорения работы были исключены элементы формально-логического контроля вводимых данных на входе, что также не способствовало качественному вводу данных в электронные каталоги библиотек. Кроме всего этого в середине 90-х годов наметилась волна собственных разработок библиотек, которые представляли из себя структурированные списки данных, и не более того. Возможности для модульного расширения и модернизации в этих системах отсутствовали.

    При отсутствии контроля за содержанием вводимых в базы данных, и контроль лишь по распечатанным карточкам и отсутствие в системах автоматизации библиотек логического контроля вводимых данных привело к накоплению ошибок при вводе данных. Такая ситуация продолжалась с 1993 по 1999 год. Вся созданная библиографическая информация по стране являлась ошибочной. Общероссийские ресурсы были отредактированы силами головных библиотек, а вот краеведческие ресурсы (издания, издающиеся в регионах) отредактированы не были. Так, на сегодняшний день в базах данных библиотек количество ошибочных описаний составляет более 50%. Что и является основной проблемой представления этих записей в свободной доступ, а отнюдь не технологические или технические проблемы. Самое страшное для любого специалиста - это презрение коллег и публичное уличение в ошибках! И только смелые выставили свои каталоги на всеобщую оценку.

    При таких объемах ошибочных данных встает вопрос о создании алгоритмов глобальной корректировки библиографической информации. На самом деле создание такого алгоритма заключается в определении систематических ошибок при создании каталога и написании программ по выборочному исправлению этих ошибок.

    Основные этапы работы по созданию алгоритмов глобальной корректировки библиотечных электронных каталогов с учетом особенностей библиографических форматов данных USMARC и RUSMARC.

    Вначале особенности форматов:

  • В формате USMARC автор и его инициалы записываются в одно подполе, в RUSMARCe же фамилия записывается в одно подполе, а полные имя и отчество в другое подполе.
  • В формате USMARC при описании ссылок на ресурсы описанные с содержанием, например сборник трудов конференции допускается вложенность 2 уровня (поле-подполе), а в RUSMARCe допускается вложенность 3 уровня (поле-подполе-подподполе).
  • Основные этапы глобальной корректировки:

  • Определение закономерностей появления ошибок в полях и подполях электронного каталога (например, буква страницы с. не в русском, а в латинском регистре и т.д.). Этот этап работ не поддается автоматизации, поскольку библиографические данные индивидуальны.
  • Изучение и определение возможностей системы по глобальному исправлению ошибок.
  • Написание единого алгоритма на входном языке библиографической системы.
  • Экспорт данных из локальной библиотечной системы в коммуникационный формат RUSMARC или USMARC и проверка стандартными средствами анализа соответствия качеству описания ресурсов.
  • A.C. Карауш

    Январь 2002 года

    Оставить комментарий

    *
    Для защиты от спама
    Anti-Spam Image