1. Перейти к содержанию
  2. Перейти к главному меню
  3. К другим проектам DW

Цифровые архивы: сколь они долговечны?

Владимир Фрадкин «Немецкая волна»

06.02.2006

https://p.dw.com/p/7wpT

Неделю назад мы рассказали о новых подходах к терапии болезни Альцгеймера – наиболее распространённой формы старческого слабоумия, сопровождаемого потерей памяти. В сегодняшней передаче речь пойдёт о проблемах, связанных с архивированием и хранением компьютерной информации. Казалось бы, между этими темами нет ничего общего, но при ближайшем рассмотрении некоторые аналогии напрашиваются сами собой: ведь потеря памяти грозит не только стареющим людям, но и архивам.

То, что с течением времени накопленная информации может быть утрачена, известно очень давно. Не зря ещё в 330-м году римский император Константин принял меры, направленные на сохранение тогдашнего культурного наследия: по его приказу с более чем ста тысяч рассыпающихся от старости папирусных свитков, лежавших в константинопольских библиотеках, писцы изготовили копии на самом новом по тем временам и более долговечном носителе – пергаменте. Так что и проблема борьбы за сохранность информации, и один из главных методов её решения – копирование, перенос информации с одного типа носителя на другой – стары как мир. Но эпоху, в которой мы сегодня живём, не зря называют информационной. Какую сторону человеческой деятельности ни возьми – политику или экономику, спорт или науку, – везде потребность в информации и её объёмы стремительно растут. Соответственно, обостряется и проблема её хранения.

Ханс Лигман (Hans Liegmann), сотрудник Национальной немецкой библиотеки во Франкфурте-на-Майне, приводит такие цифры:

По имеющимся у меня статистическим данным, в 2002-м году в мире было произведено 5 миллиардов гигабайт информации. Это в 37 тысяч раз больше того, что хранится в Библиотеке Конгресса в Вашингтоне, одной из самых крупных библиотек в мире. Причём 92 процента этой информации было изначально произведено в цифровом виде.

Даже если допустить, что архивированию подлежит всего лишь 1 процент этой информации – всё равно получается гигантский объём данных. Но всё же главная проблема – не ёмкость носителей, а их долговечность. Сохранность информации – это очень сложная проблема, с которой учёные сталкиваются на каждом шагу. Типичным примером могут послужить трудности, которые пришлось преодолевать сотрудникам Федерального государственного архива в Кобленце при разборке гигантского массива данных из бывшей ГДР. Эксперты столкнулись сразу с тремя проблемами. Во-первых, весьма недолговечными оказались сами носители информации – магнитные ленты и дискеты. Во-вторых, сотрудники архива обнаружили, что программное обеспечение, являвшееся стандартным в «немецком рабоче-крестьянском государстве», несовместимо с теми операционными системами и прикладными программами, которые применялись тогда же на Западе, и уж тем более – с теми, которые повсеместно применяются сегодня. И в-третьих, почти столь же несовместимыми оказались аппаратные средства, то есть сами вычислительные машины и периферийные устройства.

Однако не надо думать, будто всё дело сводится к несовместимости восточных технологий с западными. Главная причина проблем, как это ни парадоксально, – кроется в научно-техническом прогрессе как таковом. Стремительная смена поколений компьютеров и версий программного обеспечения усложняет или даже делает невозможным использование баз данных совсем, казалось бы, недавнего времени. Потому что последний писк сегодняшней компьютерной моды уже завтра будет восприниматься как далёкий отголосок каменного века электроники. Когда некоторое время назад знаменитый программист Джарон Лэнье (Jaron Lanier), изобретатель термина «виртуальная реальность», захотел выставить в одном из музеев – в рамках ретроспективы, посвящённой истории мультимедийных средств, – свою знаменитую компьютерную игру начала 80-х годов «Лунная пыль», из этой затеи ничего не вышло: он не смог раздобыть ни компьютер «Коммодор-64» образца 82-го года в рабочем состоянии, ни нужный джойстик, ни подходящий видео-интерфейс. Такая же судьба постигла Карла Гудмена (Carl Goodman), куратора Американского музея визуальных образов в Нью-Йорке. Ему понадобился один из самых первых компьютерных компакт-дисков под названием «Как устроена ЭВМ». Диск-то нашёлся, а вот древнего «Макинтоша», на котором его можно было бы запустить, разыскать так и не удалось. Что уж там говорить о таких носителях информации 70-х годов как перфокарты, если сегодня днём с огнём не найти дисковода для гибких дискет диаметром 5,25 дюйма, имевших широкое распространение всего каких-то 15 лет назад!

Столь же серьёзная проблема – физическое старение носителей информации. В случае с восточногерманскими архивами дело усугубляется тем, что в ГДР для этих целей использовалась магнитная лента отечественного производства – фирм «Orwo» или «Pyral», – а её качество оставляло желать лучшего. К тому же многие из рулонов годами валялись в сырых подвалах – а ведь ферромагнитный слой этих лент склонен к коррозии. Но даже идеальные климатические условия хранения вовсе не гарантируют долговечность магнитных носителей информации. Ведь при считывании данных лента трётся о головку, а значит, имеет место износ. Намагниченность ленты постепенно снижается, и в какой-то момент начинаются сбои. Проблема усугубляется тем, что цифровые данные гораздо чувствительнее к ошибкам считывания, чем аналоговые. Если, скажем, из книги выдрать одну страницу, остальное всё равно можно будет прочитать. Но там, где приходится иметь дело с цифровой информацией, как правило, действует принцип «всё или ничего», – жалуется сотрудник архива в Кобленце Михаэль Веттэнгель (Michael Wettengel). Одной единственной ошибки порой достаточно, чтобы сделать нечитаемым – а значит, бесполезным, – весь носитель. Это хорошо известно тем владельцам домашних компьютеров, кто пользовался – или продолжает пользоваться до сих пор – имевшими ещё недавно широкое распространение дискетами диаметром в 3,5 дюйма. Хоть сам носитель защищён пластмассовым корпусом, при каждом использовании головка дисковода касается магнитного слоя. Быстрее всего изнашивается тот участок дискеты, на котором размещено «оглавление», то есть перечень файлов.

Более долговечны жёсткие диски. Их ресурс – по расчётам производителей – составляет 250 тысяч часов, то есть примерно 28 лет. Однако этот оптимизм носит сугубо теоретический характер и проверке не поддаётся: на практике ни один жёсткий диск пока столько не проработал. Но даже если он и в самом деле способен выдержать 28 лет – что с того проку? Ведь компьютеры, с которыми совместим этот жёсткий диск, устареют гораздо раньше!

Сегодня самыми надёжными и долговечными являются оптические носители информации – CD-ROM’ы, CD-R’ы, DVD. Поначалу реклама утверждала, что они вообще вечные. Теперь принято считать, что у компакт-дисков фабричного производства продолжительность жизни 100 лет – при условии их оптимального хранения, то есть в сухом, прохладном и тёмном месте. Для электронного носителя информации ресурс в 100 лет – вроде бы, много. Но бумага – по крайней мере, та, что была изготовлена до середины 18-го века, то есть ещё по традиционной технологии без применения кислот, – прекрасно хранится многие сотни лет. К тому же долговечность дисков, нарезаемых в домашних условиях, сильно зависит от качества болванок и, как показали недавние испытания, может быть крайне низкой. Но даже если диски сохранятся – где гарантия, что через 100 лет наши потомки найдут подходящее проигрывающее устройство? Недаром среди информатиков бытует шутка: «цифровые данные хранятся либо вечность, либо 5 лет – в зависимости от того, что истечёт раньше».

Глиняные дощечки в силу естественных причин гораздо долговечнее, чем хрупкий компакт-диск, не говоря уже о тонком ферромагнитном покрытии, нанесённом на полимерную плёнку. Памятники угаритской письменности, датируемые 2-м тысячелетием до нашей эры и обнаруженные в 1928-м году в окрестностях ливанского города Рас-Шамры, прекрасно сохранились. Но самое главное – учёные смогли их прочесть и расшифровать. Вряд ли можно ожидать, что такой же уровень сохранности информации способны обеспечить цифровые носители: ведь даже восковые валики Эдисона или шеллаковые грампластинки, изготовленные на заре эпохи звукозаписи, сегодня воспроизвести гораздо легче, чем расшифровать информацию, содержащуюся на иных цифровых носителях, возраст которых не превышает 10-15-ти лет.

Конечно, хранение документов в цифровой форме имеет и ряд преимуществ. Скажем, в государственном архиве земли Баден-Вюртемберг в Людвигсбурге результаты переписи населения 1970-го года хранятся в обеих формах, – говорит сотрудник архива Кристиан Кайтель (Christian Keitel):

Если их сравнить, то это существенная разница – просмотреть 665 погонных метров полок или сунуть в компьютер три компакт-диска.

Ещё одно важное преимущество цифровых носителей состоит в том, что их легко копировать, а возможность поместить идентичные копии на хранение в разных местах снижает риск безвозвратной утраты информации:

Если пожар уничтожит одно здание, то в другом здании цифровые копии той же информации сохранятся. Копировать же бумажные документы совершенно нереально. На одном погонном метре полок помещается в среднем 4 тысячи страниц документов. А у нас в архиве суммарная длина полок превышает 34 километра.

На сегодняшний день предложено 5 способов архивирования цифровых данных. Первый состоит в том, чтобы вместе с информацией хранить заодно и старые компьютеры с руководством по их эксплуатации и старые программы с их подробным описанием – то есть те самые аппаратные и программные средства, с помощью которых эта информация изначально собиралась и обрабатывалась. Это то же самое, что хранить шеллаковые пластинки вместе с граммофоном и иглами к нему. Метод технически легко реализуемый, но на практике вряд ли удобный.

Второй, наиболее широко применяемый сегодня способ, заключается в уже упомянутом переносе информации с одного вида носителя на другой. Среди специалистов этот способ получил название «миграции», – говорит Кристиан Кайтель:

Стратегия миграции состоит в том, чтобы не копировать программное обеспечение, а переносить только саму информацию – по возможности, в стандартизованном формате. Так делают сегодня практически все архивы, включая и наш.

Третий способ – микрофильмирование. Микрофильмы известны давно и отлично себя зарекомендовали. Они долговечнее компакт-дисков, не требуют сложной читальной аппаратуры и дают пользователям возможность распечатать нужную информацию. Но – только если она представлена в аналоговой форме. Для архивирования цифровых данных микроплёнка не очень удобна, – считает Кристиан Кайтель:

С микрофильмированием связана одна проблема: этот способ не обеспечивает немедленный доступ к информации.

Тем не менее, специалисты Института физических методов измерения имени Фраунхофера во Фрайбурге работают над совершенствованием этой технологии. Андреас Хофманн (Andreas Hofmann) – один из сотрудников, занятых в проекте, – поясняет:

На фотоплёнке информацию можно хранить как в аналоговом, так и в цифровом виде. Это большое преимущество микрофильма. Как происходит архивирование аналоговой информации, все хорошо себе представляют: на светочувствительная фотоплёнку лазерным лучом проецируется обычное изображение – тексты, чертежи, рисунки и так далее. Если же речь идёт о цифровой информации, то её элементы преобразуются в отдельные импульсы красного, зелёного и синего цвета различной интенсивности.

Технология предусматривает восемь степеней интенсивности каждого из цветов. Это позволяет достигать высокой плотности записи информации – 3 байта на пиксель. В результате на микрофильме размером с фотоплёнку ёмкостью в 36 кадров для портативных аналоговых фотоаппаратов помещается 3 гигабайта информации. Производитель микрофильмов гарантирует срок хранения в 500 лет. А чтобы наши далёкие потомки знали, как им расшифровать содержащуюся на плёнке информацию, в начале каждого микрофильма должно быть помещено его описание – в виде самого обычного аналогового текста. Но почему всё это разрабатывается только сегодня?

Первая причина состоит в том, что в первые десять лет после того, как нас, скажем так, захлестнула волна цифровой информации, мы слепо верили в те байки о ёмкости и долговечности элементов памяти, которыми нас потчевала компьютерная промышленность. А вторая причина состоит в том, что мы только сегодня достигли той плотности переноса и хранения информации, которая делает эту технологию экономически оправданной.

Однако для повседневного пользования, в ситуациях, когда необходим быстрый доступ к информации, микрофильмы всё же не годятся. В этом смысле удобнее четвёртый способ – обеспечение обратной совместимости будущих поколений компьютеров. Кристиан Кайтель поясняет:

Это способ эмуляции. То есть для каждой новой операционной системы, для каждого нового поколения компьютеров я должен создать программу, которая позволит этим системам и компьютерам поддерживать все старые функции. Тогда я мог бы считывать старую информацию и на новых компьютерах.

Правда, достижения прогресса в области компьютерной техники на старые базы данных не распространялись бы. Но это ещё полбеды. Хуже другое:

Главная проблема состоит в том, что такие эмуляционные программы часто просто не функционируют. А это означает полную потерю информации. На такой риск мы пойти не можем.

Остаётся пятый способ – постоянное перекодирование старых баз данных в каждый очередной новый формат и перенос их на новые поколения компьютеров при каждой их смене. Занятие чрезвычайно дорогостоящее, но что делать? Окончательное решение проблемы предстоит искать нашим потомкам – если, конечно, нам удастся передать им накопленные на сегодняшний день знания. Между тем, трудности, с которыми столкнулись сотрудники архива в Кобленце при расшифровке компьютерного наследия ГДР, – это грозное предостережение всем нам: электронная информация очень уязвима. Немало информации уже безвозвратно утрачено, хотя оценить подлинные масштабы этих потерь трудно. «Примеров такого рода немало, – признаёт Доналд Уолтер (Donald Walter), президент Федерации цифровых библиотек, – но говорить об этом никто не хочет, тема уж больно щекотливая». Впрочем, уже достоверно известно, что утрачены, скажем, данные переписи населения США 1960-го года. Та же печальная участь постигла базу данных, касающуюся программы НАСА по исследованию Сатурна в 70-е годы. Между тем, перевод информации из аналоговой в цифровую форму идёт полным ходом. Многие библиотеки уже составили цифровые каталоги, а старые картотеки сдали в утиль – не слишком ли опрометчиво? Архивы лихорадочно сканируют древние акты и ветхие документы, чтобы сохранить их для потомков – но будут ли цифровые копии долговечнее оригиналов? Кристофер Сейфрайд (Christopher Seifried), руководитель национального архива Канады, называет эту ситуацию «главным парадоксом информационной эпохи». «Если нам не удастся создать технологию долговременного хранения электронных данных, – говорит он, – то эта эпоха может лишиться памяти».

Поэтому тем из вас, дорогие радиослушатели, кто работает на компьютере, хочу дать совет: подстраховывайтесь, распечатывайте на бумаге важные файлы. Не пожалеете!