Оцифровка книг

Оцифровка книг — это технический процесс перевода бумажных книг в электронный (цифровой) вид. http://ru.wikipedia.org/wiki/Оцифровка_книг
Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети платно, либо бесплатно.

Методика оцифровки.
В прошлом чаще применялся ручной набор (визуальное копирование) текста книги.



Сегодня процесс оцифровки включает два подхода:
1. Обязательный: получение копий бумажных страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.

2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением формата DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.(о формате DjVu http:/djvu-soft.narod.ru/)

Книжные сканеры
К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:
планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг; например, Plustek OpticBook 3600, OpticBook 4600, OpticPro A300, OpticPro A320 и OpticPro A360;
планетарные — профессиональные высокопроизводительные сканеры (например, Atiz BookDrive DIY, BookSnap, Konica Minolta PS 7000, ЭЛАР ПланСкан, Zeutschel Omniscan, Microbox book2net A2 или i2S CopiBook);
роботизированные — промышленные сверхвысокопроизводительные сканеры (например, Treventus ScanRobot, ЭЛАРобот®, Kirtas APT BookScan 2400 или i2S Digitizing Line 3000), оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 Мпикс.). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).
Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 стр./ч, у лучших моделей — до 2500—3000 стр./ч.

Список электронных библиотек

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов.

К крупным проектам по оцифровке на сегодня относятся: http://books.google.com/
• Google Book Search
• проект «Гутенберг»;о проекте читать
• проект Gallica Национальной библиотеки Франции;
• проект Europeana Европейской коммисии;
• проект openlibrary от Archive.org и др.
  EMC Documentum Испания
  портал http://archive.org.
  http://ingentaconnect.com/
  http://rzblx1.uni-regensburg.de/ezeit/
  http://jurassic.ru/links.htm
  Проекты  MINERVA и MINERVA PLUS
  http://www.webstudio.il4u.org.il/projects/libs/o.html

Оцифровка по желанию
Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты
Scan-on-demand (Сканирование по требованию) — бесплатный проект от http://openlibrary.org/, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки) который содержит большое количество литературы XIX—XX вв на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.

DigiWunschbuch — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на СD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии размещённой в открытом доступе.

Приспособления для сканирования
Получать изображение документа можно сканером или фотоаппаратом. Качественных различий между ними нет, но и у сканеров, и фотоаппаратов есть свои достоинства и недостатки.

Достоинства фотоаппаратов
• Скорость сканирования — мгновения.
• Можно снимать где угодно, хоть прямо в библиотеке.
• Фотографировать можно не только изображение на бумаге.

Их недостатки
• Низкое разрешение; необходимость почастной съёмки (и склейки частей) для получения высокого.
• Неизбежное широкоугольное искажение (выпуклость или дисторсия) изображения, пагубность которого особо проявляется на иллюстрациях.
• Сложно настраивать для достижения высокого качества.

Достоинства сканеров
• Высочайшее качество цветопередачи.
• Высокая разрешающая способность.
• Полное отсутствие искажений в случае плоских и плотно прилагаемых документов

Их недостатки
• Относительно низкая скорость.
• Величина и громоздкость, за исключением ручных сканеров.
• Большие различия моделей, приводящие к невозможности описания простого алгоритма настройки.
• Ограниченность размера; иногда — невозможность качественно отсканировать большой лист по частям.

Теперь подробнее обо всех упомянутых особенностях.

Фотоаппарат
Скорость сканирования полностью настроенным фотоаппаратом ограничивается в основном скоростью, с которой пользователь может сменять оригиналы перед объективом и жать на кнопку съёмки. То, что можно пристроиться в тихом уголке библиотеки и там работать сколько душе угодно — экспериментальный факт. Но проблемы начинаются, если потребовать хотя бы минимального качества получаемых документов. Печать на современных принтерах идёт с разрешением от 300 (отмирает) до 2400 (и даже до 4800 в новейших моделях фотопринтеров) точек на дюйм (dots per inch, далее сокращённо dpi).

Чтобы получить качественный отпечаток размера 1:1, необходимо иметь оригинал, оцифрованный с тем же разрешением. Таким образом, мы приходим к размеру оригинала, который может за раз оцифровать фотоаппарат, к примеру в 6 мегапикселей с минимально допустимым качеством:
в ширину
3000 пикселей / 300 точек на дюйм × 2,54 см на дюйм = 25,4 см,
и в высоту
2000 пикселей / 300 точек на дюйм × 2,54 см на дюйм = 16,9 см.
Теперь немного стандартов: лист формата А4 имеет размеры 297 х 210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту.

В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. Даже часто практикуемая последующая вычитка текста, хотя и снижает количество ошибок, не помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на печатный лист, т. е. на 40000 знаков).

Если обеспечивать достойное качество изображения, то получается, что нужно фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.
Однако после получения изображений кусками их необходимо склеивать. Для панорамных пейзажных снимков существуют программы, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений, но они специфичны и в основном представляют собой военные или технические небесплатные разработки для получения полных карт или чертежей.

Во всяком случае, опыт их использования в качестве генераторов полных изображений у автора отсуствует.

Второй способ сшивки — это знаменитый Фотошоп или его бесплатный аналог GIMP (Гимп).

Дополнительная проблема — для получения частичных изображений необходимо двигать оригинал или фотоаппарат. В любом случае изменяются условия: либо освещённость поверхности, либо угол зрения. Из-за этого, а также стандартной для фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Теоретически, конечно, можно соорудить специальный штатив с источниками подсветки для уничтожения этих искажений, но система будет монструозной и к использованию потому не пригодной (разве что в домашних условиях, а при этом теряется основа удобства фотоаппарата — его мобильность).

Далее — «шевелёнка». Держащие фотоаппарат руки дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка не должна превышать обратного фокусного расстояния. При неидеальных условиях съёмки, что в библиотеке обычно, выдержка будет относительно высокой, и последствия «шевелёнки» проявятся.

Из этого вывод:
штатив при съёмках очень желателен. Нужны также два источника подсветки — справа и слева — для устранения теней на развороте. Но если последующее распознавание текста не требуется, можно обойтись и ручной съёмкой с данным освещением.

Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат. Для выдерживания постоянного характера снимков для их последующей пакетной обработки необходимо выдерживать одинаковую диафрагму, фокусировку и выдержку. Отнюдь не все фотоаппараты позволяют зафиксировать сразу все эти параметры, кроме того, обычно их необходимо фиксировать вручную, а чтобы их правильно подобрать, надо быть умелым фотографом и знать свой фотоаппарат.

При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какой-нибудь десяток-другой снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6×4=24 МБ данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Из-за этого либо фотоаппарат необходимо держать постоянно подключённым к компьютеру, сбрасывая снимки по мере их возникновения (но для этого нужно специфическое программное обеспечение), либо закупаться очень большим количеством дополнительной памяти — не менее 1 ГБ.

Примечание: в тексте говорится о теоретических проблемах при копировании с помощью фотоаппарата, однако на практике (переведены в djvu сотни книг) даже 3 мегапиксельный фотоаппарат делает djvu разворота книги абсолютно приемлемого качества. Очевидно это связано с особенность техники сжатия, текст состоит из миниизображений букв. Поскольку почти все буквы «а» искажены одинаково, то и глаз человека на этом не спотыкается. Кроме того принципиально важен режим съемки с «ручными» установками диафрагмы и выдержки (маленькая диафрагма + большая выдержка).

Большинство фотоаппаратов обеспечивают его только при дистанционном управлении со стороны компьютера. В случае работы на «автомате» качество изображения действительно не выдерживает никакой критики.

Основные моменты сканирования.
Есть два основных метода сканирования: целым разворотом и по одной странице. При любом методе части страницы, где находится текст, должны быть полностью прижаты к стеклу — иначе возникает характерное затемнение в области корешка из-за наклонного падения света лампы подсветки (в любых сканерах) и размывание текста из-за малой глубины резкости (только в CIS-сканерах).

Поэтому практически невозможно хорошо отсканировать книги, которые плохо открываются. (Существует, однако, специальный сканер OpticBook 3600, позволяющий сканировать книгу, открытую на 90 градусов. Этот сканер пока имеет драйверы только под Windows.) При сканировании разворотом, если книга полностью не влезает на стекло, может возникать дополнительное размытие текста на краю страницы из-за того, что текст не прижат к стеклу (только в CIS-сканерах).

Всё это необходимо тестировать перед началом сканирования и определить оптимальный метод.
Необходимо также определить оптимальную рамку сканирования и контрастность. Это можно подобрать только методом проб и ошибок, но это необходимо подобрать правильно перед сканированием. Желательно также сразу же установить гамму и точки белого и чёрного, если это позволяет софт Вашего сканера.

Класть книгу абсолютно ровно, без перекосов, у Вас всё равно не получится, но это и не нужно, так как выравнивание можно проделать автоматически специальным софтом на стадии обработки сканов. Разрезание отсканированных разворотов и выравнивание полей тоже делается почти автоматически.

Иногда имеет смысл сделать ксерокс с книги и сканировать этот ксерокс. Дело в том, что в ксерокс-машинах гораздо больше глубина резкости, чем у сканеров, и поэтому удаётся скопировать участки текста, прилегающие к корешку книги, даже если книга плохо раскрывается. Кроме того, ксероксы специально делают повышение контрастности изображения, что позволяет избавиться от серого фона страниц и максимально уменьшить затемнение в середине разворота.

Софт для управления сканером можно использовать любой, например VueScan (есть для Windows / Linux), Irfan View (Windows), XnView (Windows), gimp/sane (Linux). Поддержка сканеров для Linux/Mac гораздо хуже, потому что как правило все производители делают драйверы только для Windows.

Википедия

Комментарии

Популярные сообщения из этого блога

Для чего создан данный блог.