Book: DjVu- мэйкерство для начинающих



DjVu- мэйкерство для начинающих

Соколов Д.С.

Djvu-мэйкерство для начинающих

DjVu- мэйкерство для начинающих

Издательство: Интернет

Год: 2011

Страниц: 39

АННОТАЦИЯ

В данном руководстве сделана попытка проинструктировать весь процесс по созданию полноценной djvu-книги, начиная с обработки отсканированных изображений (сканов) страниц и заканчивая созданием электронного оглавления. Рассматриваются вопросы разделения текстовой и графической составляющих посредством программы ScanKromsator, обработки, djvu-кодирования и внедрения иллюстраций в готовый djvu-файл с текстами согласно разработанной методики вклейки иллюстраций (МВИ, метод разделенного кодирования). Данная методика позволяет добиться качественного сохранения иллюстративного материала и компактности djvu-книги за счет оптимального кодирования текстовой и графической составляющих обрабатываемых книг (журналов).

Используемые программы:

Adobe Photoshop (7.0 и выше) – графический редактор, Document Express Editor  (6.0.1, DEE) – djvu-редактор, Abbyy FineReader (7.0 и выше) – программа распознавания изображений – коммерческие;

ScanKromsator (v. 5.92, СканКромсатор, СК) – программа обработки сканированных изображений (сканов), Djvu Smalldjvu-кодер, DjvuOCR – редактор OCR-слоя в djvu-книгах, Djvu Bookmarker (1.0.15) – редактор оглавлений в djvu-книгах, IrfanView – графический просмотрщик с функциями редактирования изображений – бесплатные.

Материал: страницы с черно-белыми (ч/б), полутоновыми и/или цветными (далее – полутоновыми/цветными) иллюстрациями.

Описание. В данном руководстве сделана попытка проинструктировать весь процесс по созданию полноценной djvu-книги, начиная с обработки отсканированных изображений (сканов) страниц и заканчивая созданием электронного оглавления. Рассматриваются вопросы разделения текстовой и графической составляющих посредством программы ScanKromsator, обработки, djvu-кодирования и внедрения иллюстраций в готовый djvu-файл с текстами согласно разработанной методики вклейки иллюстраций (МВИ, метод разделенного кодирования). Данная методика позволяет добиться качественного сохранения иллюстративного материала и компактности djvu-книги за счет оптимального кодирования текстовой и графической составляющих обрабатываемых книг (журналов). Подробно ознакомиться с понятиями, методами djvu-кодирования, а также МВИ можно на сайте http://sourceforge.net [1].

В общих чертах суть создания качественного и компактного djvu-файла выражается в раздельном кодировании (сжатии) одноцветного текста, рисунков И растровых иллюстраций (полутоновых, цветных) соответствующими алгоритмами. При этом информация об одноцветном тексте и рисунках заносится в слои mask и foreground, а информация о растровых изображениях – в слой background. В каждом слое информация максимально сжата благодаря разработанным и усовершенствованным алгоритмам. На сегодняшний момент проблема корректного автоматизированного разделения текста и изображений и их кодирования в соответствующих слоях djvu-книги полностью не решена. Согласно МВИ предлагается использовать ручное разделение слоя текста и иллюстраций с последующей обработкой и вставкой иллюстраций в слой background. Одна из сопутствующих проблем – наличие растра в изображениях и выбор метода его удаления. Однозначного решения в выборе доступного и качественного метода удаления растра пока нет, существующие методы размытия растра требуют визуального контроля и смекалки в подборе оптимальных параметров и последовательности действий. Но об этом позже.

Приведу средние размеры получаемых по МВИ djvu-страниц в зависимости от типа содержания: текста, ч/б рисунков, полутоновых или цветных иллюстраций (см. табл.). В расчетах условно предполагается, что текст, рисунки и иллюстрации занимают равные части страницы, например 50% текста+50% ч/б рисунков=15-35 Кб. Отмечу, что размер кодированных иллюстраций во многом зависит как от характеристики цветовой палитры, так и параметров применяемого размывания.

Таблица размеров djvu-страницы с различным наполнением, Кб

Так, кодированная в djvu научно-техническая книга с черно-белыми рисунками (10% всей книги) размером примерно 300 стр. будет «весить» ([5-20]*0,9 + [25-50]*0,1)*300 = 2,1-6,9 Мб. Иллюстрированный журнал (например, «Сабрина») с текстом (40%) и количеством в 50 стр. закодируется в ([150-500]*0,6 + [5-20]*0,4)*50 = 4,6-15,4 Мб, т.е. в среднем – 10 Мб, что подтверждается практикой.

Данная методика применима к сканам бумажных изданий с черно-белыми, полутоновыми или цветными рисунками или без таковых вообще (см. рис. 1).

DjVu- мэйкерство для начинающих

Рис. 1. Пример типичного скана разворота книги, на котором имеется ч/б рисунок и полутоновая иллюстрация

Подразумевается, что исходные сканы имеют разрешение 300 dpi, хотя могут иметь и другие значения – 400, 600 dpi. После обработки и кодирования в формат djvu на выходе получаем файл, состоящий из изображений текста, имеющих разрешение 600 dpi, и внедренных в них изображений рисунков, которые имеют первоначальное разрешение в 300 dpi. Автор предпочитает сканировать бумажную литературу с разрешением в 300 dpi поскольку: 1) качество текста и иллюстраций сохраняется на должном уровне; 2) достигается оптимальное время сканирования и сканы изображений занимают приемлемый объем памяти на жестком диске (книга, имеющая 300 стр., сканируется на весь разворот в среднем 3 часа и занимает около 1,5 Гб). Уменьшая разрешение изображений рисунков, илллюстраций, с первоначальных 300 dpi до 200 и ниже, мы тем самым заметно ухудшаем их конечное качество, поскольку изображения в процессе кодирования претерпевают сильное размытие, затираются мелкие детали, которые и так были уменьшены до нельзя. Помните – хорошá та djvu-книга, которая практически неотличима от оригинала!

Методика состоит из шагов, которые имеют четкий порядок следования:

Шаг 1. Подготовка к обработке сканов в СК. На данном этапе назначаются задания на обработку сканов и указываются их параметры:

– оформление и параметры страницы – задание выходного формата, цветовой палитры, размера, названия файла, разрешения, размещения содержимого страницы (т. е. полей), поворота, разрезания разворотов на отдельные страницы;

– обработка изображений текста с целью приведения его к ч/б виду с максимальным сохранениям оригинальности и четкости контуров текста. Используются операции: очистка от мелкого мусора, размывание, сглаживание, увеличение резкости, настройка освещения, изменение контраста и яркости и т. д. Согласно требованиям пользователя выбираются необходимые операции и для них настраиваются параметры.

Шаг 2. Выделение иллюстраций (ч/б, полутоновых, цветных) в зоны для настройки параметров индивидуальной обработки. К зонам можно применить те же самые действия – очистку от мелкого мусора, размывание и т. д.

Шаг 3. Автоматическая обработка всех страниц программой СК.

Шаг 4. Объединение зон ч/б рисунков с текстом.

Шаг 5. «Косметическая» постобработка обработанных страниц.

Шаг 6. Обработка полутоновых/цветных иллюстраций (размывание, корректировка тонального, закрашивание мусора, белых пятен и прочее).

Шаг 7. Формирование страниц только с полутоновыми/цветными иллюстрациями.

Шаг 8. Djvu-кодирование всех страниц, кроме страниц-иллюстраций.

Шаг 9. Приведение страниц-иллюстраций к изначальному разрешению (разрешению сканирования).

Шаг 10. Djvu-кодирование страниц и их объединение (склеивание) с djvu-страницами текста.

Шаг 11. Создание OCR-слоя на основе страниц текста и его внедрение в djvu-книгу.

Шаг 12. Создание обложки, ее djvu-кодирование и внедрение в djvu-книгу.

Шаг 13. Создание электронного оглавления в финальной djvu-книге с помощью программы Djvu Bookmarker.

Схема следования шагов изображена на рис. 2. Также указан тип шага с точки зрения автоматизации.

В зависимости от типа бумажного носителя, его содержания, а также требований пользователя некоторые шаги методики могут пропускаться. В Приложении приведены шаги обработки распространенных типов бумажного издания: научно-технической литературы, иллюстрированных журналов, книг без каких-либо рисунков и др.

Статья иллюстрируется примерами, сопровождается советами и ориентирована на начинающих пользователей-энтузиастов и будет, надеюсь, интересной опытным умельцам.

Успехов в ваших начинаниях и экспериментах!

DjVu- мэйкерство для начинающих

Рис. 2. Общая схема создания djvu-книги в зависимости от наличия в ней иллюстраций различного типа. Указаны примерные временные затраты на выполнение различных этапов (для компьютера с процессором 2,3 Гц, оперативной памятью 1 Гб)

Все пожелания, советы и критику просьба направлять на почту danilka23sds@mail.ru, на ру-борде (forum.ru-board.com, никнейм melodan) или пишите на сайте Инфаната в личку: http://www.infanata.com/user/bookoman/.

Примечание: для наглядного просмотра больших рисунков следует сразу переключиться в режим просмотра Веб-документ (в меню Вид).

СОДЕРЖАНИЕ

ШАГ 1 (Р)5

ШАГ 2 (Р)10

ШАГ 2А12

ШАГ 2Б12

Шаг 3 (А)14

Шаг 4 (А)15

Шаг 5 (Р)16

Шаг 6 (Р-А)20

Шаг 7 (А)25

Шаг 8 (А)26

Шаг 9 (А)27

Шаг 10 (А)28

Шаг 11 (Р-А)30

Шаг 12 (Р)32

Шаг 13 (Р-А)33

ПРИЛОЖЕНИЕ36

Стандарты на форматы бумажных изданий и размеры изображений их страниц36

Список литературы37

Примеры этапов для различного типа бумажных изданий38

ШАГ 1 (Р)

Подготовка к обработке сканов в СК – составление плана обработки сканов в виде различного рода заданий (команд, операций) и указания их параметров. Все задания можно разделить на категории:

– оформление и параметры страницы – задание выходного формата, цветовой палитры, размера, названия файла, разрешения, размещения содержимого страницы (т.е. полей), поворота, разрезания разворотов на отдельные страницы;

– обработка изображений текста с целью приведения его к ч/б виду с максимальным сохранениям оригинальности и четкости контуров текста. Для этого, как показывает практика, чаще всего применяют следующие операции: указание порога преобразования к ч/б виду (порога бинаризации) (Convert to b/w threshold), очистку от мелкого мусора (Despeckle), размывание (Blur), сглаживание (Smooth), увеличение резкости (Sharpen), настройку освещения (Illumination), изменение контраста (Contrast) и яркости (Brightnes). Пользователю необходимо выбрать нужные операции (в зависимости от качества изображения, личных предпочтений) и настроить для них параметры. Настройка (подбор) параметров проводится «на глаз» путем предварительной обработки (

DjVu- мэйкерство для начинающих
или нажатием клавиш Ctrl+P) наиболее «проблемных» изображений с текстом.

Большинство заданий настраиваются индивидуально на каждую страницу или зону, но чтобы выбранное задание распространить на все объекты, при назначении задания необходимо удерживать клавишу Ctrl (например, для назначения операции сглаживания). Кроме того, все или часть заданий можно унифицировать и применять к последующим проектам. Это реализуется с помощью профилей (меню FileProfiles). Задайте необходимые значения параметров обработки и примените их на текущем профиле default кнопкой Save (Сохранить) и, по желанию, экспортируйте в файл кнопкой Export… (Экспортировать..). Для загрузки профиля используйте кнопку Import…(Импортировать…) и не забудьте его применить на текущем профиле.

Опишу в общем всё действо, происходящее на первом шаге.

На скане выделяется полезная область (с помощью линий-резаков) – текст и иллюстрации, всё остальное отсекается – мусор, черные полосы и т.д. Эта полезная область впоследствии будет скопирована и помещена на чистый (белый) шаблон. Как будет располагаться этот блок на шаблоне – указываете вы: размеры шаблона, отступы блока от границ шаблона, его выравнивание. Далее необходимо настроить порог, при котором серый текст станет черно-белым с минимальными потерями в качестве. Также можно применить по необходимости различные операции и эффекты:

– сглаживание и размытие – для удаления неровностей шрифта текста, затиранию очень мелких точек (размером 1-2 пикселя) – это повысит читабельность книжки;

– осветление – помогает избавляться от затемненных участков, например, на развороте книги;

– удаление мелкого мусора – точек, черточек и пр.;

– исправление ориентации скана – служит для горизонтального выравнивания текстовых блоков скана.

Настройка параметров выполняется, как правило, методом «научного тыка» – установили значение для одного параметра, обработали страницу, оценили результат, подкорректировали значение параметра.

Далее следует указать параметры сохранения обработанных сканов: задать директорию сохранения, формат файла, какое будет выходное разрешение, указать, что это будет черно-белый скан. По необходимости можно указать, какое будет иметь конечное имя обработанное изображение, будут ли страницы следовать друг за другом или они будут четными/нечетным и т.п.

На этом выполнение шага 1 заканчивается.

Краткая инструкция по работе резаков

Рассмотрим основные задания подробнее:

– расстановка резаков. С их помощью определяется полезная область содержимого страницы – текст и иллюстрации. Эта полезная область будет скопирована и помещена на чистый (белый) шаблон, размер которого можно задать автоматически или вручную (в полях). Сначала резаки предварительно автоматически устанавливаются программой СК согласно указанным пользователем правилам, затем их неверное конечное расположение корректируется самим пользователем. Эти правила задаются в окне Draft cromsate, которое вызывается с помощью кнопки

DjVu- мэйкерство для начинающих
. Самое простое – это поставить галочки напротив Split images и Safe top/bottom. Об использовании других параметров вы можете узнать в дополнительной литературе (см. Приложение). После нажатия кнопки ОК запускается автоматическое определение позиций резаков;

– указание размеров выходных страниц (на вкладке Book в полях Page width и Page height) – см. рис. 3, в центре;

DjVu- мэйкерство для начинающих

Рис. 3. Установка основных операций и параметров обрабатываемых страниц:

слева – разрезанию, повороту, очищению от мусора, расположения, автоотступов,

в центре – размеров результирующих страниц и отступов,

справа – формата страниц, разрешения, цветовой палитры и места сохранения

DjVu- мэйкерство для начинающих

Рис. 4. Установка основных операций и параметров обрабатываемых страниц:

слева – методов поворота и очищения от мусора,

в центре – порога преобразования к ч/б виду,

справа – значений сглаживания и размытия

– настройка параметров обработки (яркости, освещение, сглаживания и т. д.) – рис. 4, справа.

DjVu- мэйкерство для начинающих

Рис. 5. Настройка параметров обработки страниц. Установка значений контраста (Contrast) – слева, и осветления (Illumination) – справа

Полезные советы:

– после обработки книги, если было задано Page Width=Page Height=auto (т.е. СК сам определял итоговые размеры книги с учетом заданных полей gaps), СК сам подставляет получившиеся размеры в соответствующие поля. После обработки нужно обязательно сменить auto на fixed, чтобы при переделке каких-то отдельных страниц их размер выдерживался равным итоговому размеру книги;

– можно следовать специальным стандартам на размеры страниц согласно заданному формату книги (см. Приложение). Например, для книги формата 84×108/32 размер выходной страницы, имеющей разрешение 600 dpi, следует поставить равным 3070×4724 пикс. Автор рекомендует устанавливать размеры, кратные 100 или 10 (не спрашивайте, почему , так нужно). Большие поля у выходных страниц практически не влияют на конечный размер результата их кодирования в djvu;

– выдержка из пособия по Кромсатору: «Основная обработка по кнопке Process! – это автоматический алгоритм распознавания контура текста на скане. В процессе этой обработки программа автоматически анализирует область внутри резаков, находит контур текста, и обрезает по нему. Попутно к скану применяются Despeckle, Deskew и т.п. Получается т.н. «голый текст», без полей. Далее рассчитываются средние ширина и высота голых текстов (и заносятся в поля Page width и Page height на вкладке Book), создаётся пустой шаблон с этими размерами, каждый голый текст копируется на копию этого шаблона (с относительным выравниванием, задаваемым в полях ввода Page h.align и Page v.align на вкладке Pages), а затем к этой копии добавляются поля заданного размера (размеры берутся из полей ввода H.Gap value и V.Gap value на вкладке Book). Так и получаются конечные обработанные сканы…»;

– если отсканированные страницы получились с наклоном, то для их успешного выравнивания необходимо установить на вкладке Page флажки Deskew и Art для обеих половин страниц (L и R). Это немного увеличит время обработки сканов, но и уменьшит количество страниц с неверно исправленной ориентацией. В любом случае будут страницы, которым придеться вручную исправлять ориентацию (подробнее об этом см. на шаге 5);

– не забывайте тестировать устанавливаемые параметры на сканах путем их предварительной обработки, причем желательно выбирайте разные сканы – как по яркости, так и содержанию, чтобы оценить результат обработки и соотнести его на все остальные страницы;

– если скан после обработки содержит мелкий мусор, то установите на вкладке Options в поле Despeckle значение Fine+Normal (вместо значения Normal) – это самый лучший («сильный») чистящий алгоритм. Однако он удаляет мелкие точки, штрихи и т.п. Для их сохранения выбирайте значение Safe;

– значения порога преобразования к ч/б виду могут варьироваться в широком диапазоне, скажем, от 160 до 230, в зависимости от качества скана. Например, часто для бледного изображения страницы достаточно установить значение, равное 180. Путем предварительной обработки пробных страниц, старайтесь достичь идеального соответствия толщины символов на исходном скане с соответствующими символами на обработанной странице. Если шрифт получается слишком тонким, необходимо увеличить порог бинаризации, слишком жирным – уменьшить. На величину порога влияет функция Illumination, которая несколько осветляет изображение страницы;



– навык умения работы с резаками, а также понимание механизма отступов (работа с полями Automargins, Page h. align, Page v. align, Spec. gaps) напрямую влияют на затраты сил и времени по сохранению точного расположения страниц в книге. Например, любой резак можно заранее зафиксировать в определенной позиции и применить его ко всем страницам или группе; обрезать только части страниц – например, только на развороте и т. д..

Пример: проиллюстрирован на рис. 6.

DjVu- мэйкерство для начинающих

Рис. 6. Правильно расставленные резаки на одном из сканов-разворотов

ШАГ 2 (Р)

Выделение иллюстраций в зоны для настройки параметров индивидуальной обработки. Производится с помощью инструмента выделения

DjVu- мэйкерство для начинающих
и назначения зоны как Изображение
DjVu- мэйкерство для начинающих
. Двойным нажатием на выделенной зоне вызывается окно ее свойств Picture zone properties, в котором указывается, каким образом следует обработать иллюстрацию (рис. 7). Удаление зон происходит нажатием клавиши Del.

Наиболее интересуемые нас варианты обработки:

– разрешение страницы DPI на выходе. Будем использовать значения 300 или 600;

– конечная цветовая палитра Color. Значения – B/W, Gray, Original;

– изменение контраста Contrast. Принимает значения от -50 до 100;

– изменение яркости Brightnest. Принимает значения от -100 до 100;

– сглаживание Smooth, размывание Blur, увеличение резкости Sharpen. Желательно выставлять для них значения не выше 3.

DjVu- мэйкерство для начинающих

Рис. 7. Окно свойств зоны иллюстрации. Перечень используемых в обработке иллюстрации параметров. Остальные – размыты.

Остальные параметры автором не использовались и требуют отдельного изучения.

Полезные советы:

– для облегчения выделения большого числа зон используйте инструмент

DjVu- мэйкерство для начинающих
. Он позволяет после выделения той или иной зоны сразу задать ее тип – картинка, ч/б зона и т.д. Нас интересует тип Картинка (Picture zone);

DjVu- мэйкерство для начинающих

– в программе СК реализован удобный механизм – параметры обработки, указанные для очередной иллюстрации, автоматически распространяются для последующих выделяемых иллюстраций;

– если в книге содержатся полутоновые и цветные картинки одновременно, то их выделять следует последовательно – сначала, например, только полутоновые, а затем цветные: так вам не придеться для каждой зоны устанавливать индивидуальные, но повторяющиеся однотипные параметры;

– выделение может быть не только прямоугольным, но и многоугольным. Это реализуется с помощью команды Convert to polygon в контекстном меню зоны. При этом выделение «обрастет» вершинами, которые можно передвигать. Для добавления новой вершины на выбранном ребре, щелкните мышью на последнем. А чтобы избавиться от ненужной вершины – зажмите Ctrl и кликните по ней;

– чтобы применить заданные параметры на группу иллюстраций, например, всех последующих или предыдущих, нажмите на клавишу Copy to group…, в появившемся окне выберите одно из значений: All marked (все иллюстрации), All marked up to current (все предыдущие иллюстрации, начиная с текущей), All marked from current to end (все последующие вместе с текущей). С использованием опции маркирования каждой зоны предоставляется отличная возможность изменять параметры либо обрабатывать определенную группу выбранных зон (например, только зоны с цветными картинками). Это реализуется путем флажка Marked (на вкладке Format, рис. 7, слева): установив его, вы тем самым выделяете (помечаете) выбранную зону, при этом она как бы желтеет .

Пример: пример выделения иллюстраций показан на рис. 8.

DjVu- мэйкерство для начинающих

Рис. 8. На скане-развороте выделены две иллюстрации – полутоновая (слева) и ч/б (справа)

ШАГ 2А

Настройка параметров для зон с ч/б рисунками. Данный шаг необходим в случае, если в результате выполнения шага 1 обнаружилось, что ч/б рисунки обрабатываются не должным образом: темные области осветляются, пропадают тонкие линии рисунка, слишком жирными становятся очертания схем и т. д. Следовательно для рисунков необходимо указать индивидуальные параметры обработки.

Установка в окне Picture zone properties значений: DPI=600, Color=B/W, (Thr, Contrast, Blur, Smooth и др. – по качеству скана).

Пример: Thr=Normal, Contrast=15, Blur=1, Smooth=1 (рис. 9). Остальные параметры остаются по умолчанию.

Еще один вариант – установить только значение Thr=Custom, 180 и т. д. (в зависимости от ваших нужд).

DjVu- мэйкерство для начинающих
DjVu- мэйкерство для начинающих

Рис. 9. Окно настройки параметров обработки зон с иллюстрациями. Значения параметров для ч/б рисунков

ШАГ 2Б

Настройка параметров для зон с полутоновыми/цветными иллюстрациями. Установка в окне Picture zone properties значений: DPI=300,

– для полутоновых иллюстраций Color=Gray,

– для цветных иллюстраций Color=Color (24 bit).

Задание других параметров необязательно, на ваше усмотрение. Можете оставить их по умолчанию, поскольку иллюстрации будут в дальнейшем обрабатываться в специализированном графическом редакторе (в данном случае – в программе Photoshop). Интересны функции вкладки Paint, которые позволяют окрашивать текст или его фон одним выбранным цветом, отличным от черного и белого. Это может понадобиться, например, при обработке страницы с синим текстом на однотонном желтом фоне. При этом страница получится двухтоновой, как и ч/б, со всеми вытекающими достоинствами.

Пример: см. рис. 10.

DjVu- мэйкерство для начинающих

Рис. 10. Окно, в котором задаются необходимые разрешение и цветовая палитра иллюстрации

Примечание: если страница с полутоновым/цветным изображением сканировалась в соответствующей палитре цветов (в градациях серого/цветной), то для параметра Color можно установить значение Original, таким образом программа оставит неизменной цветовую палитру у выделенных иллюстраций.

Шаг 3 (А)

Автоматическая обработка всех страниц (запускается путем нажатия на кнопке

DjVu- мэйкерство для начинающих
) программой СК. К страницам и иллюстрациям будут применены команды с указанными ранее параметрами. Это длительный по времени процесс, напрямую зависит как от числа применяемых команд, так и мощности вашего компьютера.

Результат:

– страницы с ч/б текстом (600 dpi);

– ч/б рисунки (600 dpi);

– полутоновые/цветные иллюстрации (в градациях серого/цветные, 300 dpi), имеющие в названии приставку «pic.*»;

– страницы, в которых должны быть полутоновые/цветные иллюстрации – подложки. Имеют разрешение 600 dpi.

Пример: страницы с текстом «0001.tif» и «0002.tif», рисунок «pic.0001.tif», иллюстрация «pic.0002.tif» (см рис. 11-14).

DjVu- мэйкерство для начинающих

Рис. 11. «0001.tif»

DjVu- мэйкерство для начинающих

Рис. 12. «0002.tif»

DjVu- мэйкерство для начинающих

Рис. 13. «pic.0001.tif»

DjVu- мэйкерство для начинающих

Рис. 14. «pic.0002.tif»

Примечание: пока выполняется обработка, вы можете перейти к выполнению шага 13, пп. 1-2 – созданию обложки.

Шаг 4 (А)

Объединение зон ч/б рисунков с текстом (меню ZonesPicture zoneMerge zones, параметры: Files=All marked, Zones=B/W).

Результат:

– страницы, содержащие как ч/б текст, так и ч/б рисунки (600 dpi);

– полутоновые/цветные иллюстрации «pic.*»;

– подложки.

Пример: страница с текстом «0001.tif» без иллюстрации (т.н. подложка), иллюстрация «pic.0001.tif» и страница с текстом и ч/б рисунком «0002.tif» (рис. 15-17).

Рис. 15. «0001.tif»

DjVu- мэйкерство для начинающих

Рис. 16. «0002.tif»

Рис. 17. «pic.0001.tif»

Шаг 5 (Р)

Подчистка и исправление ориентации страниц («косметическая» постобработка). О том, как вручную повернуть изображение страницы, см. ниже раздел Полезные советы.

Постобработка производится в режиме Просмотра (вызывается с помощью кнопки

DjVu- мэйкерство для начинающих
или автоматически после завершения процесса обработки страниц) в основном с помощью Ластика (
DjVu- мэйкерство для начинающих
) и Выделения очищаемых зон и последующим удалением кнопкой Del. Остальные инструменты используйте по своему усмотрению.

Просматривать обработанные страницы можно в нескольких режимах: двухстраничный (Two pages), одностраничный (One page), оригинал и обработанная страница (Compare), подложка и иллюстрации (Zones), обработанная страница и эскизы оригиналов (Thumbs) (рис. 18). По умолчанию включен режим одностраничного просмотра. Пример работы режимов иллюстрируется ниже в разделе Полезные советы на рисунках 20-23.

DjVu- мэйкерство для начинающих

Рис. 18. Выбор режима просмотра

Также имеется инструмент по масштабированию редактируемых страниц – лупа (рис. 19).

DjVu- мэйкерство для начинающих

Рис. 19. Варианты масштаба просмотра страницы

Последние два варианта (отображать в полную ширину или страницу целиком, см. рис. 19) фиксируются и распространяются при просмотре на все страницы – при переходе к следующей странице масштаб автоматически станет равным одному из них. Кроме того, масштаб страницы может регулироваться колесиком мыши и клавишами + и –.

Ластик имеет три чистящих (закрашиваемых) цвета – White (Белый), Black (Черный) и Magic (Волшебный), из которых Белый – самый необходимый:

DjVu- мэйкерство для начинающих

Выделение может быть двух типов: квадратным (среднего и малого размера) и круглым:

DjVu- мэйкерство для начинающих

Переключаться между ними можно дважды кликая левой кнопкой мышью на самом изображении страницы.

Результат: очищенные страницы c текстом.

Полезные советы:

– если после обработки страница по-прежнему имеет неверную ориентацию, необходимо выйти из режима Просмотра и произвести корректировку ориентации страницы в окне Exclusive page options, которое вызывается на вкладке Page кнопкой special (справа от поля настройки угла Rotate angle). В этом окне в разделе Fixed deskew angle указывается угол поворота каждой страницы (левой и правой, либо одной из них): «+» означает повернуть против часовой стрелки, «–» – по часовой. Установка галочки указывает программе, что поворот страницы будет происходить исходя из ваших установленных значений угла вращения, отсутствие галочки означает автоматический поворот самой программой. Значения угла поворота ставятся на глаз и после обработки текущей страницы (Ctrl+P) вновь по надобности корректируются.

– для широкоэкранных мониторов используйте двустраничный режим просмотра – это увеличит скорость обработки страниц;

– чтобы удалить черно-белые края полутоновых и цветных иллюстраций, а также остальной мусор возле них, делайте следующее – выделите мышью зону вокруг иллюстрации и очистите ее посредством нажатия клавиши Del;

– перелистывание страниц производите с помощью клавиш Page Up и Page Down (их функции дублируют клавиши Q и W, [ и ] – как в основном режиме, так и в режиме просмотра), подтверждение сохранения страницы после редактирования – клавишей Enter;

– для удобства в окне просмотра вызовите контекстное меню правой кнопкой мыши и установите галочки напротив меню AutoSave (автоматическое сохранение редактируемой страницы при переходе к следующей) и AutoClear (выделения мышкой будут чиститься автоматически, в момент отпускания клавиши мыши);

– размер ластика можно изменить в окне окне Clear options в поле Speckle size (fine), например, 20;

– в зависимости от ситуации используйте необходимый режим просмотра обработанных страниц. Их примеры отображения иллюстрируются ниже на рисунках.

DjVu- мэйкерство для начинающих

Рис. 20. Двухстраничный режим просмотра (Two pages)

DjVu- мэйкерство для начинающих

Рис. 21. Режим просмотра Оригинал и обработанная страница (Compare). На оригинале (слева) выделяется та страница, чью обработанную версию (справа) просматриваем в текущий момент

DjVu- мэйкерство для начинающих

Рис. 22. Режим просмотра Подложка и иллюстрации (Zones). Справа вверху приводится список всех иллюстраций, которые были выделены в зоны, для текущей страницы, внизу справа – выбранную иллюстрацию. Страница и иллюстрации доступны для редактирования

DjVu- мэйкерство для начинающих

Рис. 23. Режим просмотра Обработанная страница и эскизы оригиналов (Thumbs).

– дополнительную информацию о режиме просмотра и редактирования страниц см. в Приложении.

Пример: очищенная страница «0002.tif» – рис. 24.

DjVu- мэйкерство для начинающих

Рис. 24. Чистая страница «0002.tif»

Шаг 6 (Р-А)

Обработка полутоновых/цветных иллюстраций во внешнем графическом редакторе: исправление тонального баланса, размытие и другие операции по улучшению вида.

Данный этап – самый творческий, ибо все зависит от умений и навыков пользователя. Автор не считает себя гуру в этой области, потому опишет тот опыт, коим обладает на текущий момент в обработке изображений.

Программа Photoshop предоставляет следующие необходимые методы по улучшению иллюстраций (обратите внимание на очередность применяемых команд):

– размывание. Оно необходимо для удаления полиграфического растра в отсканированных печатных изображениях – точек как результата типографской печати. А удаление растра приводит к более сильному сжатию изображения при djvu-кодировании;

– корректировка тонального баланса изображения на основе его гистограммы;

– закрашивание мусора, белых пятен и прочее.

Размывание. Его можно выполнить различными методами:

а) с помощью фильтра Гаусса (FilterBlurGaussian Blur…, шаг размытия 0.5-3 пикселя). Самый распространенный вариант, реализован в СК (но только для страниц в целом, отдельно к изображениям его применить, в последней версии, невозможно);

б) размыванием Blur (в том же меню), которое необходимо применять несколько раз, пока не достигнете достаточной размытости изображения (присутствует в СК, может применяться к иллюстрациям индивидуально);

в) продвинутым, «умным» размыванием Smart Blur (в том же меню). Он позволяет с помощью параметров Radius, Threshold, Quality объединять цвета, схожие по одному тону, оттенку, в один. Это проще пояснить примером (значения параметров следующие Radius=3.0, Threshold=20.0, Quality=High), проиллюстрированным на рис. 25.

DjVu- мэйкерство для начинающих

Рис. 25. Результат применения размывания Smart Blur (для наглядности – увеличьте масштаб страницы до 300%)

г) медианным разглаживанием-шумопоглощением Median (FilterNoiseMedian…);

д) платным, но эффективным фильтром, специализирующемся именно на удалении полиграфического растра – это Sattva Descreen (в случае его установки вызывается в меню FilterBlurDescreen). Пробная версия фильтра позволяет обрабатывать изображения размером не более 2000 пикселей. Более подробная информация о фильтре – см. Приложение.

Примеры применения рассмотренных фильтров см. ниже на рисунках в разделе Пример.

Корректировка тонального баланса изображения на основе его гистограммы. Гистограмма, которая отражает распределение тонов изображения (показывает, сколько точек определённой яркости есть на нем), является важным инструментом визуальной диагностики качества снимка. Изучив гистограмму, можно понять, какие проблемы с распределением тонов есть у изображения – оно может быть слишком светлое или же слишком темное, у него может отсутствовать контраст и т. д. Поняв, какие проблемы присущи тому или иному изображению, можно отрегулировать его гистограмму, изменив в нем распределение тонов. Само регулирование происходит за счет трех ползунков: белого, который отвечает за светлые тона, черного, ответственного за темные, и серого, влияющего на полутона (см. рис. 30).

В программе Photoshop окно гистограммы вызывается через меню Image (Изображение) – AdjustmentsLevels.. (Уровни..) или клавишами Ctrl+L. Сканируемые полутоновые/цветные иллюстрации, как показывает опыт, обладают повышенной яркостью (см. гистограмму на рисунке ниже): темные области стали более светлыми, а черные вообще отсутствуют. На гистограмме это иллюстрируется следующим образом – темные тона («холма») начинаются не с левого края, как должно быть на самом деле, а чуть правее. Белых же тонов больше, чем должно быть, поэтому правая граница гистограммы сплошь покрытая («травкой»), нет плавного спуска. Наша цель – передвинуть левый край «холма» к левой границе гистограммы, а правый край «холма» оставить неизменным. Это достигается установкой черного ползунка у подножия «холма», как на рисунке; белый ползунок останется на месте. Аналогичную операцию выполняет команда Auto Levels (Автоуровни), которая вызывается кнопкой Auto (рис. 30). Кроме того, она может быть запущена из меню ImageAdjustmentsAuto Levels. Новичкам при изменении тонов изображения можно остановиться на применении Автоуровней.

При использовании Автоуровней не происходит достаточного понижения яркости тонов пересвеченной иллюстрации. Эта проблема отчасти решается через изменение яркости полутонов, которая задается в верхнем ряду в среднем поле, а также изменяется перемещением серого ползунка (рис. 30). Изначально яркость полутонов равна 1. При перемещении ползунка вправо полутона темнеют, значение яркости уменьшается, а влево – яркость увеличивается. Для полутоновых иллюстраций желательно изменять значение яркости в диапазоне 0,7-0,9, а для цветных – 0,9-1.

Указанные операции по обработке изображений (за исключением Sattva Descreen) имеются и в других графических редакторах.

Результат: обработанные полутоновые/цветные иллюстрации.

Полезные советы:

– при работе в программе Photoshop в целях экономии времени и сил следует научиться пользоваться сценариями – механизмом, обеспечивающим автоматизированное повторение набора команд и фильтров для групповой обработки изображений (рис. 26). Как правило, один сценарий создается для обработки одного изображения и применяется затем на последующих. Для пакетной обработки изображений используйте инструмент автоматизации (FileAutomateBatch…, рис. 27). Старайтесь контролировать обработку изображений;

DjVu- мэйкерство для начинающих

Рис. 26. Схема работы со сценариями

– фильтр Desreen в триальной версии не может использоваться в сценариях, учтите этот факт;

– если использовать одновременно автоуровни и понижение яркости, то изображение станет контрастнее и темнее, что нежелательно. Поэтому выбирайте по возможности что-то одно;

– для отмены примененных действий нажмите Ctrl+Z. Важная команда !

DjVu- мэйкерство для начинающих

Рис. 27. Схема автоматизированого выполнения сценариев

Пример: ниже приводится пример применения команд размытия и настройки уровней на полутоновой иллюстрации в программе Photoshop. Следует отметить, что при размытии фильтром Гаусса с радиусом в 1 пиксель на иллюстрации еще видна сеточка растра, а при 1,5 пикселях, точки растра уже не видны. Дальнейшее размытие ухудшит качество изображения. Также приводятся примеры работы описанных выше алгоритмов и видов размытия изображения.



DjVu- мэйкерство для начинающих

Рис. 28 Размытие изображения фильтром Гаусса. Радиус размытия – 1 пиксель

DjVu- мэйкерство для начинающих

Рис. 29. Применение различных величин параметра размывания изображения: фильтром Гаусса, медианным, Blur’ом и фильтром Descreen. В нижних вариантах достигается оптимальное размытие с приемлемой детализацией (для наглядности – увеличьте масштаб страницы до 300%)

После выбора алгоритма и оптимальных параметров размытия полутоновых изображений следует настройка тонального баланса с помощью гистограммы. В данном случае сначала понижается яркость полутонов, а затем корректируется гистограмма изображения путем сдвига границы темных областей в левый край. В результате получаем достаточно контрастное и затемненное изображение. Довольствоваться данным вариантом изображения – решение спорное и субъективное, но на взгляд автора – временно допустимое.

DjVu- мэйкерство для начинающих

DjVu- мэйкерство для начинающих

Рис. 30. Применение уровней изображения. Вверху – понижение яркости полутонов на 20%. Внизу – использование Автоуровней (кнопкой Auto).

Примечание: не надейтесь на качественную работу Автоуровней. Никакая программа не сможет сделать автоматически лучше вас то, что вы сможете сделать вручную, используя свой взоркий взгляд и необходимые знания. Поэтому старайтесь по возможности вручную исправлять тональный баланс изображений.

Шаг 7 (А)

Формирование страниц только с полутоновыми/цветными иллюстрациями. Его суть в следующем: в результате выполнения Шага 4 мы получаем страницу с текстом (подложку) и иллюстрации. Как было сказано в предисловии, метод вклейки иллюстраций требует, чтобы эти самые иллюстрации определенным образом располагались на шаблоне, который при совмещении со страницей-подложкой формировал бы полноценную страницу (см. рис. 31). При этом каждая картинка должна сидеть «на своем месте». Но об этом нам не нужно беспокоиться – все сделает программа СК.

Выполняется в меню СК следующее: ZonesPicture zoneMerge zones, параметры: Files=All marked, Zones=Non-b/w, включить флажок Create separate files for non-b/w zones. Опция-флажок Delete zones after merging служит для удаления изображений иллюстраций после формирования страниц.

Результат:

– страницы только с полутоновыми/цветными иллюстрациями, имеющие в названии дополнительный суффикс «.sep» (их разрешение – 600 dpi). Назовем их страницами-иллюстрациями;

– подложки.

Примечание: для удобства при дальнейших действиях следует перенести полученные страницы-иллюстрации в отдельную папку, например, sep.

Пример: страница-иллюстрация «0041.sep.tif» и страница-подложка «0041.tif» (см. рисунки).

DjVu- мэйкерство для начинающих

Рис. 31. Страница-иллюстрация «0041.sep.tif» (слева) и страница-подложка «0041.tif» (справа)

Шаг 8 (А)

Djvu-кодирование всех страниц, кроме страниц-иллюстраций, в профиле Черно-белый с разрешением 600 dpi.

Из известных программ-кодеров DjVu Small кодирует ч/б текст с максимальным сжатием. Рассмотрим работу с ним:

– кнопками Открыть файл(ы) или Открыть папку добавляем необходимые для кодирования изображения-страницы;

– кнопкой Обзор указываем путь расположения результирующего djvu-файла. Можно оставить по умолчанию равным «С:\»;

– название выходного djvu-файла можно указать единожды (кнопкой Опции вызываете окошко и на вкладке Общие в поле Имя вых. DjVu-файла указываете нужное имя и закрываете окошко) и в дальнейшем использовать только его;

– выберите операцию Документ -> DjVu;

– далее следует указать профиль кодирования. Для страниц с текстом и ч/б рисунками ставите Bitonal (600 dpi), для полутоновых/цветных иллюстраций – Photo (300 dpi);

– все готово – жмите кнопку Пуск и ждите завершения операции (появится сообщение).

Результат: один djvu-файл cо страницами текста и подложками.

Пример: получен файл – «0001.djvu».

DjVu- мэйкерство для начинающих

Рис. 32. Djvu-файл cо страницами текста и подложками – «0001.djvu».

Шаг 9 (А)

Приведение страниц-иллюстраций к изначальному разрешению, при котором они сканировались, т. е. к 300 dpi (соответственно уменьшится их линейные размеры в 2 раза).

Для пакетной обработки всех указанных страниц следует воспользоваться известным и удобным для вас графическим редактором. В случае использования программы IrfanView необходимо выполнить следующее: меню FileBatch Conversion/Rename.

1) Справа вверху проверяем, чтобы был выбран режим Batch conversion.

2) Далее необходимо добавить изображения иллюстраций в окно программы посредством их выбора и нажатия на кнопку Add (или Add All). Если страницы-иллюстрации и другие страницы обрабатываемой книги находятся вместе в одной папке, то для удобства отбора именно страниц с иллюстрациями в поле Имя файла вводите маску «*.sep», затем нажимайте клавишу Enter (Ввод).

3) Нажмите слева кнопку Use current (‘look in’) directory для записи результатов в текущую папку, чтобы заменить «новыми» иллюстрациями «старые». Output format=TIF.

4) Нажав кнопку Options, появится окошко выбора типа сжатия. Укажите LZW. Далее жмите Advanced. В новом окне нас интересуют такие поля:

– ставим флажок RESIZE;

– ставим процент изменения размера файла иллюстрации, равный 50% в полях Width и Height;

– указываем величину выходного разрешения 300 dpi в поле Set DPI value;

– ставим флажок напротив Overwrite existing files. Остальные поля и флажки должны быть пустыми! Далее жмем ОК.

5) Все готово – нажимаем кнопку Start batch и ждем окончания операций.

Программа сохранит указанные параметры обработки изображений и в следующий раз пункт 4 не придется выполнять.

Результат: страницы-иллюстрации, имеющие разрешение 300 dpi.

Примечание: если разрешение страниц-иллюстраций оставить без изменения равным 600 dpi, то в конечном счете это приведет лишь к (практически двукратному) увеличению размера конечной djvu-книги, при этом качество иллюстраций практически не улучшится.

Шаг 10 (А)

Djvu-кодирование всех страниц-иллюстраций в профиле Фотография 300 dpi и их объединение (склеивание) с djvu-страницами текста с помощью программы DjVu Imager.

Для этого необходимо:

– добавить в окно программы страницы-иллюстрации «*.sep» с помощью кнопок Open file(s) (Открыть файл(ы)) или Open folder (Открыть папку);

– установить необходимое разрешение для выходной страницы иллюстрации в окне Options (Опции) в поле DPI. Окно вызывается соответствующей кнопкой. Поскольку страницы-иллюстрации имеют разрешение 300 dpi, поэтому и кодировать необходимо с тем же значением разрешения, т. е. DPI=300;

– нажать кнопку Convert (Пуск). После выполнения операции (когда прекратится появление «черных» окошек) в папке tmp/images программы DjVu Imager сформируются закодированные djvu-файлы страниц-иллюстраций. Они исчезнут после новой операции djvu-кодирования страниц-иллюстраций;

– с помощью кнопки Source (Источн.) выбрать djvu-файл с текстом (т. е. результат шага 8) и указать его программе;

– кнопкой Dest (Назнач.) указать месторасположение для результата объединения;

– жмем кнопку Insert in DjVu (Вставить в DjVu) и ждем окончания выполнения операции (окошко с сообщением об этом известит).

Результат: djvu-файлы каждой страницы-иллюстрации и, собственно, финальная версия djvu-файла книги с ч/б текстами и всеми иллюстрациями.

Пример: на шаге 8 был получен двухстраничный djvu-файл «Encoded.djvu» на основе страницы-подложки «0001.tif» и страницы текста «0002.tif»; страница-иллюстрация «0001.sep.tif» должна закодироваться в другой одностраничный djvu-файл «0001.djvu». После объединения сформируется двухстраничная djvu-книга «Encoded.out.djvu».

DjVu- мэйкерство для начинающих

DjVu- мэйкерство для начинающих

Рис. 33. Djvu-файл страницы-иллюстрации (вверху) и ее вклейка в конечную djvu-книгу (внизу).

Примечание: в случае обработки иллюстрированного журнала кодирование его страниц может осуществляться любой программой, например, Djvu Small. При кодировании используйте профиль Photo (300). Если вы не используете методику раздельного кодирования, то данный шаг можно считать последним – вы получите готовый djvu-файл со страницами качества Фото, 300 dpi.

Важно: кодирование необработанной книги в профиле Photo – неплохой выбор для новичка, опасающегося испортить книгу неграмотной обработкой. В случае необходимости такую книгу можно будет в дальнейшем перекодировать оптимальным образом, лишь немного потеряв в качестве.

Шаг 11 (Р-А)

Создание OCR-слоя на основе страниц текста, полученных на шаге 5, и его внедрение в djvu-книгу, полученную на предыдущем шаге 10. Этот шаг состоит из операций распознавания страниц текста, редактирования полученного текста и его добавления в djvu-книгу.

Вообще данный шаг можно выполнить двумя способами, разными по сложности:

1) самый простой и быстрый – это воспользоваться функцией автоматического создания текстового слоя в программе DEE. Для этого необходимо в программе открыть djvu-книгу, в меню выбрать команду Service (Сервис) – OCROCR document (OCR документа), дождаться окончания выполнения операции, затем сохранить книгу нажатием Ctrl+S или в меню File (Файл) – Save (Сохранитьнигу ого необходимо в программе открыть го слояа в программе ипа. );

2) более трудоемкий, но и более качественный – провести распознавание, а также по возможности редактирование («вычитку» на предмет поиска ошибок) текста в программе FineReader, 7-й версии и выше, а затем внедрить полученный текстовый слой в djvu-книгу с помощью программы DjvuOCR. Таким образом, с помощью этого способа вы можете проконтролировать качество текстового слоя в отличие от первого; следует заметить, что алгоритм распознавания в программе DEE проще, чем в программе FineReader, и потому он допускает гораздо больше ошибок (например, русская буква «г» распознается как латинская «r»).

Итак, для реализации данного способа необходимо выполнить следующее:

– в программе FineReader добавить все страницы текста (полученные на шаге 5), сохранить пакет со страницами во временную папку (с помощью команды ФайлСохранить пакет как…), затем настроить пару параметров:

а) в меню СервисОпции на вкладке Сканирование/Открытие в разделе Обработка изображений снять все галочки,

б) проверить язык распознавания на соответствующей вкладке Распознавание – он должен соответствовать содержанию текста распознаваемой книги. Например, если книга на русском языке, но в тексте могут встречаться латинские символы, то поставьте Русско-Английский язык;

в) нажать ОК.

– далее следует запустить процесс распознавания в меню ПроцессРаспознать все (или клавишами Ctrl+Shift+R), который займет продолжительное время;

– после окончания распознавания настает черёд редактирования полученного текста – исправление орфографических ошибок, опечаток, типа «уменыпение» вместо «уменьшение» и т. п. Можете также исправлять параметры шрифта текста. Этого будет достаточно. Отредактированный текст автоматически сохраняется, не нужно периодически сохраняться. После завершения редактирования можно сохранить все страницы в формат Microsoft Word – *.doc (команда ФайлПередать все страницы вMicrosoft Word), полученный документ сохранить и в дальнейшем использовать, например, для составления описания книги и электронного оглавления;

– пакет с распознанным и отредактированным текстом готов для внедрения в djvu-книгу. Запускаем программу DjvuOCR (см. раздел Пример), внизу слева выберите язык интерфейса Russian (Русский), далее выбираем режим Ручной режим OCR manager. Появится окно, в котором необходимо указать 3 параметра:

1) папку пакета с распознанными страницами (которую сохранили ранее во временную папку) с помощью кнопки Обзор. Для проверки пакета на правильность нажмите ниже кнопку Тест проекта. Если сообщений не появится, значит ошибок нет, переходим к следующему параметру. В случае возникновения ошибок смотрите примечание;

2) в поле Какая первая страница в DJVU указываем номер страницы в финальном djvu-файле (полученном на шаге 10), которая соответствует первой распознанной странице пакета. Как правило, это первая страница;

3) указываем финальный djvu-файл, в который будет добавлен текстовый слой из пакета со страницами кнопкой Обзор.

После чего жмем кнопку Обработка и ожидаем пару минут окончания процесса.

Результат: финальный djvu-файл с OCR-слоем.

Пример: пример работы с программой DjvuOCR иллюстрирован ниже.

DjVu- мэйкерство для начинающих

Рис. 34. Программа DjvuOCR. Красными точками указаны поля и кнопки, используемые при внедрении OCR-слоя в djvu-книгу

Полезные советы:

– для перелистывания страниц в программе FineReader используйте сочетание клавиш Alt+Стрелка вверх или Alt+Стрелка вниз;

– при сохранении пакета со страницами по возможности задавайте его название латинскими буквами, например, «suda».

Примечание: качество распознавания текста зависит от ваших личных притязаний, требований и навыков работы с программой FineReader. К примеру, вы можете использовать настраиваемые профили, редактировать словари и т.д., что облегчит работу и улучшит качество конечного текстового слоя.

Ошибки в программе DjvuOCR при тестировании пакета со страницами, как правило, возникают, если неверно отредактирована какая-либо страница в программе FineReader – вернее, превышены рамки дозволенного, например, добавлены абзацы и т. п.

Если вы сохранили распознанный текст в формате *.doc, то необходимости в пакете нет – его можно смело удалить.

Шаг 12 (Р)

Создание обложки, ее djvu-кодирование и внедрение в djvu-книгу, полученную на предыдущем шаге, т.е. 11, с помощью программы DEE.

Обложку, отсканированную в разрешении 200 или 300 dpi, необходимо привести к лицеприятному виду (обработать в графическом редакторе), закодировать в djvu-файл в профиле Фотография 300 dpi и добавить к уже сделанной на предыдущем шаге djvu-книге с помощью программы DEE.

В случае электронизации иллюстрированного журнала обложка обрабатывается вместе с остальными страницами на шаге 6 и кодируется вместе с ними.

1. Обработка иллюстрации обложки по существу аналогична шагу 6. Для ее обработки следует воспользоваться следующими операциями:

– небольшим размыванием (например, с помощью фильтра Гаусса);

– изменением тонального баланса изображения (автоуровни);

– закрашиванием мусора, белых пятен, клонированием областей и т. д. Все это делать или не делать – по вашему усмотрению и навыкам.

Желательно сохранить обложку в том же формате, какой имеют сканы книги.

2. Для кодирования в файл djvu, необходимо открыть программу DEE, в меню выбрать File (Файл) – Open (Открыть) или нажать клавиши Ctrl+O. В появившемся окне указать тип файла, который имеет изображение обработанной обложки (например, *.tiff). Затем выбрать само изображение и нажать кнопку Open (Открыть). После чего изображение добавится в окно программы. Затем выбрать File (Файл) – Save (Сохранить) или нажать клавиши Ctrl+S, в появившемся окне указать профиль Photo (Фотография), разрешение 300 dpi, финальное название djvu-книги и нажать кнопку Save (Сохранить). Обложка в djvu-формате готова!

3. Теперь объединим djvu-обложку с djvu-книгой, полученной на предыдущем шаге. Для этого в меню выбираем Edit (Правка) – Add pages after… (Добавить страницы после…), в появившемся окне оставляем неизменным тип файлов *.djvu, указываем djvu-книгу, жмем кнопку Open (Открыть) и затем выбрать File (Файл) – Save (Сохранить) или нажать клавиши Ctrl+S. На этом создание полноценной djvu-книги ЗАВЕРШЕНО!

Результат: финальный djvu-файл с OCR-слоем и обложкой.

Шаг 13 (Р-А)

Создание электронного оглавления в djvu-книге с помощью программы Djvu Bookmarker. Программа обладает необходимыми функциями для обработки распознанного и неотредактированного («сырого») текста оглавления.

Алгоритм работы с программой таков:

– скопировать текстовую часть оглавления (содержания) со страничной нумерацией в буфер (нажатием клавиш Ctrl+C). Взять оглавление можно, например, из djvu-книги, полученной на шаге 11, или из того текстового документа, в который вы сохраняли результаты распознавания. В ином случае необходимо будет заранее его составить в любом текстовом редакторе (Блокнот, Microsoft Word или др.);

– запустить программу Djvu Bookmarker, появится окно (см. рис. 35), в котором необходимо нажать кнопку Импортировать из буфера обмена;

DjVu- мэйкерство для начинающих

Рис. 35. Окно запуска программы Djvu Bookmarker

– программа начнет анализировать оглавление в буфере и, если в нем обнаружит нарушения, отобразит две области (см. рис. 36):

а) область редактирования, в которой можно исправить нарушения в оглавлении;

б) область со списком выявленных нарушений и указанием соответствующих проблемных строк.

Найденные нарушения необходимо исправить и затем снова проанализировать оглавление кнопкой Перепроверить. В случае успеха указанные области исчезнут и программа перейдет к следующему этапу;

– следующий этап – фильтрация шума, т.е. удаление ненужных символов, которые находятся между текстом оглавления и номером страницы. Если таковые имеются – отмечаете их галочкой (для выбора всех символов воспользуйтесь кнопкой Выбрать все, рис. 37). Жмем Далее;

– связываем оглавление с нашей финальной djvu-книгой путем нажатия кнопки выбрать djvu-файл и указания местоположения оной;

– проверка соответствия каждого элемента оглавления целевой странице djvu-книги и по необходимости корректировка. Изменение нумерации элемента оглавления производится с помощью кнопок

DjVu- мэйкерство для начинающих
;

– группировка элементов оглавления. Как правило, оглавление состоит из иерархичных групп, разделов и подразделов. Создание подразделов осуществляется путем выделения необходимых элементов оглавлений или даже группы и использованием кнопок

DjVu- мэйкерство для начинающих
(рис. 38);

– после завершения редактирования оглавления остается сохранить-внедрить полученное электронное оглавление в нашу финальную djvu-книгу. Это делается в меню ФайлСохранить djvu-файл;

– электронное оглавление можно сохранить отдельным файлом в виде веб-странички: ФайлHtml-оглавлениеСохранить как… Оно может пригодиться, например, при публикации новости.

По окончании работы с электронным оглавлением выйдите из программы.

Результат: законченная версия djvu-книги.

DjVu- мэйкерство для начинающих

Рис. 36. Главное окно программы Djvu Bookmarker

DjVu- мэйкерство для начинающих

Рис. 37. Удаление знаков оглавления, являющихся посторонним «шумом»

DjVu- мэйкерство для начинающих

Рис. 38. Создание подразделов в электронном оглавлении

Примечание:

– за подробной информацией по работе с программой обращайтесь на официальную страницу разработчика [12, 13];

– после того, как сделана книга, необходимость в созданных программой СК файлах страниц и изображений исчезла. Следовательно файлы типа «0001.tif», «pic.0001.tif» и «0001.sep.tif» можно смело удалить. Вопрос, удалять ли исходные сканы книги, решаю следующим образом: если качество страниц djvu-книги близко к качеству исходных сканов, потери информации (как текстовой, так и графической) ничтожны, то хранить сканы не имеет смысла.

Пройдет немного времени, когда вы освоитесь со всеми шагами и будете уже на автоматизме создавать качественные djvu-версии бумажных книг и журналов. А с каждым новым трудом будете приобретать все бóльший опыт в djvu-мейкерстве! Удачи!

ПРИЛОЖЕНИЕ

Стандарты на форматы бумажных изданий и размеры изображений их страниц

Книжные издания

Обозначение

max, мм

min, мм

max

(при 300 dpi), pix

max

(при 600 dpi), pix

max, округленные

(при 600 dpi), pix

60×90/8

220×290

205×275

2598

3425

5196

6850

5200

6900

84×108/16

205×260

192×255

2421

3071

4842

6142

4800

6100

70×100/16

170×240

158×230

2008

2835

4016

5670

4000

5700

70×90/16

170×215

155×210

2008

2539

4016

5078

4000

5100

60×90/16

145×215

132×205

1713

2539

3426

5078

3400

5100

60×84/16

145×200

130×195

1713

2362

3426

4724

3400

4700

84×108/32

130×200

123×192

1535

2362

3070

4724

3000

4700

70×100/32

120×162

112×158

1417

1913

2834

3826

2800

3800

75×90/32

107×177

100×170

1264

2091

2528

4182

2500

4200

70×90/32

107×165

100×155

1264

1949

2528

3898

2500

3900

60×84/32

100×140

95×130

1181

1654

2362

3308

2300

3300

Журнальные издания

Обозначение

max, мм

min, мм

max

(при 300 dpi), pix

max

(при 600 dpi), pix

max, округленные

(при 600 dpi), pix

70×108/8

265×340

257×333

3130

4016

6260

8032

6200

8000

60×90/8

220×290

205×275

2598

3425

5196

6850

5200

6800

60×84/8

205×290

200×285

2421

3425

4842

6850

4800

6800

84×108/16

205×260

192×255

2421

3071

4842

6142

4800

6100

70×108/16

170×260

158×255

2008

3071

4016

6142

4000

6100

70×104/16

170×250

158×242

2008

2953

4016

5906

4000

5900

70×100/16

170×240

158×230

2008

2835

4016

5670

4000

5700

60×90/16

145×215

132×205

1713

2539

3426

5078

3400

5100

84×108/32

130×200

123×192

1535

2362

3070

4724

3100

4700

70×108/32

130×165

125×165

1535

1949

3070

3898

3100

3900

Примечание: размеры форматов А, мм – A3 (297×420); A4 (210×297); A5 (148×210); A6 (105×148).

Список литературы

1. Создание качественных DjVu методом вклейки иллюстраций и др. – [http://sourceforge.net/apps/mediawiki/scantailor/index.php?title=Main_Page]

2. Melirius. Унифицированная система обработки сканированных книг Hi-Fi DjVu 0.8.1. 2008

3. ScanAndShare 1.0.7

4. Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги [http://rutracker.org/forum/viewtopic.php?pg=1&t=2160930]

5. ScanTailor – Lesson [http://infanata.com]

6. Стандартные размеры печатных листов [http://www.print-salon.ru]

7. Descreen 4.0 Home edition для Adobe Photoshop. Руководство пользователя [http://www.sattva.ru/help/descreen/rus/home/descreen_manual.htm]

8. Ankalagon_Black. Создание в djvu-файле текстового слоя и интерактивного содержания [http://www.infanata.com/news/questions/1146098494-sozdanie-v-djvu-fajjle-tekstovogo-sloja-i.html]

9. monday2000. Использование DjVu Imager

10. http://www.djvu-soft.narod.ru/scan/djvu_imager.htm

11. http://www.djvu-soft.narod.ru – сайт, всецело посвященный djvu-производству.

12. Вики-страница программы Djvu Bookmaker http://sourceforge.net/apps/mediawiki/djvubookmarker/index.php

13. Страница обсуждения программы Djvu Bookmaker http://forum.ru-board.com/topic.cgi?forum=5&topic=32210

Ссылки по используемому в djvu-кодировании программному обеспечению:

IrfanView [http://www.irfanview.com]

ScanKromsator 5.92 [http://www.djvu-soft.narod.ru/ freeware]

Document Express Editor [http://www.djvu-soft.narod.ru/]

ABBYY FineReader [http://www.abbyy.com]

DjvuOCR 2.4 beta [http://djvuocr.ucoz.ru/, http://www.djvu-soft.narod.ru/ freeware]

Примеры этапов для различного типа бумажных изданий

Шаг черного цвета – необходимый для выполнения, шаг серого цвета – необязательный.

Иллюстрированный журнал (материал со всеми возможными вариантами иллюстраций):

– шаг 1 *

– шаг 2 *

– шаг 3 *

– шаг 5 *

– шаг 6 **

– шаг 7 *

– шаг 8 *

– шаг 9 *

– шаг 10

– шаг 11

– шаг 12 ***

– шаг 13

* – шаги необходимо выполнить в случае раздельного кодирования – текста и иллюстраций;

** – иллюстрированные страницы можно и не обрабатывать, но это приведет к минимальному сжатию их при djvu-кодировании;

*** – выполнить шаг в случае наличия обложки.

Научная литература (материал с черно-белыми рисунками):

– шаг 1

– шаг 2 *

– шаг 3

– шаг 4 *

– шаг 5

– шаг 8

– шаг 11

– шаг 12 **

– шаг 13

* – их можно опустить, если рисунки (без предварительного выделения в зоны) вместе с текстом обработались с приемлемым качеством;

** – в случае наличия обложки.

Книга с черно-белыми и полутоновыми иллюстрациями:

– шаг 1

– шаг 2 *

– шаг 3

– шаг 4 *

– шаг 5

– шаг 6 **

– шаг 7

– шаг 8

– шаг 9

– шаг 10

– шаг 11

– шаг 12 ***

– шаг 13

* – их можно опустить, если рисунки (без предварительного выделения в зоны) вместе с текстом обработались с приемлемым качеством;

** – иллюстрированные страницы можно и не обрабатывать, но это приведет к минимальному сжатию их при djvu-кодировании;

*** – в случае наличия обложки.

Литература с отсутствием всяких иллюстраций или с черно-белыми рисунками, равнозначными тексту (например, гуманитарного или художественного характера):

– шаг 1

– шаг 3

– шаг 5

– шаг 8

– шаг 11

– шаг 12 *

– шаг 13

* – в случае наличия обложки.


home | my bookshelf | | DjVu- мэйкерство для начинающих |     цвет текста   цвет фона   размер шрифта   сохранить книгу

Текст книги загружен, загружаются изображения
Всего проголосовало: 12
Средний рейтинг 4.6 из 5



Оцените эту книгу