Создание книг в формате DjVu


Распознавание (необязательный): - часть 2


Язык распознавания для большинства случаев можно оставить по-умолчанию - русско-английский. Хотя иногда бывает полезным задать несколько языков распознавания одновременно - для этого нужно в выпадающем списке языков выбрать второе значение - "Выбор из полного списка языков...". Добавлять имеет смысл (при необходимости) греческий язык (для формул), языки Basic, С/С++, Pascal, Java, Fortran, COBOL  (да, FineReader и такое может!), языки "простые химические формулы", "Английский (Медицинский словарь)", "Английский (Юридический словарь)", "Немецкий (Медицинский словарь)", "Немецкий (Юридический словарь)", "Цифры", бывает, встречаются в книгах немецкий или украинский языки.

Программа DjvuOCR 2.0 pre позволяет осуществить распознавание даже при отсутствии tif-файлов - она может переконвертировать имеющийся многостраничный DjVu-файл в набор tif-файлов для распознавания. Перед распознаванием нужно в FineReader'овском проекте Сервис -> Опции -> Сканирование/Открытие сбросить галочку в пункте "Определять ориентацию страницы (при распознавании)". Это нужно сделать для того, чтобы FineReader не поворачивал на 90 градусов те страницы книги, где текст напечатан с разворотом в 90 градусов (т.е. страницы с альбомной, а не портретной ориентацией).

После распознавания создаём где-нибудь (на диске С:\ удобно) 3 папки - первую для frf-файлов (назовём её "frf"), вторую - для DjVu-файлов (назовём её "djvu") и третью - (назовём её "txt") для txt-файлов с распознанной информацией. Копируем в папку "frf" FineReader'овские frf-файлы с распознанной информацией, а в папку "djvu" - одностраничные DjVu-файлы, полученные от DjVu Solo v3.1, в которые будем внедрять текстовый слой. Папку "txt" оставляем пустой - эту папку наполнит сама программа.

Далее запускаем программу DjvuOCR 2.0 pre. Выбираем режим "Batch mode OCR manager" (он стоит по умолчанию) и нажимаем кнопку "Next".


Начало  Назад  Вперед



Книжный магазин