Фаза преобразования формата
Как мы уже говорили ранее, фаза преобразования формата в действительности подразделяется на ряд этапов, которые в основном связаны с переводом данных, используемых в текстовом процессоре, в более сложные наборы кодов, необходимые для типографского набора и верстки (с точки зрения компьютера это обычно соответствует последовательно выполняемым операциям "поиск и замена").
Ряд переводных таблиц, установленных на принимающем компьютере, обычно используется специальной программной утилитой, разработанной для этой цели. Эти программы, которые поручают компьютеру прочитать файл текстового процессора и записать его как файл для типографского набора, заменяют каждый определенный параметр, который они встречают в файле текстового процессора (символ, код, набор кодов) на другой специальный параметр (символ, код, набор кодов) в файле для набора.
Процесс можно разделить на три этапа.
- Перевод слов и пробелов.
- Назначение правильных знаков препинания и специальных символов.
- Перевод специальных электронных меток (тэгов) для верстки.
Слова и пробелы. В подавляющем большинстве случаев коды представляют собой символы и пробелы, составляющие текстовые файлы, которые хранятся в персональных компьютерах и типографских наборных системах в закодированном виде в соответствии с универсальным "алфавитом" компьютеров – ASCII.
ASCII (American Standard Code for Information Interchange), или Американский стандартный код для обмена информацией, представляет собой набор из 128 кодов в двоичном представлении от 0000000 (десятичный 0) до 1111111 (десятичное 127). Вместе они представляют собой все прописные и строчные буквы алфавита, цифры 0-9, наиболее употребительные знаки препинания и ряд стандартных выходных управляющих кодов, таких как возврат каретки, удаление символа слева, перевод строки и т.д. Эти первые 128 кодов, или "основной набор кодов ASCII", как его иногда называют, используются всеми системами стандартным образом.
"Расширенный" набор символов ASCII добавляет к основным 128 кодам еще 128 кодов от 10000000 (десятичное 128) до 11111111 (десятичное 255).
Эти дополнительные коды включают в себя специфические буквы для основных европейских языков, ряд наиболее распространенных математических символов и ряд простейших графических элементов, с помощью которых можно создавать рамки и узоры. Этот второй набор из 128 кодов однако не является стандартным для всех систем, что может привести к неожиданным результатам при переводе из одной системы в другую.
Специальные символы, знаки, литеры, которые не входят и в расширенный набор ASCII, обычно требуют специальной трактовки, и это является предметом рассмотрения на следующем этапе процесса преобразования.
Знаки препинания и специальные символы. Процесс "поиск-и-замена", используемый в данном случае, имеет ряд особенностей в зависимости от обрабатываемого текста.
Прежде всего, следует выявить концы абзацев и отступы первой строки абзацев. Если файл-оригинал содержит пометки в явных кодах конца абзаца (для системы ASPIC, например, это две квадратные скобки), то программа поиска-и-замены выявляет эти символы и преобразует их в команды конца строки и абзацных отступов на единицу ширины "m" для первой строки абзаца. Гораздо чаще файлы текстовых процессоров имеют маркеры конца и начала абзацев с помощью двух символов возврата каретки при отсутствии отступа для первой строки следующего абзаца (этот стиль набора в текстовых процессорах носит название "блочного"). В этом случае программа поиска-и-замены выявляет эти двойные символы возврата каретки и генерирует в каждом случае новый отступ абзаца – хотя результат может нуждаться в проверке, в зависимости от того, насколько единообразно был осуществлен предварительный набор.
Откорректированные для типографского представления открывающие и закрывающие кавычки, часто недоступные для ввода с клавиатуры при работе в текстовом процессоре, должны быть выявлены и сформированы, так же как и знаки, специальные символы, дроби и т.д. Тем самым процесс типографского набора может быть значительно ускорен за счет более раннего применения системы кодирования, чтобы идентифицировать все требуемые в работе обычные и стандартные символы.
Электронные метки (тэги). Теперь необходимо передать коды "электронных меток", содержащиеся в файле текстового процессора (например, тэги SGML или ASPIC) в их эквиваленты на языке системы типографского набора и целиком завершить обработку файла для подготовки его к набору.
Прежде всего, следует определить все комбинации входящих и исходящих кодов; затем, воспользовавшись соответствующей кодовой таблицей, найти в ней каждый из используемых во входящем файле кодов и назначить для каждого из них определяемый им стиль или эквивалентную команду в системе типографского набора.
Понятно, что если текст содержит исчерпывающие и правильные коды, будет достигнута значительная экономия времени; каждый код может быть быстро интерпретирован в соответствующий стиль или код языка для наборной системы, чтобы создать требуемый типографский эффект, а в результате работы программы поиска-и-замены будет получен окончательный файл для типографского набора, готовый для вывода.
Здесь также очевидно проявляются преимущества передачи файла в "чистых кодах ASCII", не содержащего встроенных управляющих кодов текстового процессора. Управляющие коды текстового процессора представляют собой коды, созданные программой текстового процессора в ходе ввода текста файла, и включают в себя такие команды, как "мягкий" (программный) возврат каретки, команды форматирования текста, нумерации страниц и т.д. В терминах передачи текста эти коды представляют собой лишь дополнительные нюансы, которые следует выявить и удалить. Файлы ASCII, с другой стороны, не содержат таких команд и позволяют избежать действий по их удалению.
Недостатком в случае генерации программой выходного файла ASCII является то, что при этом удаляются все команды текстового процессора по заданию начертания шрифта, например, полужирного или курсивного – поэтому такие команды часто лучше бывает снабдить маркерами наподобие тэгов ASPIC, которые невозможно проставить в текстовом процессоре. В случае же, если текст не содержит большого количества специальных символов или других дополнительных команд, полезнее бывает использовать файл в стандартном для текстового процессора формате.
В то время, как символы кодов управления печатью, упомянутые ранее, могут быть безболезненно отброшены, коды, задающие полужирное и курсивное начертание шрифта и подобные им коды, встроенные в текст файла текстового процессора, могут быть успешно использованы, т.е. средствами программы поиска-и-замены найдены и заменены на их эквиваленты в командном языке наборной системы. Но этот процесс чреват непредсказуемыми случайностями; более безопасная и надежная процедура – это проставить для них тэги вне программы, о чем мы говорили ранее.
Самое разумное, это сохранять файлы в текстовом процессоре, как в его родном формате, так и в виде только кодов ASCII, и требовать для передачи с твердой копией материала оба этих файла. В этом случае при наличии представленных листов исходного материала наборщик будет располагать максимальной гибкостью при выборе наиболее подходящего файла.