Вы можете прислать нам новости или сообщить что-то очень важное заполнив форму.

Редактор:
Print Friendly, PDF & Email

Какие форматы лучше? Фрагмент №2.

16 ноября, 2013

Формируйте тело... форматы электронных книг! :-)Электронные книги описываются различными форматами данных, а их разнообразие зависит от назначения, возможностей, платформы, веса, кодировки, простоты или «универсальности» (последнее довольно часто субъективно). Потребителям не так важно уметь различать логически их принадлежность к целям и задачам, заменяя свои знания комфортом применения и доступностью контента в конкретном формате.

Очень важно понимать в какой формат пользователь может самостоятельно перевести свои документы, чтобы иметь возможность прочитать их с помощью различных устройств или с помощью специализированных программ. Не стоит отбрасывать в сторону возможность последующего редактирования оцифрованного документа. Если используется оцифровка книг, журналов или газет, а в последнее время еще и статей из Интернета, то и здесь форматы могут использоваться по принципу простоты создания, архивирования и каталогизации, нежели целевого выбора и последующего комфорта чтения. Очень важно учитывать объем информации.

В результате контент может быть изготовлен фактически в любом формате, без определения качества, масштабируемости, «веса». Довольно часто использование форматов опирается на убеждение в принадлежности к чему-либо, чем на изначальную цель, которую закладывал в формат его разработчик.

Профессионалы могут поступать несколькими способами в зависимости от последующего качества применения и выделенных для этого ресурсов, в том числе и финансовых, а не только технических или людских:

  • Создавать контент по природному происхождению и предназначению формата.
  • Использовать формат ради последующей защиты, а не обязательного комфорта во время чтения.
  • Или идти по самому короткому пути, как и обычный пользователь, упрощая создание цифрового контента, сокращая время, экономя бюджет. Для этого формат может быть выбран любой, лишь бы он мог быть доступен, и понимаем профессионалу.
  • И самое неприятное свойство из всех перечисленных – неграмотность профессионала, который создает цифровой контент. Нет никакой разницы между созданием документа для чтения, но ради редактирования. Или наоборот, когда контент нужно сохранить для редактирования, а не для чтения в том виде, в котором невозможно создавать исправления и дополнения в тексте, но на экране такой документ может выглядеть восхитительно и ради этого все создавалось неправильно.

Назначение форматов проще всего воспринимать правильно, если воспользоваться трактовкой термина – предназначение формата, определения того, ради чего нужно создать контент в определенном виде или, иначе говоря, «форме». В любом случае должна главенствовать конечная цель, которая сопоставляется с используемыми средствами (ресурсами в том числе) и возможностью последующего применения, хранения или все одновременно.

Назначение форматов формируется за счет нескольких свойств: возможности формата, предназначения, в которое включены свойства по созданию, редактированию и последующему чтению, причем следует учитывать конечную платформу для осуществления целей.

«Чтение» следует разделить на две части: комфорт функции и предварительный просмотр, ради ознакомления с материалом. Не всегда возможно совместить подобные свойства гармонично, или результат сводится к упрощению основной функции ради предварительного просмотра.

Здесь необходим реальный пример, чтобы четко представлять различие.

PDF содержит в себе одну или множество страниц с контентом. RTF ничем не отличается в данном случае, хотя формат принципиально другой. Предварительный просмотр возможен с помощью вывода страницы на экран в любом объеме, то есть не обязательно демонстрировать всю страницу в полном размере. Достаточно видеть фрагмент, но при котором можно ознакомиться с содержимым, прочитать его или попросту рассмотреть. Сложность в том, что предварительный просмотр формируется по первой странице, по которой сложно определить содержимое всего документа. Все это сводится к созданию крупной пиктограммы первой страницы.

Специализированные форматы содержат в себе дополнительные секции в структуре данных: анонс, трейлер, тизер.

Если представить электронную полку с книгами, то около обложек специализированных форматов можно вывести аннотацию, потому что она заранее известна и её не следует генерировать из основного текста. Прописана внутри данных и находится в специальной секции формата, а всем другим форматам доступна демонстрация обложки, создание крупной пиктограммы с текстом, случайное выдергивание фрагмента после ключевого слова в тексте или после конкретной страницы и результат не предугадать заранее.

Основные предназначения форматов можно представить по типу:

  • Просмотр – назначение форматов при просмотре подготовленного контента сводится к определению платформы для использования. Определяется электронный носитель или программное обеспечение для любого или определенного устройства. Разница только в том, что создающий контент оператор подозревает конкретные ограничения при считывании формата.
  • Возможности – определяются объемом документа и разработчиком.
  • Предназначение – предполагается потребителем и подразумевается разработчиком, который в свою очередь определяет степень открытости формата.
  • Создание документа – определяется способом и его доступностью, технически и лично, или с помощью различных ресурсов, в том числе сторонней помощи (англ. «Freelance» – форма удаленной работы).
  • Редактирование – определяется не только инструменты и программы для внесения исправлений, но и саму возможность, как часть предназначения формата. Для некоторых форматов возможности редактирования ограничены и могут применяться не для замены текста, а для редактирования графических образов и иллюстраций внутри формата.

Все из указанных типов могут иметь ограничения в зависимости от технической реализации формата, которое сводится к защите данных (англ. «DRM» – технические средства защиты) или к сжатию определенных типов данных:

  • Сжатие внедрения или связывания шрифтов и мультимедиа.
  • Отдельное сжатие растровых изображений и текста.
  • Сжатие самих «алгоритмов сжатия» растровых изображений.
  • Использование встроенного механизма сжатия для всего документа и защита данных.

Назначение формата зависит от типа используемых данных:

  • Векторные
  • Графические
  • Текстовые
  • Мультимедиа

Каждый тип данных поддерживает цветовую модель или их гибрид: RGB, CMYK, Grayscale, Lab, Duotone, Bitmap.

В формат могут быть встроены или описаны для использования предполагаемые шрифты. Обычный и типичный набор: Times, Courier, Helvetica, Symbol, Zapf Dingbats. Можно описать шрифты по типам, а не конкретно по имени: рубленый, с засечками и символьный.

Для сокращения ошибок, но ограничения масштабирования, некоторый текст в формате может быть заменен на другой тип. Например, математические формулы описанные текстом с использованием символьных шрифтов могут быть заменены иллюстрацией. Таким образом, текст заменяется графическим типом данных. Такой подход изменяет набор инструментов для дальнейшего редактирования, и масштабирование текста может быть непропорциональным по отношению к иллюстрации.

Графические форматы могут масштабироваться на экране пропорционально изображению, но если страница сделана полностью в графическом виде, то масштабирование может быть увеличено за видимые границы экрана, тем самым используется не увеличение масштаба содержимого, а фрагментация страницы в другом масштабе. Графический текст поддерживает жестко заданные границы полей и страниц, в отличие от текстовых форматов, которые могут увеличивать общее количество страниц в документе в зависимости от размера начертания шрифта.

В зависимости от формата данных внутри структуры документа некоторые форматы лучше использовать для определенного контента:

  • TXT – используется только для текста без разметки, типографикой в данном случае будет заниматься программное обеспечение.
  • EPUB, FB2 и MOBI – содержат в себе смешанный тип данных, поэтому подходят для масштабирования текста во время чтения с сохранением заложенной разметки. Типографикой будет заниматься программное обеспечение, но оно знает выделение фрагментов текста заранее. Переносы слов обычно не описываются форматом, и этим точно будет заниматься только программное обеспечение по запрограммированному алгоритму естественного языка текста.
  • PDF – следует описать отдельно, так как формат хоть и можно отнести к графическому из-за жесткой разметки текста и иллюстраций, но при наличии текста внутри структуры возможно масштабирование с потерей разметки. Класс TextFlow описывает содержимое текста и внутри есть описание параграфа, ссылок, графики и разделителей.
  • DJVU – графический формат, хотя может содержать в себе дополнительные файлы с текстовыми данными. Популярность формата привела к тому, что внутри документа фактически находятся только графические образы страниц и ничего более. С подобной задачей справится любой контейнер с набором иллюстраций в строгой последовательности страниц.
  • CBZ и CBR – это как раз наглядный пример контейнера с графическими данными, где название файла соответствует номеру страницы. В качестве контейнера используются популярные архиваторы ZIP или RAR.

Таким образом, форматы определяют тип используемых данных и по ним можно предположить предназначение форматов.

EPUB, FB2 и MOBI современные форматы для чтения различной литературы в текстовом виде. Особой разницы для потребителей контента в них не заложено. Они в равной степени могут почти одно и то же. Изменение размера шрифта позволяет адаптировать текст под размер экрана носителя с учетом предпочтений конечного пользователя. Для профессионалов это форматы, в которых набор текста может быть сложен для табличных и формульных данных. Это трудоемко и требует особого внимания и терпения. Часто эти типы данных конвертируют или сохраняют в графическом формате, чтобы сократить время набора и ограничить количество вероятных ошибок при сборке итогового документа. Таким образом, внутри масштабируемого формата могут быть данные, которые не подлежат масштабированию с переносом строк.

Графические форматы, к которым сейчас можно отнести почти всё, что в большей степени содержит факсимильный образ страницы, как правило пригодны для печати. Удобство чтения форматов зависит от размера экрана носителя. От комфорта не только при увеличении или уменьшении фрагмента страницы, но и от скорости управления документом и этими функциями.

Форматы для комиксов CBZ и CBR хоть и являются полностью графическими, но лучшие существующие программы автоматически определяют границы кадров и могут по отдельности увеличивать на экране только их зоны. Не всегда возможно комфортное прочтение текста в «баблах», но это в основном в тех комиксах, которые создавались без учета цифровой эпохи и были рассчитаны для чтения только в оригинальном размере печатной страницы.

Такие форматы как DOC или RTF годятся для последующего редактирования, но это еще не значит, что программное обеспечение для чтения поддерживает функции не только полнофункционального редактора, но и даже самых простых возможностей – замены отдельных букв, слов, предложений и так далее. Из этого следует сделать вывод таким образом, что не существует универсально удобных инструментов для чтения и редактирования. В некоторых случаях функции доступны, но не обеспечивают должного комфорта.

Мнение об «универсальности форматов» – это тоже часть предназначения, но не их носителей. Например, PDF может быть удобен как формат с возможностью последующей распечатки на принтере или для чтения на большом экране компьютера, планшета, но плохо совместим с медлительными компактными устройствами, на которых удобно читать, но только в текстовом формате.

Полностью графические форматы JPG, PNG, TIFF и так далее, также могут применяться для чтения. Их назначение не будет отличаться от графических форматов описанных выше, но с очень важным ограничением – поддерживается только одна страница иначе это уже контейнер.

Аннотация

Назначение форматов следует привязать между источником получения контента и носителем, где важным фактором является «комфорт» приобретения и дальнейшего использования контента.

Послесловие

Потерпите, скоро начнутся новогодние темы и подведение итогов года.

Удачи и расслабляйтесь при чтении! Не корову проигрываете, а знакомитесь с миром.


 
 

Комментарии к сообщению “Какие форматы лучше? Фрагмент №2.”

  1. AndyN:

    EPUB, FB2 и MOBI — из текста следует, что у них идентичные возможности. Но ведь это не так.

    • Возможности или внутреняя структура данных?

    • GoodOK-1:

      Возможности идентичны, но в разных ридерах по разному реализованы.

      • AndyN:

        Идентичны? То есть в fb2 уже есть DRM, а ePub стал поддерживать сноски. Mobi стал столько же места занимать на диске, сколько аналогичный fb2?

        • DRM – это обычно оболочка, которая защищает внутренние данные. Если упаковать FB2 в ZIP это простейший DRM.

          EPUB поддерживает сноски. То что их не могут вывести на экран программы или устройства, не говорит об ущербности формата. Есть программы и устройства, которые по своему усмотрению игнорируют разметку FB2 превращая контент просто в текст, фактически TXT.

          MOBI/PRC/AZW и размер файла не есть потребительские свойства. Формат содержит оболочку, даже если не используется DRM, а FB2 упакованный в ZIP будет меньше.

          Возможности – это текст, графика, аудио, видео, масштабируемость. При том, что в большинстве случаев используется только текст и графика.

          В следующую субботу будет первая статья из этого цикла. Я разделил одну большую главу в обратном порядке, мне нужна была реакция – будете ли Вы путать возможности, проприетарность с понятием лучший формат, когда выбирается книга для закачки в устройство. То есть, что Вы предпочтете при выборе одного и того же контента, если представить, что устройство читает любой формат и именно это продают производители – мультиформатность. Поэтому я вижу, что возможности путаются с внутренней структурой, которая на самом деле не важна пользователю. 😀

  2. Maxim:

    FB2 и EPUB — совершенно разные по сути форматы. С разным назначением и разными свойствами.

    EPUB — это HTML (XHTML), и отсюда вытекают его возможности и недостатки. Основные недостатки — сверх-сложность современного форматирования (на весь мир — три-четыре броузера сумевших реализовать до 80% форматирования); перегруженность ненужными для книг функциями; неприспособленность визуального форматирования к разным экранам (большим-маленьким, цветным-чернобелым и т.п.); неприспособленность CSS к изменению форматирования под желание пользователя (поменять шрифт, типографику). Ах да, еще поддержка кучи устаревших и взаимно-конфликтующих «стандартов». В итоге — EPUB читалка — глюкавый монстр, всё равно стандарту не удовлетворяющий, и неудобный для чтения на всём диапазоне устройств.

    FB2 является полной противоположностью EPUB-у. К сожалению, из разряда «простота хуже воровства». FB3 шел в правильном направлении, но увы, не дошел (не дожил, вернее).

    PDF — это не текстовый формат, в смысле возможности взять из него текст и отдельно его нарисовать. Скажем, двух-колоночном PDF текст вполне может хранится в последовательности горизонтальных строк из разных колонок, а не одна колонка за другой. Назначение текста в PDF — возможность использования векторных шрифтов, которые позволяют рендерить документ для устройств с очень разным DPI (плотностью пикселе). Ещё это позволяет делать поиск по тексту, но это как повезет. Собственно, его (точнее PS) создавали чтоб печатать на разных принтерах, с разной плотностью точек.

    DjVu создавался для сканированных книг. Его главная фишка в специализированном алгоритме сжатия, дающим хорошее качество картинки состоящей из текста при размере сравнимом с размером PDF-а. Изначально это был просто архив с картинками, и постепенно развивается в сторону сохранения OCR-енного текста. Это делает его почти полностью сравнимым с PDF с точки зрения читалок, но намного более легковесным в реализации.

    • Это вы структуру определяете и это не важно. Для потребителя важнее то, что на выходе – текст, графика, аудио, видео, масштабируемость.

      • Maxim:

        Это вы не прочитали того, что написано.
        Я не «определяю структуру», а пишу откуда ноги растут и для чего именно разные форматы изначально были предназначены. И их предназначение определяет способ работы с книгами в этих форматах. Вы считаете неважным для пользователя возможность изменить форматирование или найти текст в книге, читать используя дешевые устройства, быстрый рендеринг?

        • Дело не в том, что я думаю, а в том какую тему раскрываю в статье. Тема — возможности форматов. Не устройств, не програмного обеспечения, а форматов. А поиском занимается софт.

        • K____________e:

          «откуда ноги растут и для чего именно разные форматы изначально были предназначены.» — потребителя не интересует. Ему интересен рынок контента сегодня.

  3. Дмитрий:

    Почему-то не упомянут формат ePUB3 и его версия, применяемая в первую очередь для детских книг — ePUB3 Fixed Layout.
    Кроме того, формат .MOBI в его версии KF8 поддерживает еще такие вещи, как immerson reading -совмещение профессиональной озвучки книги (аудиокниги) с подсветкой читаемых слов в тексте. А также — все чаще используемую при верстке детских книг фичу как region magnificient — всплывающее дополнительное окно с текстом поверх общей страницы для удобства чтения.

    • Все что вы перечислили относится к програмному обеспечению. Ничто не мешает сделать озвучку в любом формате. Эта функция называется text to speach.

      • Дмитрий:

        Не совсем так — это относится также и к верстке. Сделать ePUB3 FL, а тем более Region magnification для Kindle — не совсем простая задача. 🙂
        Что касается text to speech, то Вы не совсем меня поняли — я говорю о профессиональной озвучке, а не о роботочтении 🙂 Например, вы можете купить книжки Стивена Фрая в чтении самого Фрая. 🙂

        • От того как реализована программная функция на выходе ничего не меняется для основных возможностей формата, кроме качества. Видели фильмы с субтитрами? Это заложенный принцип синхронизации текста и аудио. Рано или поздно будут комиксы озвучивать. Но нужно ли? Любая функция должна адаптироваться исторически.

          • Дмитрий:

            Не совсем понимаю.
            От того, как реализована программная функция как раз сильно зависит то, что получается на выходе. 🙂
            Попробуйте сверстать в FB2 или ePub детскую книжку с разворотными картинками. 🙂
            Не получится.
            Если в читалке нет поддержки ePUB3 — детские книжки вы на ней читать сможете только в PDF, а это качественно иной UX, согласитесь. Не говоря уж о том, что звука там не будет точно.
            Мой изначальный комментарий был, собственно, об одном — в обзоре, посвященном форматам электронных книг, не были упомянуты форматы, создающие качественно иной уровень UX для чтения детских книг.

    • Maxim:

      1. Почему не использовать PDF вместо fixed layout. Вы говорите о другому UX, но в чём он другой? Чего не хватает?
      2. Вы говорите о синхронизации аудио и текстовых потоков, но есть ещё много других вещей, которые неплохо бы синхронизировать с текстом. Скажем, ту-же разметку для TTS (акценты, интонации, эмоции). Или семкнтическая разметка — здесь цитата, здесь прямая речь, здесь «мысли человека», там выделено в смысле важности, а тут выделено в смысле комментария автора перевода, а там ссылка на другую научную статью. Я могу ещё несколько других (важных для какой-то области применения) разметок, синхронизированных с текстом привести. Я веду к тому, что может не отдельные костыли добавлять в формат для этого не предназначенный.
      3. Всплывающие окна и прочая интерактивность (а равно absolute layout в CSS и пр.) где-то могут работать, а где-то нет. Скажем, e-ink с интерактивностью или форматированием в режиме свитка (с прокруткой) мало совместим, а планшеты наоборот. И ещё не известно, как с этим дело будет обстоять на носимых дисплеях (типа google glass). Формат, предназначенный для разных устройств не может включать подобные фичи. Либо это должен быть «расширяемый» формат, с четким разграничением — это читалка может игнорировать, а это нет. Как и для синхронизированной разметки — формата такого ещё нет (я его не знаю). А приведённый вами PF8 — это конкретный костыль в конкретной читалке на конкретных устройствах, а не «формат, создающий качественно иной UX».

      • Именно. Для софта нужен был определенный тип данных, он предоставлен форматом, дальше дело техники.

        Поэтому, возможности самого формата постоянны – это текст, графика, аудио, видео, масштабируемость.

        Что касается возможностей софта, то сейчас очень часто используют адобовский движок для EPUB и не очень переживают по этому поводу. В этом плане MOBI и FB2 могут ставить костыли до бесконечности и будут валидными по основным возможностям, остальное попросту будет игнорироваться софтом.

        А детские книги лучше читать на бумаге! 😀 Электроника дает интерактивность, но тактильность и формы только бумага. Ребенку проще с бумагой разобраться в понятиях – один и много.



Вы можете прислать нам новости или сообщить что-то очень важное заполнив форму.