Вы можете прислать нам новости или сообщить что-то очень важное заполнив форму.

FindDupe поиск схожих строк в тексте

3 февраля, 2008
Программа для поиска сходных строк в текстовых файлах. Программа проста в использовании, использует принцип консольных программ.

Это утилита командной строки (консольное приложение), работающая под Win32 (проверял только на 2000 Pro, если у кого будет возможность и желание — просьба протестировать на 95/98/XP).
Программа весьма проста в использовании (я сторонник «минималистического» интерфейса) — достаточно запустить программу с единственным параметром, именем файла для обработки. Результат выводится на stdout и, естественно, может быть перенаправлен в файл для вывода и последующего анализа. Весьма удобна пакетная обработка файлов, осуществляемая строкой вида

for %N in (*.txt) do FindDupe.exe «%N» >> compare.txt

Программа пытается определить русскую кодировку файлов (DOS, KOI8R, Windows), небольшая часть кода заимствована из ClearTXT Димы Грибова. Вывод производится в OEM-кодировке, что позволяет видеть результат в его «нормальном» представлении (не в «крякозябрах»). Сортировки при выводе одинаковых фрагментов не производится, но «естественный интеллект» позволяет легко «распознать» повторяющиеся части ))

Надеюсь, утилита будет полезна людям, занимающимся OCR и вносящим свой весомый вклад в дело «e-book-остроения».

Download: FindDupe.exe

При перепечатке материалов The-eBook | Электронные книги и устройства для чтения, обязательно указывать ссылку на оригинал.

ЕСЛИ У ВАС LINUX. ЧАСТЬ 1. ОБРАБОТКА ТЕКСТА

3 февраля, 2008
Два скрипта, которые облегчат Вам обработку текста под Linux системой.

Обработка текста для Rocket eBook

Замечательная онлайновая библиотека www.bestlibrary.ru имеет следующую, не очень приятную особенность. Скачать книгу одним файлом можно только в формате ворда. А у настоящего линуксоида для этого формата есть только одно применение:

/dev/null

🙂

Зато, если кликнуть на ссылку «прочитать», то мы попадаем на первую часть книги (как правило book.html). Сам этот файл нам не интересен, зато в этой же директории всегда лежит файл «book_b.html». В нем есть ссылки на все части книги.

Скрипт bestlib закачивает этот файл, парсирует его и закачивает все остальные куски. Затем он пакует все в один tarball.

Использование:

  • bestlib <URL_of_book.htm_file> [title] [author]

Пример:

Идем на bestlibrary. Выбираем книгу, right click on «прочитать» выбираем «Copy link location» (для Мозиллы). Теперь идем в xterm, набираем bestlib и middle click. Затем набираем имя произведения и автора (если внутри пробелы — в кавычках).

Полученая коммандная строка:

bestlib http://www.bestlibrary.ru/texts/det/donts38/book.html «Uha iz zolotoj rybki» «D. Doncova»

После работы скрипта Получаем файл «Uha_iz_zolotoj_rybki.tgz». Все промежуточные *.html и *.shtml можно удалить. Автоматически они не удаляются.

Теперь переносим этот файл на комп с ракетой, раскрываем в какой-либо директории и импортируем в eLibrarian файл «book_b.html».

Внимание!!! Не забываем кликнуть «Follow links» при импорте!!! Книга готова к употреблению.

Операционная система:

Любой UNIX. Проверено на Linux и Solaris. В Windows (Cygwin) не работает — perl не понимает ключа «-i» 🙁

Требования:

  • wget
  • perl
  • bash (в Линуксе есть всегда)
  • rhtml

eLibrarian прекрасно работает с html. Но, «All htmls are equal, but some htmls are more equal than others». Особенно это относится к Мошкову — там вообще html очень странный. То есть, он вроде как и html, но внутри сидит plain text, окруженный тагами PRE. И текст этот выровнен под компьютерный монитор, но никак не под ракету.

Очень продвинутые возможности html ракета тоже не понимает. Отличный пример — styles sheet. Поскольку в общем виде их перекодировать весьма затруднительно, если вы обнаружили библиотеку с особенными styles sheet, отредактируйте hash с именем %styles (line 42 in rhtml). Сегодня он понимает styles sheet из Gena’s library (http://rt.gena.lib.ru).

Кроме того, при загрузке с различных онлайновых библиотек, довольно часто мы получаем не html, а plain text. Его надо конвертнуть в html, добавив всяких красивостей.


А иногда еще надо перекодировать из различных русских кодировок.

Вот для всего этого и существует скрипт rhtml. Им можно:

  • Перекодировать из различных русских кодировок в Win-1251
  • Подготовить читаемый на ракете html из нечитаемого на ракете html
  • Подготовить читаемый на ракете html из plain text
  • Поставить имя автора и книги в формате, понимаемом ракетой.
  • Выбросить переносы и конкатенировать перенесенные слова.

Использование

  • rhtml [switches] <input_file>
Where switches are:

    -a <author> — specify book author

    -b — envelop all text with <b> and </b> tags.

    -c <code_system> — decode from <code_system> (default — win) may be: win, koi8, alt, mac or iso5

    -d — justify paragraphs with <div> tag

    -i — edit on place (like perl -i)

    -p — justify paragraphs with <p> tag

    -q — envelop all text with <blockquote> and </blockquote> tags.

    -t <title> — specify book title

    -x — input file is text and not html

    -n — respect new lines in text

    Output html-file is printed to stdout.

Пример:

  • rhtml -x -d -a «Pavel Shumil» -t «Odinokij drakon» slovo_1.txt > slovo_1.html

Операционная система:

Любой UNIX. Проверено на Linux и Solaris. В Windows работает тоже, но необходима инсталяция перла. Проверено под Cygwin, но, по идее, под ActivePerl тоже должно работать.

Требования:

  • perl

Скачать:

  • rhtml.gz
  • bestlib.gz

Примечание редактора: Все эти скрипты можно также использовать в операционной системе Mac OS X, через Terminal.app, предварительно выставив права через команду sudo на выполнение скриптов.
При перепечатке материалов The-eBook | Электронные книги и устройства для чтения, обязательно указывать ссылку на оригинал.

А книга у меня уже есть! Вопросы и ответы.

1 февраля, 2008

Интервью с Андреем Тильманом на основе личной переписки, после публикации статьи «А книга у меня уже есть!» в журнале Компьютерра.

The-eBook: Андрей! А где Вы купили свою ракету, у нас или за рубежом?

A.Тильман: За рубежом. Я живу в Канаде. Правда, для Штатов это тоже получается «за рубежом» и с покупкой была целая история, она тоже в статье описана.

The-eBook: Ko мне приходят часто письма от наших — там (за рубежом), а вопрос у всех один — как заставить Rocket-eBook говорить по-русски?

A.Тильман: Проблемки действительно есть. В книгу по идее должен загружаться любой шрифт True Type. Ho управляющая программа Rocket Librarian почему-то очень придирчива, и показывает в списке доступных шрифтов не все шрифты, установленные на машине. А из тех, что показывает, надо еще исключить юникодовские (типа Arial): в них не грузятся национальные вариации (типа Arial Cyr). Старые шрифты от Windows 3.1 тоже не видны. Словом, задача — найти ‘чистый’ русский шрифт, чтобы Rocket Librarian распознала его как True Type и показала в списке доступных.
Я нашел в сети ER Bukinist и ER Univers — так из них первый виден, а второй нет. Лучше бы наоборот, потому что на ракете бессерифный шрифт лучше. В конце концов подошел и шрифт NT Helvetica из старого набора CyrWin95.
Другая проблема: жирные и наклонные. Для английских юникодных шрифтов система распознает, что четыре файла относятся к одному шрифту, и грузит их все. Память съедает, но зато полный набор форматов. С русскими — не получается, ни с одним из шрифтов! Не загрузились вариации наклонного/жирного. Для обычных книг это не проблема, а вот техническая литература обычно форматирована…

The-eBook: Какие форматы текста можно преобразовать для чтения?

A.Тильман: Файлы ракеты конвертятся из html и сохраняют форматирование моноширинным шрифтом, там, где оно есть, и отображается это в книге тоже моноширинным, встроенным. Этот моноширинный тоже не русифицируется, впрочем, от этого я еще ни разу проблем не имел, ибо то, что выделяется таким образом — это как раз распечатки экранов и листинги настроечных файлов всякие…

The-eBook: A кодировка русского языка?

A.Тильман: С кодировкой просто: если шрифт в win, то и книги должны быть в win, если шрифт koi8, то и книги соответственно…

The-eBook: Или наоборот.

A.Тильман: Надеюсь, это поможет вашим знакомым с русификацией. Как видите, проблемы с Ракетой есть, и далеко еще не все я решил, только начал с ней возиться. Но после того как главной функциональности я от нее добился, остальное выглядит каким-то несрочным и неважным, выправится со временем…

The-eBook: Я общался с NuvoMedia они меня клятвенно заверяли, что шрифты можно загружать двумя способами:
1. Вместе с книгой.
2. Заменить встроенный шрифт Verdana на национальный, формата РС TrueType.

Ho y меня нет Ракеты и все исследования я проводил на виртуальной Ракете в компьютере.

A.Тильман: Начну со второго. сожалению, именно возможность загрузки шрифтов в экранном эмуляторе отсутствует напрочь. Чуть ли не единственная функция, которую не смоделировали. Не смогли, что ли, наладить связь между Librarian и eRocket?
Потому что в help на Librarian сказано, что он ‘используется для управления настройками еВоок и eRocket’.

The-eBook: A эмулятор для этой функции использовать нельзя?

A.Тильман: Это действительно так, что и не удобно: быстрее было бы проверять и отлаживать.
Теперь ответ на первую часть вопроса: Что же касается «национального, формата РС TrueType», то это, в общем, правда, вот только что они имеют в виду под национальным TrueType?
Юникодовские шрифты вообще ‘межнациональные’, общие для всех — но как заставить Librarian использовать именно русский (венгерский, итальянский?) Нигде пока не смог найти указание.
А с не-юникодовскими другие проблемы: их сменилось со времен Windows 3.1 несколько поколений форматов, и, видимо, не все корректно описаны внутри. То есть у меня есть целый ряд русских шрифтов, которые прекрасно стоят под Windows, видны в текстовых редакторах, во вьюверах шрифтов, но… Librarian их в списке не показывает.
Почему-то не считает их правильными TrueType. Может, он куда-то вглубь шрифта лезет для растеризации, и ему и впрямь не все равно? Но в итоге, получается, еще половина шрифтов отпадает по крайней мере до тех пор, пока не будет ясно, чем именно они
Librarian не нравятся.
А вот те, что остаются, прекрасно грузятся. Таких у меня штук пять есть, но нужен реально один, бессерифный. Могу поделиться с желающими 🙂

The-eBook: Hy теперь тебя забросают просьбами, ты готов?

A.Тильман: :-))
Я не слышал о возможности встраивать шрифт в книгу, но в принципе почему бы и нет? Книга собирается из html-файла (файлов), может включать картинки — почему бы не иметь и штифт тоже в виде растровых образов символов, хоть в том же png-формате. Наверное, это надо где-то указать при создании книги. Поскольку Writer ничего по этому поводу не спрашивает, скорее всего, указывать надо в разметке html. He исключено, что обычным тагом .
Надо будет попробовать…
стати, не будет ли в этом случае и эмулятор правильно символы показывать?
Любопытно… Да, надо побольше и пошире поэкспериментировать, а то я как книгу добыл, так сразу все читать, читать… :-))

The-eBook: Есть еще подводные камни?

A.Тильман: Проблема не в этом, проблема — как загнать этот самый русский шрифт в еВоок, если он туда не загоняется. В RocketLibrarian, в пункте Settings/Rocket eBook (он, к сожалению у вас недоступен без физически подключенной к параллельному порту Ракеты) открывается диалог с табами, на одном из табов — шрифты. Если обнулить два флажка «использовать встроенные шрифты», то становятся доступны два же выпадающих списка True Type-шрифтов. Надо их выбрать и указать размер. Два — для большого и для маленького шрифтов. еВоок хранит два размера.
Так вот тут-то и сидит проблемка — не все True-Type шрифты, установленные в компьютере, отображаются в этом списке. А это именно список, я не могу руками набить имя шрифта, если он не распознался программой — могу лишь выбрать те, что распознались. Ну и надо ли говорить, что среди нераспознанных чаще всего оказываются как раз всякие добавочные и экзотические с точки зрения системы шрифты, и что русские тоже часто попадают в эту категорию. То есть проблема — понять, почему тот или иной шрифт воспринимается как True Type всеми программами, кроме RocketLibrarian — тогда, наверное, можно будет загонять в еВоок любой русский шрифт, или по крайней мере понять, почему один загоняется, а другой нет. Пока же приходится просто перебирать побольше шрифтов в расчете, что не один так другой распознается.
Реально-то нужно, чтобы распознался всего один подходящего качества — и проблема решена. Я для себя ее решил. Могу с любым желающим поделиться «шрифтами, которые грузятся». Но на будущее все-таки рассчитываю решить проблему нормально, а не из-за угла, то есть понять причину этой странной избирательности Librarian.
A вот как раз кодировками нас не запугать, был бы шрифт, а книгу перекодировать недолго 🙂

The-eBook: Как ты думаешь — когда Ракета будет продаваться в России? Цитирую из моей переписки с NuvoMedia:
NuvoMedia’s European strategy is to pursue the German language market in mid 1999. Our current plans call for entry into other European countries in the year 2000.
Так, что это у них называется стратегия, а мне кажется, что они просто не справляются с производством. У вас на Ракете, что написано после слов «made in ???», так мне кажется что для России будет — однозначно — КИТАЙ.

A.Тильман: У меня — made in Taiwan. Но дело не только в изготовлении. Им же мало книгу продать — они должны о КОНТЕНТЕ позаботиться! Они же деньги стричь хотят не с аппаратуры, а с продажи книг. А это для любой новой страны — целая инфраструктура, которую нельзя механически скопировать с американской.
Надо заключить договора с издателями, убедив их перед этим в безопасности, позаботиться представительной выборкой писателей и тем, чтобы читателей заинтересовать… По сравнению с этим локализация менюшек или выпуск аппаратуры — детские игрушки! А просто продавать девайсы без контента — невыгодно. То есть я их в некотором смысле обманул, купив девайс, но не купив пока (и не особенно собираясь) ни одной книги. Обманул их коммерческие ожидания. Но это я — потому что мне есть где найти контент. А «обычные» американцы… Почитайте форумы пользователей на http://www.ebooknet.com (сейчас не доступен) — они стонут от узости выбора изданий (из-за страха издателей) и от дороговизны (поскольку издатели дерут за электронные книги практически столько же, сколько за бумажные!) Ну а NuvoMedia не хочет совсем уж терять контроль над пользователями, активно продавая е Книги без обеспечения изданий, наоборот, хотят привязать покрепче.

The-eBook: Хорошо бы Вы мне для сайта сделали адаптированную статью о Ракете с фотографиями Ракеты в разных положениях. Был бы благодарен.

A.Тильман: Статью, боюсь, скоро может не получиться — я изрядно занят в других проектах, а скоро еще и в отпуск поеду на пару недель. Думаю, Компьютерра не будет возражать против перепечатки со ссылкой? Я-то точно не буду. Но если Вы мне подскажете, что именно хотели бы ‘адаптировать’… Может, там не статья более подойдет, а faq какой-нибудь.

The-eBook: Андрей, огромное спасибо за импровизированное интервью. Вопросы конечно будут, я их будут собирать и пересылать тебе для конкретного ответа. Надеюсь поможешь русским читателям с их проблемами?

A.Тильман: Пишите!

The-eBook: Спасибо тебе огромное, я тоже буду задавать вопросы, если не против?! Спасибо!

При перепечатке материалов The-eBook | Электронные книги и устройства для чтения, обязательно указывать ссылку на оригинал.

SonyClie TG50 — РУСИФИКАЦИЯ

1 февраля, 2008
Рассматриваются русификаторы Palm OS. Их небольшое сравнение и способы решения проблем.

            Продолжается серия статей о Sony Clie TG50 и о чтении на компьютерах Palm OS. В предыдущей статье рассказывалось о самом устройстве и его характеристиках. Теперь время русифицировать его и читать книги.

Русификация

Слово русификация пишется с одной буквой «С» в отличии от слов «Россия» и «русский». Приблизительно с этим я столкнулся при русификации устройства. С одной стороны платформа Palm OS существует давно и уже было время русифицировать систему в доль и поперек, с другой стороны существует огромное количество русификаторов, которые делают все кроме основной своей функции.

Давайте все-таки разберемся что требуется от программы — которая поверх или вместе с системой подставляет одни буквы вместо других. В Palm OS на сегодня можно вводить буквенные знаки тремя способами: виртуальная, внешняя клавиатуры и конечно граффити. Голосового распознования нет, так же как и естественного рукописного. Виртуальная клавиатура и граффити используют часть экрана или область граффити под экраном. Внешняя клавиатура либо на корпусе компьютера, либо соединяется с компьютером шнуром, разъемом и т.д.

Sony Clie TG50 имеет все три типа ввода текста. Теперь сразу «но!». Область граффити является виртуальной, внутри самого экрана и вызывается только в программах ввода. Виртуальная клавиатура делает тоже самое, а внешняя (на корпусе у Sony Clie TG50) не имеет тех функций — которые есть у «нормальной» области граффити. Тем самым переключиться комбинацией клавиш на русский и английский язык пока нельзя.

Теперь по-порядку

Мной проверены три популярных русификатора:

  • CyrHack V версия 0.0.8 — основная особенность — бесплатен, и чуткий автор программы
  • PaPiRus 2003 — продает МакЦентр ввиде бэта программы, но за деньги
  • PiLoc 3.40 — принадлежит фирме Парагон и стоит порядка $19, но еще к этому предлагается приобрести программу PiLoc Monitor, так что стоимость может вырасти до $30.

Русские буквы в отличии от английских являются вторым языком в компьютере. Значит нужны шрифты с кирилическими знаками.

Шрифты

Шрифты — это все, что нужно для того, чтобы читать текст. Я не оговорился, чтобы писать — одних шрифтов не достаточно.

Русских знакомест больше, чем английских. Русские знаки являются второстепенными в любом шрифте которые я видел. Иногда бывают исключения, когда латинских букв нет в шрифте вообще. К таким шрифтам относится, как правило, старорусские и церковные шрифты. Но место под латиницу все равно есть.

Для корректного выделения текста достаточно четырех начертаний, не путайте со шрифтом! Это нормальный, наклонный, жирный, и жирный с наклоном. Выглядит это так:

  • Нормальный
  • Наклонный
  • Жирный
  • Жирный с наклоном

Иногда используется моноширинный шрифт, для того, чтобы написать буквы в равном растоянии друг от друга, но на обычное чтение это никак не влияет. Такой шрифт нужен скорее для написания таблиц без ячеек, для исходных текстов программ и прочего.

Все проверенные мной руссификаторы, содержат все четыре начертания, а иногда предлагают еще дополнительные шрифты. Но собственные шрифты отличаются по начертанию от родных Sony Clie TG50. В русификаторе PiLoc есть шрифт очень похожий на стандартный шрифт компьютера.

Клавиатуры — виртуальная и внешняя

Виртуальную клавиатуру не имеет смысла рассматривать, она как две капли похожа на настоящую компьютерную. И ей можно назначить две раскладки ЙЦУКЕН и ЯВЕРТЫ. Разница только в том, что ЯВЕРТЫ является фонетической.

  • CyrHack V — не работала на Sony Clie TG50
  • PaPiRus 2003 — стандартно
  • PiLoc 3.40 — выше чем стандартно, раскладка ЙЦУКЕН и ЯВЕРТЫ.

Внешняя клавиатура была самым слабым местом всех русификаторов. При подключении дополнительной внешней клавиатуры, все руссификаторы работали достойно. Итак — как вели себя русификаторы с клавиатурой SonyClie TG50:

  • CyrHack V — нормально не работала
  • PaPiRus 2003 — стандартно, пойди найди буквы, если их нет на клавиатуре, а слепой метод на таком размере — не возможен.
  • PiLoc 3.40 — выше чем стандартно, раскладка ЙЦУКЕН и ЯВЕРТЫ. Трудно набирать несколько букв, такие как «ъ», «ю» и т.д. В документации устаревшая информация по расскладке.

Не возникает проблем при раскладке ЯВЕРТЫ. Где латинская «F» там и русская «Ф». Я до сих пор не знаю где находятся некоторые буквы.

Граффити

Нормально не работала ни в одном русификаторе!

  • CyrHack V — не работала на Sony Clie TG50
  • PaPiRus 2003 — не работала на Sony Clie TG50
  • PiLoc 3.40 — работала только в раскладке ЯВЕРТЫ. Пишешь «Г» получаешь «Ф» или в латинице соответствено «F». Пишешь «Л» получаешь и там и там «А». И т.д. Никакие настройки на граффити не действуют.

Переключение языков

Так как область граффити в Sony Clie TG50 отсутствует, то переключиться можно только на экране или клавиатуре, но:

  • CyrHack V — не работала на Sony Clie TG50
  • PaPiRus 2003 — только на экране
  • PiLoc 3.40 — только на экране

Кодировка языка

Тут еще хуже. Все русификаторы не поддерживают юникод.

  • CyrHack V — нет
  • PaPiRus 2003 — незнаю
  • PiLoc 3.40 — кодировки Win, Mac+, Koi8-r, Iso. Если приобрести отдельно программу PiLoc Monitor, то можно переключать кодировки динамично.

Так как у всех русификаторов отсутствует юникод, то синхронизировать телефонную книгу и календарь с телефоном, например, не возможно.

Итого

Что теперь, можно сказать? Да в принципе — ничего! Ни один русификатор на момент тестирования не удовлетворял потребностям и если CyrHack бесплатный, то за все остальные нужно платить. Общий счетчик преимуществ я отдал программе PiLoc, но я не буду покупать такой русификатор, пока я не смогу удовлетворить свои скромные потребности, исключение наверно является кодировка юникод. Ее врядли будут делать. Любой разработчик будет считать достаточной кодировки win1251. Ну, а что мне делать? Если мой настольный компьютер Apple? Отказаться от синхронизации? Нет! Как это сделать? Читайте дальше.

Корректируем Palm Desktop for Mac OS X

Инструкция довольно проста, для ее выполнения требуется Resorcerer для корректировки таблиц «ручками», или программа которая сделает это сама — Conduit Localisator X.sit. Инструкция верна для Palm Desktop 4.1 for Mac OS X.

Инструкция ( Log Palm Desktop Conduit.sit )

  1. Открываем Palm Desktop/Contents/Resources копируем English.lproj в ru.lproj
  2. В Palm Desktop Info -> Languages выключаем English, включаем ru.
  3. Открываем Palm Desktop/Contents/Resources/Palm Desktop Background/Contents/Resources копируем English.lproj в ru.lproj
    После этого аналогично п. 2 Info -> Languages выключаем English, включаем только ru
  4. Открываем Palm Desktop/Contents/Resources/Palm Desktop Support/Contents/Resources копируем English.lproj в ru.lproj
    После этого аналогично п. 2
  5. Открываем HotSync Manager/Contents/Resources копируем English.lproj в ru.lproj
    После этого аналогично п. 2

  6. Открываем Conduit Manager/Contents/Resources копируем English.lproj в ru.lproj
    После этого аналогично п. 2

  7. Открываем Transport Monitor/Contents/Resources копируем English.lproj в ru.lproj
    После этого аналогично п. 2

  8. Открываем Note Pad/Contents/Resources копируем English.lproj в ru.lproj (если есть)
    После этого аналогично п. 2

  9. В кондуитах (по адресу: /Library/Application Support/Palm HotSync/Conduits) с помощью Resorcerer открываем имя_кондуита/Contents/MacOSClassic/имя_кондуита
  10. В Data Fork для перечисленных кондуитов меняем таблицы кодировки. Подробнее в файле LogPalmDesktopConduit.sit

Если использовать программу Conduit Localisator X.sit, то внутрь файла лезть не нужно, достаточно кондуит бросить на программу. Таблица кодировки будет изменена автоматически, о чем Вы получите сообщение. Если нет, не огорчайтесь, значит ее там нет и следовательно переводить таблицу кодировок не требуется. Внутрь кондуита можно войти с помощью функции системы Show Package Content.

Теперь синхронизация с Apple возможна на одном языке, в кодировке win1251, что уже не проблема для Mac OS X. Теперь Вы можете синхронизировать Sony Clie TG50 и Apple Macintosh.

А что делать пользователю РС?

Если возникнут проблемы, во что я мало верю, то в сети за 5 минут Вы сможете найти решение, например на сайте www.penreader.com/ru/

Кстати, раз я разошелся!

У меня еще была проблема, с телефоном SonyEricsson T68i. У меня нет РС и поставить драйверы для телефона у меня не было возможности, для таких же мучеников публикую два файла для разных телефонов SonyEricsson:

При перепечатке материалов The-eBook | Электронные книги и устройства для чтения, обязательно указывать ссылку на оригинал.

10 Вопросов: GribUser – поколение unicode

24 сентября, 2004

Еще совсем недавно шли баталии о необходимости использования кодировки KOI-8 для писем в русском языке. И даже сегодня еще есть люди которые не имеют понятия, что такое национальная кодировка, не говоря уже о KOI-8. GribUser это человек нового поколения. Поколение unicode.

Мне помнится время – когда GribUser с жадностью изучал, в познавательных целях, что такое XML и как он восхищался новыми возможностями, сравнивая их с ограниченностью HTML. Может поэтому за основу для разработки языка для электронных книг был взят за основу именно XML.Сегодня мы поговорим почти обо всем. GribUser расскажет о своих увлечениях, о проблемах с которыми сталкивается он и конечно о электронных книгах.

Очень приятно видеть в гостях у рубрики «10 Вопросов» человека вплотную занятого и увлеченного электронными книгами. Сегодня 10 вопросов нашему гостю – GribUser. Встречайте!

1. Как ты во все это сетевое вляпался? Другого наверно слова и не подберешь. С чего началась у тебя лично сетевая деятельность?

Да как-то незаметно. Писал программы, выкладывал, еще писал, еще выкладывал, потом накопилось много программ — купил домен, написал форум…
ClearTXT можно считать переломным моментом, эту программу я писал уже не просто под себя — справка, удобный интерфейс и все такое… А сел я за нее серьезно после приобретения ракеты. Можно сказать, ракета всему виной. А ракету мне всучил The-eBook. Можно его считать персонально ответственным 🙂
Не скажу, что я бы ничего не делал, не будь у меня ракеты, но книжная направленность — оттуда. С другой стороны, читал я всегда очень много, так что в любом случае пришел бы к книжному софту, рано или поздно.

2. А как ты относился раньше и как ты смотришь сегодня на электронные книги? Максим Мошков сознался честно — начал с собирательства файлов, а читал бумажные книги, с чего у тебя началось?

Файлы я отродясь не собирал. То, чем я не намерен пользоваться, меня редко интересует. Начал читать — начал думать, как сделать действительно удобную библиотеку. Что нужно в техническом плане, как бы я хотел подбирать книги и т.д. и т.п.
С бумаги я читать почти прекратил с тех пор, как купил ракету, так что интерес к электронным книгам неизбежен.

3. Проект www.fictionbook.ru и формат для электронных книг FB2 – это сегодня необходимо? И что является предпосылкой для развития проекта FB2?

Проект решает проблему структурированности и управляемости электронных текстов. Он помогает библиотекарю, OCR-щику, пользователю, программисту. Позволяет объединить усилия и обеспечивает эффективное разделение труда. Покуда всех OCR-щиков и библиотекарей не переловят, а в сети не переведутся тексты, такое сотрудничество будет требовать технических средств и FB2 будет развиваться.
Формат не имеет конкурентов (и в широком и в прямом смысле) и его развитие сдерживается только недостаточно развитым инструментарием и общей невысокой концентрацией программистов, заинтересованных в электронных книгах. Мне Aldebaran как-то пожаловался, что скольких он хороших программистов не находил, никто из них не знал, что такое lib.ru.

4. Как ты смотришь на сегодняшнюю нелегальность всего происходящего с электронными книгами? Я так понимаю, что из сетевиков никто не против делать отчисления авторам, вопрос наверно к культуре оплаты, отсутствию платежных средств и наверно механизма для публикации книг. Твое отношение к отчислениям авторам или правообладателям?

Ситуация с легальностью электронных текстов в сети давит мне на мозги, я бы это так охарактеризовал. Я сильно сомневаюсь в возможности эффективно продавать электронные тексты так, как хотят издатели. Современные издательства и прочие игроки на этом рынке, скорей всего, так просто не захотят лишаться своих прибылей и маразм, которым нас радовал Gemstar, Sony и некоторые другие компании, еще не скоро уйдет в прошлое.
Перелом, полагаю, наступит тогда, когда автор сможет получать от электронных продаж деньги, сопоставимые с деньгами от продаж бумажных книг. Причем произойдет это, вероятно, в значительной степени за счет падения прибылей от «бумажных» продаж.
Когда издатели, испробовав все средства (суды, продажи в стиле Sony/Gemstar, защита в стиле DVD и т.д. и т.п.), наконец осознают, что война проиграна, ситуация стронется с места. Вероятно даже, осознают это только авторы и просто займутся продажами через сеть наравне с продажами через издателей. Будем надеяться, что за время боевых действий хоть какое-то уважение к авторским правам (и авторам) у читателей сохранится и этот рынок будет-таки жизнеспособным.
В данный момент я пытаюсь понять, как действовать в этой ситуации мне. Добавление «Security by Obscurity» в FB2 вслед за Adobe и Microsoft не составляет труда, но, очевидно, не является мудрым решением — эта сторона проигрывает войну на всех фронтах. Отказ же от защиты контента, вероятно, поставит меня либо в положение Максима Мошкова, у которого скоро останутся только классические произведения, либо заставит прямо нарушать закон, что тоже не кажется мне привлекательным.
Есть еще идея продавать незащищенный контент уже сегодня, делая вид, что война уже закончилась (исход известен, в конце концов). Но это, очевидно, достаточно рискованное решение, может не встретить понимания ни со стороны авторов, ни со стороны пользователей. Несмотря на это, я склоняюсь именно к нему.

5. Как ты представляешь тех людей — которые читают и качают книги из сетевых библиотек? Как они читают? Трудно представить, что читатели сидят около компьютера, хотя наверно процент таких читателей больше чем я предполагаю. На кого рассчитана сетевая библиотека?

На чем там они читают — одному богу известно. На всем, на чем могут. Весьма значительное число читателей русских электронных библиотек живут не в России и читают электронные тексты не от хорошей жизни. Читают на работе и вообще где и как попало. И что попало :). Довольно много и пользователей мобильных устройств.
Часть пользователей принципиальные халявщики, часть просто халявщики, часть пользуются библиотеками «по техническим причинам» — недоступность бумаги. Весьма разнородная публика, короче.

6. Какая чаще всего литература интересует читателя в сетевой библиотеке – просто оцифрованная или редкая? Может есть еще вариант для ответа?

Больше всего читают всякую попсу, приходится констатировать. Модные книжки, популярные авторы, новинки. Никому особо редкая литература не нужна, единицам. Качают то же самое, что обычные граждане покупают/листают в магазинах, такое у меня впечатление сложилось. Публика самая что ни на есть среднестатистическая. Мдя.

7. Давай немного вернемся к тебе лично. Расскажи свой распорядок дня и сколько времени занимает твое сетевое увлечение?

Распорядок у меня сейчас нестандартный :), я уволился и сижу дома. Устроил себе отпуск на пару месяцев :), сплю до 11-и, работаю часов по 3-5 в день и вообще расслабляюсь… Сейчас я от получаса до пары часов трачу на библиотеку, софт для FB2 и т.п. Бывает и ничего не делаю, только рецензии просматриваю, чтоб не хулиганил народ.
Пока я не решил передохнуть, тратил иногда по часу, часто все выходные что-то делал для либы.

8. Как относятся домашние к твоим увлечениям? Много по этому поводу сломано копьев?

Не сильно много. В общем и целом, я встречаю понимание, хотя прямые финансовые траты не приветствуются. С появлением FolderIcon XP значительная часть расходов покрывается, так что воцарился мир…

9. На каком уровне сейчас находятся электронные книги в мире (специально не говорю о России, потому что интернет есть во всем мире, значит есть доступ к электронным книгам). Чего еще следует ожидать? И вообще стоит ли расчитывать на будущее таких книг?

Ожидать следует открытых боевых действий. Противоречия накалились, армии подошли к границам и развертываются. Насколько владельцы контента и пользователи смогут найти общий язык и насколько они будут друг друга игнорировать — вот, что меня действительно занимает. В техническом плане сейчас все прекрасно и только антагонизм читатель-издатель будет определять что нас ждет. Это в равной степени касается и железа, и софта, и собственно книг. Бесплатно почти никто ничего писать не будет, это я могу гарантировать. Так что внимание на ринг.

10. Ну вот и подошли к концу 10 Вопросов. А кто тебе сегодня, сейчас интересен как личность? Кому бы ты сам хотел задать вопросы? Может и вопросы у тебя уже давно есть к этому человеку или организации?

Я бы хотел побольше узнать об основных пиратах наших — Бомануар, Альдебаран, владельцы LitPortal-а и т.п. Что они там себе думают 🙂
Штрафные батальоны ударных армий пользователей. Диверсионно-подрывные группы 🙂
Они будут определять многое в нашем будущем, причем вырезая мирные деревни они могут настроить против нас равнодушных и даже лояльных граждан. Ненависть нарастает, как известно. А в средствах они не постесняются, боюсь. И вместо блицкрига выйдет затяжная и кровопролитная партизанская война. Во метафора :).

Спасибо за твои ответы, будем всегда рады тебя видеть и конечно учтем твои пожелания при выборе очередных наших гостей. Спасибо!

При перепечатке материалов The-eBook | Электронные книги и устройства для чтения, обязательно указывать ссылку на оригинал.

Вы можете прислать нам новости или сообщить что-то очень важное заполнив форму.