OCR Pad
Goto page 1, 2, 3  Next
 
View unanswered posts
Post new topic   Reply to topic    The-eBook Forum Index -> Book Designer
 
Author Message

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 07.01.2006 02:38     Quote

Antikwar wrote:
...Попадались книги с греческим языком.

Греческий рэкет, юникоды и прочие прибамбаски заказывали? Получите.
http://www.the-ebook.org/rus/?dl_id=29

Теперь оно называется не OCR Cleaner, а OCR Pad. В чем-то, пожалуй, помощнее Ворда будет...


Основные фичи.

1. Полная поддержка юникодов. Плюс 5 виртуальных клавиатур: греческая, математическая, западно-европейская, восточно-европейская и разные экзотические символы.

2. Поиск плохих слов по списку пользователя. Двух типов: как рекурсивный (с показом каждого найденного слова), так и молчаливая отметка всех найденных слов.

3. Find/Replace c полной юникодной поддержкой и поиском по регулярным выражениям (RegExp). Поддерживается сохранение четырех отдельных историй поиска/замены (запоминает до 50-ти последних Find/Replace для каждой из четырех):
поиск: обычная история и история RegExp
замена: обычная история и история RegExp
Окна истории открываются нажатием на кнопки со стрелкой вниз. Когда открыто окно истории, правый клик внутри окна обеспечивает доступ к меню менеджера истории.

3. Массовые замены по списку пользователя: Edit -> Book Cleaner. Book Cleaner тоже полностью юникодный и с RegExp. Кроме того, в него вставлено окно комментария, куда можно записать "кто есть кто".

Большое число доп. опций Book Cleaner доступно через правый клик. Доступны два правокликовых меню, довольно обширных. Если кликнуть на окно таблицы замен, то появятся опции для мунипулирования с таблицей, если же кликнуть на окно комментария - появится меню для его редактирования.

Также я не поленился написать шесть жизненных примеров для работы с Book Cleaner: load -> 1.bcf, 2.bcf и т.д. Прежде, чем начать работу с Book Cleaner, рекомендую в них разобраться. Для того, чтобы было удобно читать текст комментария к загруженному примеру - правый клик -> show in window.

RegExp - это мощная игрушка, а те, кто в них разобрался - смогут делать ну очень много. Вообщем, настоятельно рекомендую, разберетесь - сразу почувствуете разницу. Тем более, что инструмент для экспериментирования теперь под рукой: открываете Find/Replace, отмечаете RegExp, вводите свое выражение, затем find - и сразу видно результат.
В принципе, в RegExp разобраться несложно, но разработка RegExp-скриптов требует внимательности и тчательной отладки. Поэтому при написании своих файлов для Book Cleaner рекомендуется их отлаживать по строкам. Для этого есть колонка use: применяться будут только те выражения, где use отмечено.

Ну а тем, кто хочет узнать побольше о RegExp - подробная справка по евойной теории и практике доступна через "help -> regular expressions". Там объденены две справки: русскоязычная - от Грибова и англоязычная - от Билла.

4. Ну и для кучи сделал вставку картинок: "Insert -> picture"

P.S. Еще в основном окне есть две кнопки, со стрелками вверх и вниз. Это для точного перелистывания страниц.

P.P.S. Да, забыл сказать. Не пользуйте Find/Replace и Book Cleaner в режиме показа невидимых символов (конца строки и nbsp): могут быть сбои.

P.P.P.S. В примерах Book Cleaner файлов про hex-номера написал, а вот про специфику RegExp-поиска русских букв и другой экзотики по hex-номерам - забыл сказать Sad . Это нечасто нужно, но на всякий случай...
Делается так. Курсор ставится перед символом, после чего на второй панели статуса появляется его hex-номер. Если номер содержит меньше 4 цифр - то впереди добавляются нули. Затем к получившейся цифре добавляется \u и это выражение используется в RegExp.
Например, русская Ц. На статусе высвечивается hex: 426. Следовательно, для задания Ц в RegExp надо использовать \u0426.
Другой пример: греческая маленькая альфа. На статусе - hex: 3b1 . Для RegExp - \u03b1
Третий пример: двойной интеграл из математической клавиатуры. На статусе - hex: 222c . Для RegExp - \u222c.

По поводу юникодной RegExp-специфики довольно подробно расписано в справке от Билла.


Last edited by vvv on 07.01.2006 04:51; edited 5 times in total
 
View user's profile Send private message ^

Ustas
Член клуба The eBook

Член клуба The eBook



Joined: 19 Aug 2003
Posts: 1531


Location: С-Петербург

PostPosted: 07.01.2006 03:34     Quote

в шоке убегаю тестить...
Валера велИк!

ЗЫ Таки географ глобус пропил Rolling Eyes
_________________
Есть ли у вас план? - Да! Ретроплан.
 
View user's profile Send private message ICQ ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 07.01.2006 03:50     Quote

Ustas wrote:

ЗЫ Таки географ глобус пропил Rolling Eyes

А кто его знает, не читал. Просто скачал этот файл для тестирования с fictionbook.lib: там rtf-ы специфические. Для тестирования самое то: если с ними работает, то уж с нормальными rtf наверняка все будет ок.
Ustas wrote:
The-eBook wrote:
Интересно! Юстас не молчи!

Не молчу: Володя, нарисуй иконку, плс Smile

P.S. А Володя так иконку и не нарисовал Sad . Видимо, моя понравилась Very Happy .
 
View user's profile Send private message ^

Ustas
Член клуба The eBook

Член клуба The eBook



Joined: 19 Aug 2003
Posts: 1531


Location: С-Петербург

PostPosted: 07.01.2006 15:59     Quote

при установке:

Error 1931.
The Windows installer cannot update the system file c:\WINDOWS\System32\vbscript.dll becouse the file is protected by Windows. You may need to update your operating system for this program to work correctly.

Установлена ВинХР
Апдейты качаются автоматом.
Вчера как раз ставились какие-то.

MS Office 2002 SP3

ЗЫ Старый OCR Cleaner не удалял.

Добавлено спустя 12 минут 44 секунды:

1. Не изменяются размеры окна регеэкспов OCR Cleaner (коммент тяжко прочитать - приходится мотать)
(Show in window выход, но лично мне кажется - в одном окне удобнее.
не критично)

2. коммент для 3.bcf
Пример поиска символов из разный алфавитов.

3. В режиме показа непечатаемых символов: разрыв строки не показывается.
Абзац показывает нормально.
Такую конструкцию (режим сохранения деления на строки при экспорте ФР-Ворд, дабы абзацы не сливались):


превратить бы в:



путем применения 7.bcf Rolling Eyes
_________________
Есть ли у вас план? - Да! Ретроплан.
 
View user's profile Send private message ICQ ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 09.01.2006 21:55     Quote

Ustas wrote:
при установке:

Error 1931.
The Windows installer cannot update the system file c:\WINDOWS\System32\vbscript.dll becouse the file is protected by Windows. You may need to update your operating system for this program to work correctly.

Не бери в голову, это означает, что у тебя уже установлена библиотека vbscript.dll (это RegExp).
Ustas wrote:

3. В режиме показа непечатаемых символов: разрыв строки не показывается.

Пришли файл.
 
View user's profile Send private message ^

Ustas
Член клуба The eBook

Член клуба The eBook



Joined: 19 Aug 2003
Posts: 1531


Location: С-Петербург

PostPosted: 10.01.2006 00:13     Quote

www.pocketlib.ru/trash/fr_string.zip
_________________
Есть ли у вас план? - Да! Ретроплан.
 
View user's profile Send private message ICQ ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 10.01.2006 06:14     Quote

Ustas wrote:
www.pocketlib.ru/trash/fr_string.zip

Посмотрел. Оказалось, что ФР вставляет разные символы для конца строки и конца параграфа.
Конец параграфа - символ N13. Этот символ программа показывает как транспонированный мягкий знак (так же, как и в ворде).
Конец строки - символ N11. Ворд его показывает той же закорючкой, что изображена на клавише Enter. Но я об этой специфике ФР не знал, поэтому и не включил N11 в список невидимых. Могу включить, но для того, чтобы было как в ворде, надо найти, какой юникодный номер имеет энтеровская закорючка.
Вопрос к SeNS. Тебе такая бяка среди юникодов не попадалась? Если да, то какой у нее номер?

Вообщем, алгоритм сшивки строк после ФР получается простой: замена символа N11 на пробел. А как это записать в скриптах - ты, думаю, уже и сам разобрался. Если же нет - значит я подобрал плохие примеры, надо переделывать Sad .

Правда, судя по твоему файлу, сшивка ФР-outputа вроде бы не всегда однозначна. Например, в твоем файле

Составитель А. Храмков "закорючка"
Художник И. Сайко "конец параграфа"

А по виду это, вроде бы, не один, а два параграфа...
 
View user's profile Send private message ^

Ustas
Член клуба The eBook

Член клуба The eBook



Joined: 19 Aug 2003
Posts: 1531


Location: С-Петербург

PostPosted: 10.01.2006 10:55     Quote

vvv wrote:
Правда, судя по твоему файлу, сшивка ФР-outputа вроде бы не всегда однозначна. Например, в твоем файле

Составитель А. Храмков "закорючка"
Художник И. Сайко "конец параграфа"

А по виду это, вроде бы, не один, а два параграфа...


Этим и мучаюсь Crying or Very sad

Добавлено спустя 5 часов 45 минут 34 секунды:

vvv wrote:
Правда, судя по твоему файлу, сшивка ФР-outputа вроде бы не всегда однозначна. Например, в твоем файле

Составитель А. Храмков "закорючка"
Художник И. Сайко "конец параграфа"

А по виду это, вроде бы, не один, а два параграфа...


Точки перед закорючкой нет,
после закорбчки идет заглавная - значит можно что-то соорудить
_________________
Есть ли у вас план? - Да! Ретроплан.
 
View user's profile Send private message ICQ ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 11.01.2006 01:35     Quote

Вордовскую закорючку для конца строки в юникодах не нашел Sad . Могу поставить вот эту ¬ Устроит?

А алгоритм очистки после ФР - в простом случае это что-то типа:
1. Склеить слова типа "как-то", "что-то" и т.д
что-uni(11)то -> что-то
что-uni(13)то -> что-то
2. Склеить строки
3. Склеить разорванные параграфы
4. Скомпрессировать пробелы
5. Затабулировать параграфы
uni(13) ->uni(13,9)

Но это только простейшая схема. А в реалиях, конечно, придется повозиться с разными книгами, чтобы набрать статистику. Но это надо сделать один раз, а потом уже все будет намного проще, в так нелюбимые некоторыми два клика Very Happy : вызвал файл очистки и нажал "replace all".
Естественно, что 100% чистки это не обеспечит, но на 90-95% вычистит.
 
View user's profile Send private message ^

gera_serg
Кандидат в члены клуба The eBook

Кандидат в члены клуба The eBook



Joined: 10 Feb 2004
Posts: 310



PostPosted: 11.01.2006 21:28     Quote

Привет Всем. С Новым годом!

Что чистим?


закарючки в fr_string.rtf легко убираются самим Вордом
сначала убираем дефис+закарючка (-^l), потом заменяем оставшиеся закарючки на пробел.
 
View user's profile Send private message ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 11.01.2006 21:58     Quote

Gera_Serg wrote:

закарючки в fr_string.rtf легко убираются самим Вордом
сначала убираем дефис+закарючка (-^l), потом заменяем оставшиеся закарючки на пробел.

Давненько тебя не было. И появился ты вовремя: присоединяйся к разработкам скриптов для OCR Pad. Там работы много и с закорючками не так все просто Very Happy

Ustas, ты так и не сказал, устроит ли тебя вот эта закорючка ¬ вместо вордовской?
 
View user's profile Send private message ^

gera_serg
Кандидат в члены клуба The eBook

Кандидат в члены клуба The eBook



Joined: 10 Feb 2004
Posts: 310



PostPosted: 11.01.2006 22:12     Quote

А что с закорючками - попробовал, в приложенном примере Ворд их убирает?
Закорючка зовётся Поиск -> Специальный -> Разрыв строки
 
View user's profile Send private message ^

Ustas
Член клуба The eBook

Член клуба The eBook



Joined: 19 Aug 2003
Posts: 1531


Location: С-Петербург

PostPosted: 11.01.2006 22:23     Quote

vvv wrote:

Ustas, ты так и не сказал, устроит ли тебя вот эта закорючка ¬ вместо вордовской?


Вариант отображения закорючки значения не имеет, если ее можно будет в дальнейшем убрать. Wink

2 Gera Думается, что такой способ избавления от разрывов не позволит корректно сохранить абзацы.
(делал я так издавна Cool )
Да и как быть с многообразием зелено-коричневых, кого-нибудь и прочих хитро-дефисных конструкций Crying or Very sad
_________________
Есть ли у вас план? - Да! Ретроплан.
 
View user's profile Send private message ICQ ^

gera_serg
Кандидат в члены клуба The eBook

Кандидат в члены клуба The eBook



Joined: 10 Feb 2004
Posts: 310



PostPosted: 11.01.2006 22:35     Quote

Ustas

ИМХО закорючки при конвертировании вполне вероятно превратятся в дополнительные абзацы. Лучше их вычистить еще в ворде.

Всякие "-нибуть" - восстановить можно "в лоб". Хитро-дефисные - вряд ли
 
View user's profile Send private message ^

Ustas
Член клуба The eBook

Член клуба The eBook



Joined: 19 Aug 2003
Posts: 1531


Location: С-Петербург

PostPosted: 11.01.2006 22:52     Quote

Так OCR Pad лучше и быстрее Ворда, на кой нам монстр, если можно сделать в OCR Pad.

Надо только правильные регэкспы написать (глову сломал, так ничего путного и не выходит - ну не умею я их писатьCrying or Very sad )...

ЗЫ Надо Змия поспрошать, его утилитка
http://zmiy.si.by/tools/cltxt-204.rar
при соблюдении условий экспорта ФР-тхт позволяет склеить/разбить абзацы.
(условия описаны в readme)
Да только, тхт - это прошлый век.

ЗЗЫ Таким образом, вопрос распадается на 2 части:
1. В каком виде (форматированный пробелами? - в новом ФР8 такого вроде уже нет, с делением на строки?) текст должен выдать ФР?
2. Какими последовательностями его потом легче обработать?
_________________
Есть ли у вас план? - Да! Ретроплан.
 
View user's profile Send private message ICQ ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 11.01.2006 23:07     Quote

Ustas wrote:
Надо только правильные регэкспы написать (глову сломал, так ничего путного и не выходит - ну не умею я их писатьCrying or Very sad )...

Ну с билловой-то инструкцией все ясно, она написана для программистов. Но есть инструкция от Грибова, там вроде бы попроще. И мои простенькие примеры...

Но разобраться обязательно надо. И именно тебе. Потому, что полноценный скрипт для OCR может написать только человек, имеющий достаточный опыт работы со сканами.

Вообщем, что не понятно - спрашивай, попробую прояснить. И Гера, надеюсь, поможет: он лучше меня RegExp знает.
 
View user's profile Send private message ^

gera_serg
Кандидат в члены клуба The eBook

Кандидат в члены клуба The eBook



Joined: 10 Feb 2004
Posts: 310



PostPosted: 11.01.2006 23:22     Quote

vvv

дефис + закорючка у тебя ищутся по выражению в строке
uni(45)uni(11)

а как это выражение предлагаешь записать с вкл. RegExp?
 
View user's profile Send private message ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 11.01.2006 23:38     Quote

Gera_Serg wrote:
vvv

дефис + закорючка у тебя ищутся по выражению в строке
uni(45)uni(11)

а как это выражение предлагаешь записать с вкл. RegExp?

Стандартно (то, что билл прописал Very Happy): \x2d\x0b

В OCR Pad найти hex-эквиваленты символов просто: ставишь курсор перед символом - и на второй панели статуса показывается его hex-представление. Специально для RegExp так сделал, чтобы пользователи не заморочивались с переводом вручную.


Last edited by vvv on 11.01.2006 23:41; edited 1 time in total
 
View user's profile Send private message ^

SeNS
Член клуба The eBook

Член клуба The eBook



Joined: 18 Jun 2003
Posts: 5559


Location: Boston

PostPosted: 11.01.2006 23:38     Quote

vvv wrote:
Вопрос к SeNS. Тебе такая бяка среди юникодов не попадалась? Если да, то какой у нее номер?


U+00B6: Pilcrow Sign

P.S. 2 cents tip: в вындовз есть такая могучая программа, как charmap.exe Smile
 
View user's profile Send private message E-mail Skype ICQ ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 11.01.2006 23:44     Quote

SeNS wrote:
vvv wrote:
Вопрос к SeNS. Тебе такая бяка среди юникодов не попадалась? Если да, то какой у нее номер?


U+00B6: Pilcrow Sign

Про эту-то я знаю. И пользую ее.

Я другую закорючку имел ввиду, ту, что изображена на клавише Enter. Ее ворд пользует для показа символа N11. А символ N11 ФР пользует для конца "книжной" строки.
 
View user's profile Send private message ^
Display posts from previous:   
Post new topic   Reply to topic    The-eBook Forum Index -> Book Designer All times are GMT + 4 Hours
Goto page 1, 2, 3  Next
Page 1 of 3

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum

© The-eBook, 1999-2014. © Design by Prohorenkov
Syndicating News | Powered by phpBB © 2001, 2005 phpBB Group.
Хостинг предоставлен компанией DatForce     Яндекс.Метрика