Возможно ли в BD удалять одинаковые фрагменты текста?

 
View unanswered posts
Post new topic   Reply to topic    The-eBook Forum Index -> Book Designer
 
Author Message

Lasar
Зрелый участник форума

Зрелый участник форума



Joined: 09 Sep 2004
Posts: 20


Location: Провинция

PostPosted: 08.12.2004 09:19     Quote

Возможно ли в BD удалять одинаковые фрагменты текста?
В частности при конвертации HTML (http://www.anekdot.ru/an/an0411/o.html) результаты голосования (-2 -1 0 1 2) преобразуются в таблицу, т.е можно ли одновременно удалить все эти таблицы?
 
View user's profile Send private message ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



PostPosted: 08.12.2004 22:05     Quote

Lasar wrote:
Возможно ли в BD удалять одинаковые фрагменты текста?
В частности при конвертации HTML (http://www.anekdot.ru/an/an0411/o.html) результаты голосования (-2 -1 0 1 2) преобразуются в таблицу, т.е можно ли одновременно удалить все эти таблицы?

Можно, через Book Cleaner с использованием регулярных выражений. Главный специалист по Book Cleaner - Gera_Serg, спросите у него, как лучше чистить конкретные конструкции.
 
View user's profile Send private message ^

gera_serg
Кандидат в члены клуба The eBook

Кандидат в члены клуба The eBook



Joined: 10 Feb 2004
Posts: 310



PostPosted: 09.12.2004 16:42     Quote

Можно, если знаешь за что "зацепиться"

Пример: Допустим в тексте имется ряд повторяющихся блоков:
<abc>
...
</xyz>
...
...
...
<abc>
...
</xyz>

Возможно должна сработать на поиск такая конструкция в строке поиска

/<abc>.+<\/xyz>/sU

Пояснения
. - любой символ кроме знака перевода строки (однако перевод строки нам нужен, его включают с помощью модификатора /.../s)
+ - повторение один или более раз
\/ - если ищем знак слеш, перед ним нужно поставить обратный слеш
U - модификатор укрощения "жадности" поиска. Если его не поставить найденное будет от начала первого блока до конца последнего блока

Я не могу проверить эту конструкцию в BD, поскольку для обработки html BD требует наличие Word2000, а я принципиально ползуюсь 97.
Но в любимом текстовом редакторе Code-Genie эта конструкция работает.

Посмотрел реализацию RegExp у MS
возможно правильная конструкция будет

<abc>(.|\n)*?<\/xyz>

MS похоже не использует в своей реализации "модификаторы"
(.|\n) - любой символ или знак "новая строка"
* - 0 или более раз
? - (нежадность) 0 или 1 раз
 
View user's profile Send private message ^
Display posts from previous:   
Post new topic   Reply to topic    The-eBook Forum Index -> Book Designer All times are GMT + 4 Hours
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum

© The-eBook, 1999-2014. © Design by Prohorenkov
Syndicating News | Powered by phpBB © 2001, 2005 phpBB Group.
Хостинг предоставлен компанией DatForce     Яндекс.Метрика