[NST] Англо-русский словарь для встроенной читалки (альфа-версия)
На страницу 1, 2, 3, 4, 5  След.
 
Найти сообщения без ответов
Начать новую тему   Ответить на тему    Список форумов The-eBook -> Barnes&Noble -> NOOK Simple Touch™
 
Автор Сообщение

greefon
Зрелый участник форума

Зрелый участник форума



Зарегистрирован: 09.03.2011
Сообщения: 30



СообщениеДобавлено: 27.11.2011 23:40     Цитата

После некоторого пыхтения и благодаря наработкам dmzkrsk (http://www.the-ebook.org/forum/viewtopic.php?t=15718) удалось заменить встроенный словарь в Nook Simple Touch.



В NST словарей аж три. В отличии от предыдущего нука - все в формате sqlite3.

:

Первый словарь (basewords.db) содержит базовые словоформы в виде одной таблицы с парами слово-значение. Разработчики на этот раз решили блеснуть умом/сообразительностью и запихали словарные статьи("значение") в поля типа BLOB. Раскопки показали, что в BLOBах прячутся маленькие ZIP архивчики, в каждом по одному файлику в Unicode и с HTML разметкой. Названия файликов внутри архивов совпадает с соответствующим им "словом". HTML, на самом деле, поддерживается в каком то очень ограниченном виде. Тэги списков игнорируются, стили в тегах игнорируются. Интересно, что внутри статей часто встречаются гиперссылки вида <а hrеf="dictionary://word"><small>WORD</small></а>. Из-за наличия тэга SMALL подчеркивание у гиперссылки отсутствует. Это и к лучшему, т.к. переходы на словарные статьи все равно не срабатывают (в. 1.1.0 точно, насчет предыдущей не уверен) На текущий момент подготовлена одна замена данного словаря. Универсальный конвертер в работе.

Второй словарь (bgwords.db) очень похож на первый, но содержит исключительно имена собственные. Пока не трогаем (не понятно, откуда взять русскоязычную замену).

Третий словарь (inflectedwords.db) предназначен для поиска "словоформ", т.е. слов, незначительно отличающихся от базовых из первого словаря. Содержит таблицу с парами "словоформа"-"базовое слово" (например pockets-pocket). Таким образом, чтобы поиск по словоформам работал нормально, нужно при создании basewords.db соответсвующим образом корректировать иinflectedwords.db. Есть грязный хак


На коленке был написан скрипт на питоне (точнее, сначала скрипт был на bash, но он работал около 8 часов, хаха), который берет англорусский sqlite словарик из топика по ссылке выше и переделывает его в новый формат с блекджеком и шлюхами, т.е. с маленькими архивчиками и HTML.

Третий словарь на текущий момент является слегка модифицированной копией оригинального (убраны ссылки на версии словарных статей, так как самих версий в подготовленном русско-английском словаре нет, а точнее они все включены в одну словарную статью по каждому слову).



TODO:


    1. Актуализировать inflectedwords.db (готово, через грязный хак имеющегося)
    2. Научиться конвертить сразу из Stardict или аналогов (посмотреть исходники по ссылке выше)
    3. Разобраться с Юникодом готово, спасибо vadeus
    4. Улучшить форматирование HTML для словарных статей (в процессе)
    5. Сделать еще один словарик (толковый или по именам собственным), для русского языка, и положить его вместо второго


Готовые миниобразы (Апресян/Медникова) от vadeus
http://www.the-ebook.org/forum/viewtopic.php?p=801498#801498

Англо-русский самопальный словарь с расширенными словарными статьями (основан на lingvo universal, но со словарной базой из MW, будет постепенно улучшаться), сразу два файла:
http://narod.ru/disk/33231363001/ru-eng.zip.html

А так же:
:

Англо-русский словарь Апресяна/Медниковой для NST 0.1a (модифицироваться не будет): http://narod.ru/disk/32665632001/basewords.db.html
Модифицированный словарь словоформ 0.1a: http://narod.ru/disk/32709599001/inflectedwords.db.html

Оригинальный базовый словарь NST: http://narod.ru/disk/32665948001/basewords.db.html
Оригинальный словарь словоформ NST: http://narod.ru/disk/32709727001/inflectedwords.db.html


Чтобы подменить словарики, нужно положить скаченные файлы (две штуки: basewords.db и inflectedwords.db) в директорию \nooter\system\media\reference на мини-SD с одним из заранее подготовленных мини-образов (http://www.the-ebook.org/forum/viewtopic.php?t=20761) и переустановить мини-образ.
Если у вас рут, то я думаю вы и сами догадаетесь что и куда записать.

Если будут желающие помочь, а еще лучше самостоятельно справиться со всеми задачами в ToDo - велком, скриптом могу поделиться. Он корявый (первый раз питона в глаза увидел), но работает и довольно быстро.


Последний раз редактировалось: greefon (06.12.2011 00:12), всего редактировалось 15 раз(а)
 
Профиль Сообщение ^

MyShell
Член клуба The eBook

Член клуба The eBook



Зарегистрирован: 24.09.2010
Сообщения: 3645


Откуда: RUSSIA, Simferopol

СообщениеДобавлено: 28.11.2011 00:15     Цитата

greefon Спасибо за изыскания и надежды, только согласуйте название темы "Англо-русский" и содержимое "Русско-английский".
_________________
MyLIB:Siemens Sl-45i-Casio PV-450...HTC+VerneeThor+Kobo GLO
+PRS-350 + Sansa Clip ZIP(AudioBook)
 
Профиль Сообщение ^

greefon
Зрелый участник форума

Зрелый участник форума



Зарегистрирован: 09.03.2011
Сообщения: 30



СообщениеДобавлено: 28.11.2011 00:21     Цитата

MyShell
Спасибо, исправил
 
Профиль Сообщение ^

greefon
Зрелый участник форума

Зрелый участник форума



Зарегистрирован: 09.03.2011
Сообщения: 30



СообщениеДобавлено: 28.11.2011 12:48     Цитата

Изменения:
    Добавил информацию по другим файлам словарям NST
    Добавил словарь для словоформ


В общем, начиная с этого момента, словарями можно пользоваться. Практически во всех случаях находится нужная статья, работает в том числе на множественных числах, формах глаголов и т.п.

Следующая итерация будет не скоро, зато с ней выйдем из альфы к бете, а может и к релизу Smile
 
Профиль Сообщение ^

greefon
Зрелый участник форума

Зрелый участник форума



Зарегистрирован: 09.03.2011
Сообщения: 30



СообщениеДобавлено: 30.11.2011 17:11     Цитата

Проверьте пожалуйста, срабатывают ли у вас переходы по гиперссылкам в оригинальном словаре. Интересуют ответы вида "{да, нет}, {рут, миниобраз, чистый}, {1.0.0, 1.0.1, 1.1.1}"

Ссылки выглядят как текст, набранный заглавными буквами, текст слегка разрежен, буквы чуть меньше заглавных.

Например, для слова "a" в во второй словарной статье есть текст [ORIGIN: ME, fr OEanone - more at ONE ], "ONE" здесь - ссылка

Еще пример, для слова "said" в начале словарной статьи есть указание, что это форма глагола SAY, "SAY" - тоже ссылка
 
Профиль Сообщение ^

ales
Член клуба The eBook

Член клуба The eBook



Зарегистрирован: 10.07.2011
Сообщения: 357



СообщениеДобавлено: 01.12.2011 00:19     Цитата

greefon писал(а):
Проверьте пожалуйста, срабатывают ли у вас переходы по гиперссылкам в оригинальном словаре. Интересуют ответы вида "{да, нет}, {рут, миниобраз, чистый}, {1.0.0, 1.0.1, 1.1.1}"



Разве на чистый можно поставить? Я бы с удовольствием пользовался словарем и отписывался, однако ни рут, ни образы использовать не хочу.
 
Профиль Сообщение ^

greefon
Зрелый участник форума

Зрелый участник форума



Зарегистрирован: 09.03.2011
Сообщения: 30



СообщениеДобавлено: 01.12.2011 07:16     Цитата

ales

Мне интересно поведение штатного словаря на различных версиях прошивки (рут, миниобраз, чистая, версии). Ставить вам ничего не нужно, просто найдите английские слово в тексте, запустите штатный словарь и попрообуйте тапнуть по описанным ссылкам
 
Профиль Сообщение ^

Metribal
Постоянный участник форума

Постоянный участник форума



Зарегистрирован: 01.10.2011
Сообщения: 144



СообщениеДобавлено: 01.12.2011 09:27     Цитата

greefon

Было бы очень здорово расковырять родную оболочку словарей так, чтобы в ней было больше 3-х словарей, или, как я понял, это вообще один словарь. Не знаю, насколько это возможно, но было бы круто небольшое приложение дял андроида, которое подхватывает словари для родной читалки нука и можно выбирать, какие активны, а какие нет. Ну короче мечты такие:

1. Установка новых словарей, помимо основного
2. Андроидная программа для выбора словарей в родной читалке

Вообще спасибо за труд!
_________________
PocketBook 301+ - раздавлен => Nook Touch
 
Профиль Сообщение ^

Klesch®
Недавний участник форума

Недавний участник форума



Зарегистрирован: 03.08.2011
Сообщения: 14


Откуда: Беларусь

СообщениеДобавлено: 01.12.2011 11:07     Цитата

Тогда уже лучше Fora прикрутить к читалке Smile
_________________
Nook Simple Touch
Amazon Kindle 3 WiFi
 
Профиль Сообщение ^

igorvinograd
Активный участник форума

Активный участник форума



Зарегистрирован: 24.05.2009
Сообщения: 219



СообщениеДобавлено: 01.12.2011 11:16     Цитата

Или ColorDict
 
Профиль Сообщение ^

greefon
Зрелый участник форума

Зрелый участник форума



Зарегистрирован: 09.03.2011
Сообщения: 30



СообщениеДобавлено: 01.12.2011 13:24     Цитата

Klesch®
igorvinograd

Fora далеко не идеальна, в частности нельзя искать словоформы простым способом, а во встроенном словаре можно. ColorDict не пробовал. Плюс все эти связки выглядят (в прямом смысле) пока достаточно коряво. Нужно переписывать все компоненты (или интегрировать уже написанные), чтобы был не планшет корявый на eInk, а удобная практичная читалка.

Metribal

Правильно понимаете, три файла с базами это по сути один словарь. Первый файл - базовые слова, второй - имена собственные (названия, фамилии и т.п., все что пишется с заглавной буквы), третий - словоформы со ссылками на первый.

Что можно сделать. Во первых "склеить" несколько словарей в одну базу, я планирую для себя сделать англорусский + русский толковый (но это будут те же три файла, просто большего размера). Кстати, принимаю заявки на конвертацию словарей (скрипт буду на них отлаживать). Во вторых можно действительно написать приложение, которое будет подменять словари, копируя их, например, с карты памяти. Это пока на дальнюю перспективу, нужно время.
 
Профиль Сообщение ^

vadeus
Член клуба The eBook

Член клуба The eBook



Зарегистрирован: 31.12.2010
Сообщения: 3847


Откуда: Липецк

СообщениеДобавлено: 01.12.2011 14:13     Цитата

greefon писал(а):
В Unicode в источнике и в словаре нука видимо разный, т.к. в транскрипции некоторые символы отображаются квадратами.

Для того, чтобы транскрипция отображалась корректно, надо загрузить какой-нибудь шрифт Fallback, например DroidSansFallback (не помню уже из чего его делал).
На sd с образом в папке \nooter\system\ создаём папку fonts и кидаем его туда.
ales писал(а):
Разве на чистый можно поставить?

Можно, работает.
_________________
Читаю: NOOK Touch(CR), Kindle/Kindle Touch, Sony PRS-350, PB 903(CR)
 
Профиль Сообщение ^

greefon
Зрелый участник форума

Зрелый участник форума



Зарегистрирован: 09.03.2011
Сообщения: 30



СообщениеДобавлено: 01.12.2011 14:21     Цитата

vadeus
Цитата:
Для того, чтобы транскрипция отображалась корректно, надо загрузить какой-нибудь шрифт Fallback, например DroidSansFallback (не помню уже из чего его делал).
На sd с образом в папке \nooter\system\ создаём папку fonts и кидаем его туда.

Ага, спасибо, я видел это решение где-то в треде, но еще не пробовал.

Цитата:
Можно, работает.

Что работает? Переход по ссылкам в штатном словаре? Или в том смысле что через adb можно залить новый словарь поверх старого?
 
Профиль Сообщение ^

Metribal
Постоянный участник форума

Постоянный участник форума



Зарегистрирован: 01.10.2011
Сообщения: 144



СообщениеДобавлено: 01.12.2011 14:29     Цитата

greefon

Спасибо, будем ждать дальнейшего развития Very Happy
Вот словарь в формате лингвы lsd, который было бы круто сконвертировать в формат родного, если что он у меня есть в формате форы, голдендикта и колордикта, думаю он есть и в стардикте и вообще практически в любом виде.
_________________
PocketBook 301+ - раздавлен => Nook Touch
 
Профиль Сообщение ^

vadeus
Член клуба The eBook

Член клуба The eBook



Зарегистрирован: 31.12.2010
Сообщения: 3847


Откуда: Липецк

СообщениеДобавлено: 01.12.2011 14:38     Цитата

greefon писал(а):
Что работает? Переход по ссылкам в штатном словаре? Или в том смысле что через adb можно залить новый словарь поверх старого?

На чистом Нуке работает. Переход ещё не пробовал, только залил словари.

Ну, и по традиции Rolling Eyes , готовые образы для заливки:
Dict (для прошивок 1.0.0 и 1.0.1), Dict_110 (для прошивки 1.1.0):
- словари от greefon;
- DroidSansFallback.

Заливать как обычно.
_________________
Читаю: NOOK Touch(CR), Kindle/Kindle Touch, Sony PRS-350, PB 903(CR)
 
Профиль Сообщение ^

greefon
Зрелый участник форума

Зрелый участник форума



Зарегистрирован: 09.03.2011
Сообщения: 30



СообщениеДобавлено: 01.12.2011 15:07     Цитата

vadeus

Smile Рановато наверное образы. В выходные будет словарик лучше качеством с объемными словарными статьями на несколько экранов, связанный (с внутренними ссылками, выделенными подчеркиванием). Но я не уверен, что нужно связанность оставлять, т.к. не факт что работать будет (для этого и прошу проверить), а объем на несколько мегабайт увеличивает.

Переход желательно проверять на чистом (без рута и миниобразов) нуке, на штатных словарях, со старыми и новыми прошивками. В Eng-Ru которые выложены нет ссылок вообще, а штатных есть, но у меня они не функционируют.
 
Профиль Сообщение ^

vadeus
Член клуба The eBook

Член клуба The eBook



Зарегистрирован: 31.12.2010
Сообщения: 3847


Откуда: Липецк

СообщениеДобавлено: 01.12.2011 15:21     Цитата

greefon писал(а):
Рановато наверное образы.

Ну, заменить файлики в образе недолго Wink .
_________________
Читаю: NOOK Touch(CR), Kindle/Kindle Touch, Sony PRS-350, PB 903(CR)
 
Профиль Сообщение ^

Ivasteel
Член клуба The eBook

Член клуба The eBook



Зарегистрирован: 11.09.2009
Сообщения: 1638


Откуда: Kiev

СообщениеДобавлено: 01.12.2011 18:03     Цитата

Удивительно Rolling Eyes Просто молодцы.

Какая активная ветка в Нуке (относительно Sony T1) в плане ПО. Все-таки прав был борода, то ли Нук интересней рутать, то ли больше распространен...
_________________
Kindle Voyage
 
Профиль Сообщение ICQ ^

vadeus
Член клуба The eBook

Член клуба The eBook



Зарегистрирован: 31.12.2010
Сообщения: 3847


Откуда: Липецк

СообщениеДобавлено: 01.12.2011 18:41     Цитата

Iva29 писал(а):
то ли Нук интересней рутать

Проще его ковырять в сравнении с... Rolling Eyes .
_________________
Читаю: NOOK Touch(CR), Kindle/Kindle Touch, Sony PRS-350, PB 903(CR)
 
Профиль Сообщение ^

ales
Член клуба The eBook

Член клуба The eBook



Зарегистрирован: 10.07.2011
Сообщения: 357



СообщениеДобавлено: 01.12.2011 18:44     Цитата

Ребята, что то я не пойму, как эти словари воткнуть без образов.
 
Профиль Сообщение ^
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов The-eBook -> Barnes&Noble -> NOOK Simple Touch™ Часовой пояс: GMT + 4
На страницу 1, 2, 3, 4, 5  След.
Страница 1 из 5

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах

© The-eBook, 1999-2014. © Design by Prohorenkov
Syndicating News | Powered by phpBB © 2001, 2005 phpBB Group.
Хостинг предоставлен компанией DatForce     Яндекс.Метрика