• Уважаемый посетитель!!!
    Если Вы уже являетесь зарегистрированным участником проекта "миХей.ру - дискусcионный клуб",
    пожалуйста, восстановите свой пароль самостоятельно, либо свяжитесь с администратором через Телеграм.

Сохранение учебника в электронном виде

Forever Free

Гуру
Вопрос собственно в следующем: существуют ли программы которые могут конвертировать сканы станиц книги в текстовые документы, например Word ??
 
Alex V
Существуют. Только ты сначала скажи
- разрешение, с которым сканироваль книга
- сканы ровные? У переплета строки не загибаются?
- фон у сканов нормальный?
Если же просто требуется собрать несколько картинок в один файл, можно использовать Adobe Acrobat (200 mb) или DjvuSolo (3.1 Mb)
 
Trotil
Оптическое разрешение сканнера ?? - 600 * 600 DPI.
Сканы ровные. Строки у переплета абсолютно не загибаются.
Фон: черный текст на белом фоне.
 
Оптическое разрешение сканнера ?? - 600 * 600 DPI.
Ну это максимум, сканировать можно и при меньшем разрешении. Сканирование обычно происходит по умолчанию в 300 dpi. Это рекомендуемый минимум для распознавания (OCR) текста. Сканы у тебя чистые, ровные, таким образом дополнительная обработка не потребуется.
Как я сказал раньше, существуют несколько решений.
1) Перегнать в pdf программой adobe acrobat. Там же есть встроенное распознавание текста (можно будет осуществлять поиск по документу)
2) Если размер критичен, можно попробовать перегнать в djvu. Единственный недостаток - небольшая распространенность формата. Создание такого файла - 5 и 6 пункт инструкции.
 
Попробовал Акробатом - фактически те же сканы. Получается без набора текста в Word никак не перегнать ?
В принципе djvu тоже неплохо, у меня есть книга в этом формате.
 
Alex V
Как тебе сказать... Можно. Но считается, что книга в формате doc - это жутко неудобно. Главное - это дикие тормоза и кособокость верстки. Если посмотреть сайты электронных библиотек, большинство книг - в pdf, как альтернатива - djvu, и совсем единицы - doc. Среди англоязычной литературы относительно популярен chm (скомпилированный html). Если ты хочешь все-таки doc, на мой взгляд лучше использовать FineReader. Она откроет pdf, распознает и сохранит как doc.
P.S. Сам читаю много электронной литературы и, если вижу doc - либо его не читаю, либо конвертирую в pdf, ибо читать эти доки - нет никакого желания...
 
Я попробую сделать в djvu. Я предполагаю что большие формулы надо будет вставлять в Word в форме рисунков, а это еще отнимет много времени ...
Спасибо за помощь :)
 
Стоп. Вам что надо-то?
Распознать текст или просто в один удобный файл собрать?

Если в один удобный файл -- то это однозначно djvu. Там волшебные алгоритмы сжатия, которые реально позволяют получить качественный, читабельный результат. Чем качественне скан и чем меньше шума -- тем меньше размер файла.
Мы пользуемся djvu. В конце концов, с КПК даже читается :)

А если вы текст хотите... ну, FineReader вам поможет. Распознает он текст. Таблички еще распознает. Но формулы -- не распознает. Будут они у вас как картинки.

Форматирование документа у вас сохранится. Т.е., текст и картинки будут на тех местах, где они у вас в книжке. Только из-за этого может получиться довольно ТЯЖЕЛЫЙ doc.
 
Trotil написал(а):
Среди англоязычной литературы относительно популярен chm (скомпилированный html).
из обычного doc'всокого документа сделать chm-файл очень сложно? Читал несколько учебников в таком формате (в частности, того же Смелзера "Социологию") - очень удобно, намного удобнее, чем Acrobat, и тормозов вообще нет.
 
Хм. Можно сделать так: сохранить doc как html, а затем воспользоваться ковертером html to chm. Его можно скачать в нете.
 
А для чего так мучаться? Установить FineReader - он как раз и предназначен для распознавания текста и сохранения его в Word, Excel. Несомненно, он большой в дистрибутиве, но справляется со своими обязанностями очень даже хорошо...
 
Kosh написал(а):
А для чего так мучаться? Установить FineReader - он как раз и предназначен для распознавания текста и сохранения его в Word, Excel.
Kosh
Finereader 8 - очень хорош. Единственная проблемка ( пока что :D ) так эти т.н. "квадратики" при сохранении в Word.

Scan to office 1.0 - тоже неплохая прога. Работает нормально
 
Назад
Сверху