Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?
Сегодня: Сентябрь 25, 2024, 14:21:27


Регистрация и вход на форум (полезная информация)   
Начало Помощь Календарь Войти Регистрация
Внимание! Информация на данном форуме предназначена для читателей старше 18 лет.
Герольд: (!!!) Посмотрели фильм? Не забудьте внести его в тематические списки!
Фантастика и фэнтези:

Гроссман, Лев - Волшебники

Паранормальные романы >>>
Любовный роман, проза и другое:

Смолл, Бертрис - Лучиана, кроткая невеста

Библиография >>>
Интересное на форуме:

Донован, Ребекка - Что, если?

Молодежная литература / Young Adult & New Adult >>>

+  Мечтательница
|-+  Светланин уголок
| |-+  Клуб читающих на иностранных языках (Модератор: Ксю)
| | |-+  Помощь - книги в multi-html
0 Пользователей и 10 Гостей смотрят эту тему.
Страниц: [1] 2 3 Печать
Автор Тема: Помощь - книги в multi-html 18+  (Прочитано 18803 раз)
svetico
Герцог
*****

Карма 415
Offline Offline

Пол: Женский
Сообщений: 1171


  • Бывший Верховный Правитель Почетный старожил

  • WWW
    « : Январь 14, 2009, 07:57:49 »

    В пиринге ряд книг встречается в не слишком удобном для прочтения формате multi-html, который получается при конвертации книги из lit. В этом случае книга выглядит как набор html файлов, каждый из которых - отдельная глава. Навигация по книге идет через файл с оглавлением. Отдельные главы такой книги легко можно собрать в единый html файл с помощью программки
    Код:
    http://www.4shared.com/file/80395529/736461e0/40-ac_863.html
    Там есть вкладка "Объединить", где надо выбрать набор файлов для объединения, задать местоположение и имя конечного файла и нажать кнопку "Объединить".
    Работает мгновенно.

    Совсем недавно появилась огромная куча старых книг в multi-html, который гораздо "неприятнее". Во-первых, там один файл = одна страница. Кроме того, на каждой странице есть куча лишнего (номер страницы, ссылки для перехода на предыдущую/последующую). Плюс, текст на каждой странице помещен в какую-то жуткую систему таблиц, так что редактировать его (удалять лишнее) практически невозможно.
    С такими книгами можно справиться следующим образом:
    1. Объединить страницы в один файл (см. выше).
    2. Распечатать этот файл в pdf
    3. Открыть в Акробате и сохранить в Ворд, где убрать все лишнее и соединить разорванные абзацы.

    Чтобы выполнить второй пункт, на компе должен стоять Акробат (не Ридер, а полный). Тогда в меню печати в списке принтеров появляется принтер Adobe PDF.
    Если нет возможности выполнить второй шаг - можно остановиться и на первом. Книгу все равно читать гораздо проще, чем оригинальный вариант.

    В этом списке много книг в таком multi-html
    Код:
    http://www.4shared.com/file/80244146/39f8035a/new_2009_01_12.html
    Большая просьба - взяв книгу га редактирование, сообщать здесь и результаты (с указанием, что сделано), присылать мне на почту.

    Новые инструкции по конвертации - дальше в этой ветке
    « Последнее редактирование: Январь 22, 2009, 10:09:24 от svetico » Записан

    Светлана
    ZaVal
    Гость
    « Ответ #1 : Январь 14, 2009, 10:25:30 »

    Взялась править 7 сборников.

    A Wilderness Christmas - Madeline Baker, Elizabeth Chadwick, Norah Hess, Connie Mason  (multi-html)
    An Old-Fashioned Valentine - Cassie Edwards, Shirl Henke, Kathryn Kramer, Eugenia Riley (multi-html)
    Christmas Spirit - Elaine Fox, Leigh Greenwood, Linda Winstead (multi-html)
    Cupid's Kiss - Patricia Hagan, Bobby Hutchinson, Linda Madl, Bobbi Smith (multi-html)
    Frontier Christmas - Madeline Baker, Robin Lee Hatcher, Norah Hess, Connie Mason (multi-html)
    Holiday Inn - Debra Dier, Ruth Ryan Langan, Linda Madl, Linda Jones (multi-html)
    Midsummer Night's Magic - Emma Craig, Tess Mallory,
    Pam McCutcheon, Amy Elizabeth Saunders (multi-html)
    « Последнее редактирование: Январь 21, 2009, 21:24:00 от ВалЗа » Записан
    svetico
    Герцог
    *****

    Карма 415
    Offline Offline

    Пол: Женский
    Сообщений: 1171


  • Бывший Верховный Правитель Почетный старожил

  • WWW
    « Ответ #2 : Январь 14, 2009, 11:12:02 »

    Появились отредактированные

    Avery, Anne - All's Fair (FR) (futuristic) 1994
    Gaffney, Patricia - Sweet Treason (hist romance) (v1.0) 1989

    книги в multi-html

    Collier, Susan - Time Heals (Love Spell - Angel's Touch) 1995 (multi-html)
    Copeland, Lori - A Love of Our Own & Passion's Folly, 1986, 1987 (multi-html)
    Copeland, Lori - Up for Grabs & Hot on His Trail, 1986, 1987 (multi-html)
    Copeland, Lori - When Lightning Strikes & Tale of Love, 1986, 1988 (multi-html)
    Dawson, Saranne - 02 - Secrets of the Wolf (FR) 1998 (multi-html)
    Grant, Susan - Once a Pirate (FR) 2000 (multi-html)
    Knight-Jenkins, Vivian - Passion's Timeless Hour (TT) 1992 (multi-html)
    Link, Gail - 02 - Encantadora (hist romance) 1991 (multi-html)
    Link, Gail - 04 - Forsaking All Others (hist romance) 1997 (multi-html)
    Mason, Connie - Desert Ecstasy (hist romance) 1988 (multi-html)
    Mason, Connie - Surrender to the Fury (hist romance) 1998 (multi-html)
    McCutcheon, Pam - 02 - Quicksilver (FR) 1996 (multi-html)
    Morgan, Melody - Defiant Hearts (hist romance) 1996 (multi-htl)
    Ring, Thomasina - Dream Catcher (hist romance) 1992 (multi-html)
    Scott, Theresa - Apache Conquest (hist romance) 1993 (multi-html)
    Winstead, Linda - In Enemy Hands (hist romance) 1996 (multi-html)

    Alter, Judy - A Ballad for Sallie (hist romance) 1992 (multi-html)
    Barbieri, Elaine - Dangerous Virtues 03 - Chastity (hist romance) 1998 (multi-html)
    Blair, Annette - Vintage Magic Mystery 01 - A Veiled Deception, 2009 (multi-html from lit)
    Copeland, Lori - Spitfire & Jug of War, 1985 (multi-html)
    DuBay, Sandra - In Passion's Shadow (hist romance) 1984 (multi-html)
    Gray, Valerie - By Honour Bound (regency) 1988 (multi-html)
    Greenwood, Leigh - The Cowboys 02 - Ward (hist romance) 1997 (multi-html)
    Greenwood, Leigh - The Cowboys 03 - Buck (hist romance) 1998 (multi-html)
    Greenwood, Leigh - The Cowboys 05 - Sean (hist romance) 1999 (multi-html)
    Hansen, Kim - Untamed Desire (hist romance) 1991 (multi-html)
    Hart, Catherine - b02 - Ashes and Ecstasy (hist romance) 1988 (multi-html)
    Henke, Shirl - f02 - Terms of Surrender (hist romance) 1993 (multi-html)
    Malek, Doreen Owens - The Panther and the Pearl (hist romance) 1994 (multi-html)
    Mason, Connie - Tender Fury (hist romance) 1984 (multi-html)
    Scott, Fela Dawson - Spirit of the Mountain (hist romance) 1995 (multi-html)
    Scott, Theresa - Captive Legacy (hist romance) 1996 (multi-html)
    Simmons, Trana Mae - Montana Surrender (hist romance) 1993 (multi-html)
    Записан

    Светлана
    svetico
    Герцог
    *****

    Карма 415
    Offline Offline

    Пол: Женский
    Сообщений: 1171


  • Бывший Верховный Правитель Почетный старожил

  • WWW
    « Ответ #3 : Январь 14, 2009, 11:39:20 »

    На пробу
    Книги для дальнейшей коррекции. В комплект входит doc-файл для коррекции и pdf-файл для справки

    Avery, Anne - The Highwayman's Daughter (hist romance) (Legendary Lovers 04) 1998
    Код:
    http://www.4shared.com/file/80560440/3ef7900b/Avery_Anne_-_The_Highwaymans_Daughter.html

    Dawson, Saranne - Prince of Thieves (hist romance) (Legendary Lovers 07) 1998
    Код:
    http://www.4shared.com/file/80561953/e8104c6/Dawson_Saranne_-_Prince_of_Thieves.html
    « Последнее редактирование: Январь 14, 2009, 11:54:38 от svetico » Записан

    Светлана
    der
    Гость
    « Ответ #4 : Январь 14, 2009, 12:06:41 »

    Взяла на пробу 

    Avery, Anne - The Highwayman's Daughter (hist romance) (Legendary Lovers 04) 1998
    Записан
    Polin
    Читатель.
    Герцог
    *****

    Карма 664
    Offline Offline

    Пол: Женский
    Сообщений: 2344


    Я - философ

  • Почетный старожил

  • « Ответ #5 : Январь 19, 2009, 19:11:19 »

    Следующие книги появились или имеются в нормальных форматах

    Holiday Inn - Debra Dier, Ruth Ryan Langan, Linda Madl, Linda Jones
    Barbieri, Elaine - Amber 01 - Amber Fire (hist romance) 1981
    Barbieri, Elaine - Amber 02 - Amber Treasure (hist romance) 1983
    Dier, Debra - a01 - Devil's Honor (hist romance) 1998
    Dier, Debra - a02 - Saint's Temptation (hist romance) 1998
    Dier, Debra - Dreams 03 - The Sorcerer's Lady (FR) 1995
    Dier, Debra - Surrender the Dream (hist romance) 1993
    Edwards, Cassie - Savage Secrets 04 - Savage Heat (hist romance) 1998
    Feehan, Christine - Dark 03 - Dark Gold (FR) 2000
    Gaffney, Patricia - Fortune's Lady (hist romance) 1989
    Hess, Norah - b01 - Devil in Spurs (hist romance) 1990
    Hess, Norah - Forever the Flame (hist romance) 1987
    Mason, Connie - Ice & Rapture (hist romance) 1993
    Mason, Connie - Promise Me Forever
    Mason, Connie - Pure Temptation (hist romance) 1996
    Mason, Connie - Desert Ecstasy (hist romance) 1988
    Mason, Connie - Surrender to the Fury (hist romance) 1998
    Shannon, Colleen - Kimball 01 - The Gentle Beast (hist romance) (A Fairy Tale Romance) 1996
    Shannon, Colleen - Kimball 02 - Prince of Kisses (hist romance) (A Fairy Tale Romance) 1997
    Shannon, Colleen - Kimball 03 - The Steadfast Heart (hist romance) (A Fairy Tale Romance) 1998
    Записан

    Есть время разбрасывать камни,
    и есть время собирать камни
    Polin
    Читатель.
    Герцог
    *****

    Карма 664
    Offline Offline

    Пол: Женский
    Сообщений: 2344


    Я - философ

  • Почетный старожил

  • « Ответ #6 : Январь 21, 2009, 19:55:32 »

    Еще три книги появились в нормальном формате:

    Mason, Connie - a01 - Beyond the Horizon (hist romance) 1990 (multi-html)
    Mason, Connie - c01 - Bold Land, Bold Love (hist romance) 1981 (multi-html)
    Mason, Connie - Caress and Conquer (hist romance) 1986 (multi-html)
    Записан

    Есть время разбрасывать камни,
    и есть время собирать камни
    ZaVal
    Гость
    « Ответ #7 : Январь 21, 2009, 21:19:56 »

    Спасибо, тогда Holiday Inn - Debra Dier, Ruth Ryan Langan, Linda Madl, Linda Jones я не делаю.

    Пока закончила только Blue Christmas - Sandra Hill, Linda Jones, Sharon Pisacreta, Amy Elizabeth Saunders . Приходится очень много править.

    Записан
    svetico
    Герцог
    *****

    Карма 415
    Offline Offline

    Пол: Женский
    Сообщений: 1171


  • Бывший Верховный Правитель Почетный старожил

  • WWW
    « Ответ #8 : Январь 22, 2009, 10:32:57 »

    Новые инструкции по конвертации

    Большое спасибо Наталии (Driana) за новые инструкции по конвертации. Даже с картинками  Скачать можно здесь.
    Код:
    http://www.4shared.com/file/81897371/62fc52d9/convert_from_multi-html.html

    Благодаря ей же - сконвертированны книги
    Dier, Debra - Deceptions & Dreams
    Dier, Debra - Shadow of the Storm

    Я вчера сделала на пробу
    Chancellor, Victoria - Forever & a Day

    Потратила около двух часов. Вполне приемлимо. По своему опыту хочу добавить к инструкции следующее:
    1. Убирая пустые абзацы - символ абзаца в Ворде ^p. Меняю все время "три на один" и в последний раз "два на один".
    2. Вся лишняя информация (ссылки на предыдущие/последующие страницы, номера страниц) идет одним блоком. Поэтому здесь автозаменой не пользовалась. Удаляла вручную. Удалить вручную один абзац или пять - практически все равно. Эта работа - самая трудоемкая.
    3. Если видите два слова, склеившихся вместе - почти наверняка между ними должно быть тире. Майкрософт всех уже достал тем, что они без проблем используют в своих программах спец-символы, которые во всех других программах зарезервированы и не используются. В результате любая конвертация обычно приводит к появлению склеенных слов или непонятных символов. На русифицированных компьютерах иногда в английском тексте вдруг могут появиться большие русские буквы  Явный признак того, что текст конвертирован из Ворда.
    По совету Наталии я теперь для склеивания html-файлов стала пользоваться программкой VHtmlMerger. Непонятностей в результирующем тексте стало значительно меньше.
    Код:
    http://www.4shared.com/file/81898240/67774bed/VHtmlMerger_v177_.html
    Правда, программа склеила мне страницы в совершенно дурном порядке. Что-то типа 1-10-100-101-...-109-11-110-...-119-
    В общем, совет - на всякий случай перенумеруйте исходные страницы так, чтобы номер все время был трехзначным. 001, 010, и т.п.
    А вообще, рекомендую конвертировать большими кусками (хотя-бы по 100-200 страниц). Ворд гарантированно работает без заскоков. На целой книге операции "преобразовать в таблицу", "преобразовать в текст" могут его подвесить.
    Записан

    Светлана
    ZaVal
    Гость
    « Ответ #9 : Январь 22, 2009, 11:10:06 »

    Я нашла еще одну серьезную проблему. При конвертации в Ворд часто пропадает первый абзац новой страницы или последний предыдущей. Поэтому приходится проверять, копировать, менять таблицу на строки ...
    А еще безумное количество разорванных строк. В первом файле было более 2000.
    И очень много склеенных слов.
    Записан
    svetico
    Герцог
    *****

    Карма 415
    Offline Offline

    Пол: Женский
    Сообщений: 1171


  • Бывший Верховный Правитель Почетный старожил

  • WWW
    « Ответ #10 : Январь 22, 2009, 11:29:37 »

    Валя, попробуй склеить с помощью VHtmlMerger. У меня с ним ничего не пропадало. И мне очень понравился вариант "выделить все - преобразовать текст в таблицу - преобразовать таблицу в текст".

    В общем, если коротко, получается следующая цепочка:
    1. склеить с помощью VHtmlMerger
    2. открыть полученный html-файл в Ворде. Каждая страница там - отдельная таблица.
    3. выделить все - преобразовать текст в таблицу - преобразовать таблицу в текст (в качестве разделителя - знак абзаца)
    4. Убрать пустые абзацы
    Уже этот текст можно читать
    5. Склеить страницы, убирая лишний текст (номера страниц и ссылки)

    А разорванные строки - это может быть результат неаккуратного оригинального сканирования/вычитывания.
    Записан

    Светлана
    ZaVal
    Гость
    « Ответ #11 : Январь 22, 2009, 11:49:58 »

    Света, строки пропадают при конвертации из склеенного файла pdf в Ворд.
    Только что попробовала вариант с таблицей. Достаточно просто.
    Визуально ошибок намного меньше, но надо просмотреть весь текст.

    Наталия (Driana)  

    Попробовала. Отлично получилось. Правок намного меньше. Села и сделала целую книгу.
    « Последнее редактирование: Январь 22, 2009, 21:35:27 от ВалЗа » Записан
    Driana
    Читатель
    Барон
    *

    Карма 136
    Offline Offline

    Пол: Женский
    Сообщений: 74


    Приходится грести тем веслом, которое досталось.

  • Почетный старожил

  • « Ответ #12 : Январь 23, 2009, 12:51:07 »

    Сделала следующие книги:
    Janet Dailey - A Lyon's Share
    Janet Dailey - After The Storm
    Janet Dailey - Bed of Grass
    Janet Dailey - Big Sky Country
    Janet Dailey - Bluegrass King
    Janet Dailey - Boss Man from Ogallala
    Janet Dailey - Difficult Decision
    Janet Dailey - Enemy in Camp
    Janet Dailey - Fire and Ice
    Janet Dailey - Green Mountain Man
    Janet Dailey - The Homeplace
    Janet Dailey - The Indy Man
    Jones, Linda - [Fairy Tale Romance] - Let Me Come In
    Jones, Linda - [Fairy Tale Romance] - Someone's Been Sleeping in My Bed
    Linda Winstead - In Enemy Hands
    Записан
    Driana
    Читатель
    Барон
    *

    Карма 136
    Offline Offline

    Пол: Женский
    Сообщений: 74


    Приходится грести тем веслом, которое досталось.

  • Почетный старожил

  • « Ответ #13 : Январь 23, 2009, 13:16:46 »

    У меня получилось усовершенствовать предложенный ранее способ конвертации файлов из multi-html в Word. Теперь переброска и удаление разрывов между страницами занимает раза в два меньше времени. Книгу, в которой в результате получилось 132 страницы (шрифт Times New Roman, 12 pt, интервал между строками одинарный) я отредактировала за 25 минут и еще 20 минут с помощью проверки орфографии исправляла "склеенные" слова (к сожалению, это не результат переброски в Word, а ошибки в исходных html-файлах, так что, исправлять придется только вручную).
    Порядок действий:
    1 - получить объединенный html-файл (в первом файле с инструкциями я объясняю, как правильно добавлять файлы, чтобы страницы "склеились" в правильном порядке).
    2 - открыть файл в браузере и выполнить команду Вид-Источник , Вид-Просмотр HTML-кода или Вид-Исходный код (в зависимости от того, каким браузером пользуетесь) или просто открыть html-файл с помощью Блокнота (не Word, нам нужен исходный код, а Word отобразит файл как и браузер - в виде html-страницы).
    3 - выполнить команду Правка-Заменить. В поле Найти ввести два символа - "<a", а в поле Заменить на - "<p". Эти символы обязательно нужно вводить при английской раскладке клавиатуры - кириллица не подойдет. Нажать на кнопку Заменить все и обязательно сохранить редактируемый файл.
    4 - если html-файл с текстом книги был открыт в браузере, нажать F5 (или кнопку Обновить). Если файл просто редактировался с помощью Блокнота - открыть его в браузере.
    5 - скопировать текст из браузера в Word.
    6 - преобразовать сначала весь документ в таблицу, а затем - таблицу в текст. Обратите внимание: для файлов большого объема на время преобразования влияет, был ли сохранен файл. У меня, например, если забываю сохранить файл, при преобразовании такой большой таблицы Word частенько и вовсе "подвисает". Я поэтому и подчеркнула необходимость сохранения doc-файла после выполнения каждой операции: вставили текст из html-файла - сохранили документ, преобразовали документ в одну таблицу - сохранили документ, и только затем преобразовываем таблицу в текст.
    7 - теперь с помощью Найти и заменить можно легко убрать оставшиеся от html ссылки для переходов между страницами, т.к. они теперь не ссылки, а обычный текст (благодаря замене тега гиперссылки на тег абзаца, которая была выполнена в п. 3). Для этого в поле Найти устанавливаем Любой знак (^?) и устанавливаем формат - шрифт Verdana размером 14,5 (так можно убрать текст бывших ссылок синего цвета), в поле Заменить на ничего не пишем и нажимаем Заменить все. Аналогично убираем номера страниц, написанные серым цветом, только шрифт меняем на Times New Roman, размер тот же.
    8 - выполнить в документе замену в таком порядке: заменить неразрывный пробел (^s) на просто пробел, убрать лишние пробелы в конце и начале абзаца (пробел знак абзаца и знак абзаца пробел соответственно), а после убрать лишние абзацы. Наиболее оптимальной является 3-ступенчатая замена лишних абзацев: сначала каждые шесть абзацев заменяем на один, затем четыре на один и наконец два на один. Так на замену потребуется минимум времени.
    9 - в полученном тексте остается убрать только номера страниц, написанные красным цветом (они имеют вид Page 1, Page 2, и т.д.). Именно они сейчас указывают на разрывы между страницами. Эти разрывы можно условно разделить на 3 вида: разорвано слово (подчеркивается красной волнистой линией), разорвано предложение (подчеркивается зеленой волнистой линией) и просто лишний абзац, т.к. далее идет предложение, которое начинается с нового абзаца. Еще одно замечание: номера страниц состоят из одной, двух либо трех цифр. Как это использовать, я объясню дальше.
    Оставшийся этап наиболее трудоемкий, но все равно позволит завершить редактирование намного быстрее, чем если всю книгу просматривать вручную.
    Идея состоит в том, чтобы найти и заменить в тексте номера страниц (Page ...) либо на пробел (если разорвано предложение) либо на знак абзаца (если это разрыв третьего вида). Разорванные слова придется исправлять вручную.
    Номера страниц, состоящие из одной цифры, удаляем вручную, их немного и в основном они расположены в начальной, информационной части книги, а не в самом тексте. Остаются номера с двумя и тремя цифрами. Начнем с двузначных номеров. В поле Найти нужно ввести следующую строку: ^pPage ^#^#^p (абзац, слово Page, пробел, любая цифра, любая цифра, абзац). В поле Заменить на вводим пробел. Теперь нажимаем Найти далее. Программа находит требуемую комбинацию. Если это разорванное слово, то, как я уже сказала, его надо исправить вручную. Если это разорванное предложение, то надо нажать Заменить, если это разрыв третьего рода - нажать Найти далее. Когда закончатся страницы, номер которых состоит из двух цифр, в поле Найти добавляем еще один знак Любая цифра (^pPage ^#^#^#^p) и аналогично просматриваем оставшуюся часть документа.
    После такой проверки неустраненными останутся только разрывы третьего рода, а их легко убрать той же заменой, только в поле Заменить на нужно задать не пробел, а знак абзаца.
    Осталось проверить орфографию - и книга готова.

    Записан
    svetico
    Герцог
    *****

    Карма 415
    Offline Offline

    Пол: Женский
    Сообщений: 1171


  • Бывший Верховный Правитель Почетный старожил

  • WWW
    « Ответ #14 : Январь 23, 2009, 13:19:32 »

    Хочу еще раз напомнить - склеенные слова это, почти наверняка, пропавшее между ними тире.
    Записан

    Светлана
    Страниц: [1] 2 3 Печать 
    Перейти в:  


    Войти

    Форум "Мечтательница"
    Powered by SMF 1.1.11 | SMF © 2006-2009, Simple Machines LLC