Fórum pro uživatele kancelářského balíku OpenOffice | LibreOffice
 

#1 13. 6. 2017 05:30:02

jik
Člen
Registrace: 28. 6. 2009
Příspěvků: 43

"Vyčištění" odt - VYŘEŠENO

Zdravím,
píši knihu, které po několika letech má rozsah ~900 normostran. Jak jsem zjistil, samotný zdrojový text se různými operacemi porůznu 'zpotvořil', viz příklad (po exportu do html):

<span lang="cs-CZ">Longworth
</span><span lang="cs-CZ">také </span><span lang="cs-CZ">uvádí, že
zajímavým a nečekaným důsledkem </span><span lang="cs-CZ">zrušení
nevolnictví</span><span lang="cs-CZ">, který měl nakonec fatální
d</span><span lang="cs-CZ">opad,</span>

Načítání a ukládání tohoto souboru je velmi pomalé a myslím, že by pomohlo zbavit se těchto a podobných vylomenin. Je nějaký způsob, jak toho dosáhnout? Za nepoužitelnou metodu považuji přetáhnout přes čistý text, protože v tom mám poustu poznámek pod čarou.

Editoval jik (16. 6. 2017 15:35:31)

Offline

#2 13. 6. 2017 07:06:43

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 3,435

Re: "Vyčištění" odt - VYŘEŠENO

Neuvádíte v jakém systému to děláte a v jaké verzi. Což může být důležité zejména z pohledu nesprávného vložení konce tagu </span> za první písmeno.
     Problém s velkými soubory existoval a zřejmě ještě existuje, ale někdy to lze řešit pomocí odkazem vložených sekcí. Potom skutečný obsah souboru (většinou Hlavní dokument) nemá velikost embedding vložených sekcí a objektů. Bohu žel nevím jestli právě toto nepoužíváte a dokonce ani to jestli z takto odkazovaného dokumentu lze exportovat do html případně PDF.


     Pokud nemáte nejnovější verzi LO, nebo AOO tak se pokuste aktualizovat (v Linuxu to může být problém zejména pro AOO). Pokud máte nějakou aktuální verzi Fresh, nebo stable bude to chtít ověřit a oznámit chybu.
     Pokud se Vám podaří upravit pomocí odkazů a nebude korektní například odsazení, zarovnání ap s původním vkládaným dokumentem (nebo Ole) tak je na místě úprava stylu. To si ale nedovolím předjímat.


Moje e-mailová adresa
Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte orientaci při vyhledávání řešení JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#3 13. 6. 2017 16:22:57

jik
Člen
Registrace: 28. 6. 2009
Příspěvků: 43

Re: "Vyčištění" odt - VYŘEŠENO

Někdy od roku 2003 pracuji výhradně na Suse/OpenSUSE a jejích verzích OO, tedy GoOO a dnes LO. Knihu píši přibližně od doby GoOO 3.2, aktuálně LO 5.2.5.1. Zatím nevím o žádné verzi, která by to dokázala čistit (a ani o nějakém čistícím prográmku).
Můj odhad, že vyhozením vyložených zbytečností by se text mohl zkrátit na méně, než čtvrtinu a zároveň by se podstatně zrychlilo jak načítání, tak i ukládání. Zatím mě napadlo udělat nějaký perlový skript na content.xml, ale to bych potřeboval nějaké konzultace, co lze a co ne a na co by se ještě muselo sáhnout.
Jinak, v textu využívám výhradně styly, pouze výjimečně je zvýrazněno nějaké slovo, či věta. Nějak nechápu, proč se tam vytvořilo takové smetí.

Editoval jik (13. 6. 2017 21:31:56)

Offline

#4 14. 6. 2017 15:52:49

majtas.d
Člen
Registrace: 20. 1. 2009
Příspěvků: 9

Re: "Vyčištění" odt - VYŘEŠENO

jik napsal(a)

<span lang="cs-CZ">Longworth
</span><span lang="cs-CZ">také </span><span lang="cs-CZ">uvádí, že
zajímavým a nečekaným důsledkem </span><span lang="cs-CZ">zrušení
nevolnictví</span><span lang="cs-CZ">, který měl nakonec fatální
d</span><span lang="cs-CZ">opad,</span>

Tahle konkrétní chyba je daná tím, že pro jednotlivé části textu je nastaven "jiný" jazyk.
Je trochu obskurní, proč se to vyskytuje poněkud nelogicky na bezprostředně následujících částech věty, které jsou všechny psané jazykem jedním. Neřeknu, když by člověk vkládal citaci z.b. anglického textu dorpostřed českého odstavce, kde za citací následuje překlad a vysvětlení.


Pro tenhle konkrétní problém by mělo stačit nastavit jazyk dokumentu na češtinu (Nástroje/Jazyk/pro celý text/čeština).

Editoval majtas.d (14. 6. 2017 15:53:26)

Offline

#5 14. 6. 2017 16:03:26

majtas.d
Člen
Registrace: 20. 1. 2009
Příspěvků: 9

Re: "Vyčištění" odt - VYŘEŠENO

neutr napsal(a)

Problém s velkými soubory existoval a zřejmě ještě existuje, ale někdy to lze řešit pomocí odkazem vložených sekcí. Potom skutečný obsah souboru (většinou Hlavní dokument) nemá velikost embedding vložených sekcí a objektů. Bohu žel nevím jestli právě toto nepoužíváte a dokonce ani to jestli z takto odkazovaného dokumentu lze exportovat do html případně PDF.

Z hlavního dokumentu exportovat do pdf lze, technicky je to stejné jako jeden dokument. Rozdíl mezi en bloc knihou v jednom odt a sestavenou dynamicky přes odm je pouze v tom, že se neukládá jako jeden velký dokument. Kompletní dokument se generuje až po načtení odm do počítače načtením zodkazovaných částí.

nativní exporty do HTML a PDF jdou bezproblému. Co vím tak je problém s exporty do formátů, které jsou zavedeny nějakým rozšířením (jmenovitě třeba Writer2Latex), to je většinou problém, že funkce není v rozhranní hlavního dokumentu povolena/definována.

Offline

#6 14. 6. 2017 17:17:51

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 3,435

Re: "Vyčištění" odt - VYŘEŠENO

jik napsal(a)

.... Zatím nevím o žádné verzi, která by to dokázala čistit (a ani o nějakém čistícím prográmku).
Můj odhad, že vyhozením vyložených zbytečností by se text mohl zkrátit na méně, než čtvrtinu a zároveň by se podstatně zrychlilo jak načítání, tak i ukládání. Zatím mě napadlo udělat nějaký perlový skript .... Nějak nechápu, proč se tam vytvořilo takové smetí.


     Tagy DIV a SPAN jsou označovány jako prázdné obálky bez významu. Používají se zejména pro formátování pomocí CSS. Je možné že takto zavedené reprezentují například nedělitelnou mezeru nebo něco podobného. Byla by to konverze pro html z odt. Tomu by přibližně odpovídal například výraz "longworth", ale je to jen dojem. Těžko vysvětlit upřesnění jazyka.
     Ještě se nabízí vysvětlení, že jde o značky speciálních polí a možná rejstříků. Potom by zřejmě tag lang=cz znamenal začátek odstavce nebo věty tady něco jako odlišení běžného textu a formátů.
     Podstatu bude asi potřeba hledat v kódu html. Je možné že to dělá problém browseru(?) ale z příspěvku není zřejmé zda se nejedná o zpětné načítání do Writer pro html.


     To čištění asi není relevantní. Pravděpodobně bude tyto tagy někdy potřeba a jindy možná ne. Neměl by být velký problém postavit něco jako parser (jedno v čem já bych použil basic). Bohu žel celkem nepochybuji o tom, že by z html zbylo nefunkční textové torzo které by se muselo zpětně doplnit o nějaké tagy a formáty.
     Pokud by problémy dělal výstup do browseru půjde s velkou pravděpodobností o špatnou syntaxi. Dnes by to chtělo výstup striktně do html5. Je pravděpodobné že i části převedené do html ve starších formátech by dělaly novějším verzím odt problém.
     Já osobně dělám určité parsování na souborech Xml. Neměl by být problém stejně parsovat html. Nejde tedy přímo o vyčištění kódu, ale o zpracování protokolu kde je to použito. Když by se opravdu jednalo o zbytečnosti tak by se mělo dohledat kde a proč. Problém by se měl asi najít zpětně v odt zdroji a najít relaci tag html == značka formátu odt. Samozřemě to "zmršení" může mít podstatu v přechodech na různé verze. Pak by to chtělo kód vyčistit.
     Místo čištění bych asi doporučil úsek po úseku přeformátovat ve zdroji odt (nejlépe na kopii originálu). Když se odstraní formát zcela (převod do plain text) tak je možné vytvořit manuálně nový styl pro všechny stejné sekce a naformátovat je stejně podle nejnovějšího odt. Teprve pak aplikovat stejný formát. Je to jistě složité od struktur adresářů až po formáty (styly) .. ale
     Je to jistě mnoho vložené práce a tak by se vyplatilo uložit mezifázi s plain textem pro alternativní zpracování například v PHP nebo některém formátu elektronické knihy. Potom s druhou kopií plain textu dělat testy v odt na výstupy html, pdf ap.


     Je možné místo čištění například otevřít krátkou pasáž nebo větu kde je ten který tag použit. Tím by se asi dalo intuitivně a mnohem rychleji dovodit oč jde. Možná by se podařilo pouze uložit jednotné aktuální přeformátování tak že se vytvoří nejprve formát nový. Následně by se mělo odstranit přímé formátování a původní formátování obecně. Potom aplikovat nový formát. Ovšem to se musí asi dobře otestovat nežli se zvolí vhodný postup.


Moje e-mailová adresa
Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte orientaci při vyhledávání řešení JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#7 14. 6. 2017 21:08:11

jik
Člen
Registrace: 28. 6. 2009
Příspěvků: 43

Re: "Vyčištění" odt - VYŘEŠENO

Tak jsem rozebral samotný odt (zip), resp. content.xml a uvedu jeden kompletní odstavec textu (6,5 řádek prostého odstavcového stylu):
<text:p text:style-name="P2040"><text:span text:style-name="T1693">Podle ní Venedové přišli </text:span><text:span text:style-name="T23">ze sibiřských dálav, opuštěných po ochlazení Sibiře, </text:span><text:span text:style-name="T1693">kde kdysi existovala mocná říše </text:span><text:span text:style-name="T1722">(Rusénie?)</text:span><text:span text:style-name="T1693">. </text:span><text:span text:style-name="T1722">Ta</text:span><text:span text:style-name="T1693"> </text:span><text:span text:style-name="T1691">se rozkládala na Sibiři v Bělovodí (Sedmiřečí – </text:span><text:span text:style-name="T1693">řeky </text:span><text:span text:style-name="T1691">Tobol, Ob, Jenisej, Angara, Lena, Irtyš </text:span><text:span text:style-name="T1692">a</text:span><text:span text:style-name="T1691"> </text:span><text:span text:style-name="T1692">Išim</text:span><text:span text:style-name="T1691">). </text:span><text:span text:style-name="T1721">Mělo dojít k válce s </text:span><text:span text:style-name="T1692">provinci</text:span><text:span text:style-name="T1721">í </text:span><text:span text:style-name="T1692">Antlani</text:span><text:span text:style-name="T1721">í.</text:span><text:span text:style-name="T1692"> (</text:span><text:span text:style-name="T2058">Antové žili na severním pobřeží Černého moře; k tomuto termínu se snad váže bájná </text:span><text:span text:style-name="T1692">Atlantida!) </text:span><text:span text:style-name="T1721">Potom, snad v důsledku kosmického kataklyzmatu</text:span><text:span text:style-name="T1691"> </text:span><text:span text:style-name="T1692">na Sibiři </text:span><text:span text:style-name="T1691">nastalo </text:span><text:span text:style-name="T1692">ochlazení. Proto </text:span><text:span text:style-name="T1721">lidé začali Sibiř opouštět a říše byla oslabena. </text:span><text:span text:style-name="T1722">Rusénii napadl </text:span><text:span text:style-name="T1693">její </text:span><text:span text:style-name="T1692">jižní soused </text:span><text:span text:style-name="T1723">(</text:span><text:span text:style-name="T1692">Arímie? – Čína). </text:span><text:span text:style-name="T1722">Arímie nakonec prohrála a m</text:span><text:span text:style-name="T1693">írová smlouva byla uzavřena … 22. října </text:span><text:span text:style-name="T2058">roku </text:span><text:span text:style-name="T1693">5508 před naším letopočtem (!). </text:span><text:span text:style-name="T1722">T</text:span><text:span text:style-name="T1693">oto datum je počátkem </text:span><text:span text:style-name="T1723">(snad) </text:span><text:span text:style-name="T1693">nového (!) slovanského kalendáře.</text:span></text:p>

Toto prostě problém je - a ještě větší, než se mi zdálo z toho exportu.
Zkusil jsem experiment: označit odstavec a pomocí ctrl-M nastavit výchozí formátování - dost se to zlepšilo, včetně rychlejšího ukládání. Ale je to opruz, zvlášť při tomto rozsahu.

Editoval jik (14. 6. 2017 21:44:15)

Offline

#8 15. 6. 2017 05:39:13

jik
Člen
Registrace: 28. 6. 2009
Příspěvků: 43

Re: "Vyčištění" odt - VYŘEŠENO

Po tom, co jsem většinu textu výšeuvedeným postupem změnil na výchozí formátování (s výjimkou částí, kde jsou zvýraznění), se content.xml zkrátil ze 6MB na 4,5MB a celý odt z 1,6 na 1,4MB. Ale jakoby se některé části vyčistily a další ne. Uvedu 2 po sobě jdoucí odstavce, první vypadá dobře, ten druhý už hůře:
<text:p text:style-name="P33">Prvním důsledkem této situace bylo to, že Rusko vlastně dlouho nebylo feudálním státem v pravém slova smyslu, tedy že by šlechta získávala za svoje služby půdu a na ní hospodařící rolníky a žila by z přebytků práce rolníků. Ruské impérium bylo především obchodní společností, která vydělávala na dálkovém obchodu – a vládcové, vlastně velcí obchodníci, obyvatelstvo potřebovali pro obsluhu obchodních cest.</text:p><text:p text:style-name="P33">Ruská vesnice (přesněji občina<text:note text:id="ftn4" text:note-class="footnote"><text:note-citation>4</text:note-citation><text:note-body><text:p text:style-name="P306">Viz slovníček</text:p></text:note-body></text:note>) byla silně kolektivizovaná a byla vlastně systémem všeobecného pojištění. Půdu rolníci nevlastnili, ovšem panovník jim ji zdarma přenechával k využití – tedy sedláci nemohli půdu ztratit<text:note text:id="ftn5" text:note-class="footnote"><text:note-citation>5</text:note-citation><text:note-body><text:p text:style-name="P128">Longworth P.: Dějiny impérií. Sláva a pád ruských říší; Beta-Dobrovský; 2008</text:p><text:p text:style-name="P307"><text:span text:style-name="T725"><text:tab/></text:span><text:span text:style-name="T24">Payne R., Romanoff N.: Ivan Hrozný; Dobrovský; 2008</text:span></text:p><text:p text:style-name="P107"><text:tab/>Švankmajer M.:
Petr I. - Zrození impéria; Lidové noviny 1999</text:p></text:note-body></text:note>. Krátké vegetační období nutilo k maximálnímu nasazení: když byl některý sedlák hotov na svých polích, šel pomoci méně úspěšným sousedům. Tím se zajišťovalo maximálně rychlé provedení zemědělských prací a zvýšení naděje na slušnou úrodu, kterou potom občina disponovala. <text:change-start text:change-id="ct85797136"/>Krátké vegetační období a nutnost velké intenzity prací <text:change-end text:change-id="ct85797136"/><text:change-start text:change-id="ct65935648"/>zároveň <text:soft-page-break/>omezovala možnosti investic práce do zvýšení úro<text:change-end text:change-id="ct65935648"/><text:change-start text:change-id="ct85044864"/>dnosti půdy, neboť po skončení vegetačního období půda <text:change-end text:change-id="ct85044864"/>rychle <text:change-start text:change-id="ct85359200"/>zamrz<text:change-end text:change-id="ct85359200"/>á<text:change-start text:change-id="ct86006064"/> a ned<text:change-end text:change-id="ct86006064"/>á<text:change-start text:change-id="ct85038624"/> se na ní až do jarního tání pra<text:change-end text:change-id="ct85038624"/><text:change-start text:change-id="ct86063520"/>covat<text:note text:id="ftn6" text:note-class="footnote"><text:note-citation>6</text:note-citation><text:note-body><text:p text:style-name="P366"><text:change-start text:change-id="ct86249808"/><text:span text:style-name="T24">Миронин С.: Воюющие цифры; </text:span><text:span text:style-name="T900">viz </text:span><text:span text:style-name="T480">www.contrtv.ru/common/2505/ </text:span><text:span text:style-name="T34">(</text:span><text:span text:style-name="T900">také </text:span><text:span text:style-name="T902">viz </text:span><text:span text:style-name="T34">zákony Milova, Čajanova </text:span><text:span text:style-name="T557">a Parševa</text:span><text:span text:style-name="T34">)</text:span><text:change-end text:change-id="ct86249808"/></text:p></text:note-body></text:note><text:change-end text:change-id="ct86063520"/><text:change-start text:change-id="ct86118256"/>.<text:change-end text:change-id="ct86118256"/></text:p>

Vypadá to, že v odstavci, kde jsou poznámky pod čarou, k vyčištění moc nedošlo.

Offline

#9 15. 6. 2017 06:33:26

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 3,435

Re: "Vyčištění" odt - VYŘEŠENO

To je docela dobrá zpráva. I když mi je jasné že že cca 450 stran A4 (cca 900 normostran) je opravdu porce. Také by asi bylo potřeba prověřit obsah xml toho opraveného odstavce. To co je z ukázky vidět jsou spíš tagy html než xml. Osobně jsem ještě html Writer neotevíral a tak se zase mohu jen domnívat, že html je vnořena do xml.
     Výše uvedená ukázka je poměrně zřetelně stejná jako Váše první ukázka ze zdrojáku html. Odstavce (paragraph) jsou do klasického odt zaváděny pomocí CHR(13) - nový řádek CHR(10), tabelátor CHR(9). Takže lze poměrně dobře vyhledávat odstavce, odsazení řádků v odstavci a podobně. Je to základ navigace, ale věty (sentence) a další markery jsou značeny jinak. Běžné věci se signují kombinací těchto 3 charů - celkem 15 možností - ale ve zdroji xml už to bude pravděpodobně tag určitého typu. Bílé znaky jsou do textových souborů zaváděny pomocí alfabetické značky ASCII (například Cariage Return - tedy CR pro CHR(13-pokud se nepletu) a podobně). - toto by bylo základem procházení dokumentu v basicu pomocí charů.
     Makrem vybraný odstavec by se musel formátovat nejlépe nahraným makrem. Potom není nutné zkoumat co které značky a tagy znamenají. Zůstává problém výběru odstavců se stejným formátem. V tomto smyslu nemám o postupu představu. Pokud ale máte jednotlivé pasáže zpracovány do sub dokumentů (sekce ap) je možné pře-stylovat lépe už proto že k těmto částem máte zřejmě poznámky. Takže lze například nejprve zpracovat orientační report : 1. odstavec - začátek například 3 slova abyste byl schopen identifikovat jednotlivé odstavce podle úvodní fráze a popřípadě ty odlišné jednoduše vyřadit například pomocí CheckBoxu, nebo jinak. Následně potvrzený rozsah makrem přepsat na jediné kliknutí. Je možné že by bylo snadnější pře-stylovat a dodatečně vložit jiný styl.


     Pro všechny typy dokumentů, tedy i pro Writer existuje normovaný popis xml. To je ale hrozná práce protože jde o tisíce řádků. Jednou jsem to otevřel a rychle zavřel. Je to technický zápis kterému se nedá hned normálně porozumět - není to schůdné pokud s tím nepracujete každý den. Takže je potřebné volit zkratky.


     Na to by pomohlo makro. Pokud si troufnete na úpravu makrem pošlu Vám základy maker které můžete potřebovat. Nedokážu odhadnout jak se střídají styly - proto otestujte nahrát makro pro pře-stylování záznamníkem. Pokud nejsou všechny odstavce stejné je nutno odlišné styly například přeskočit nebo znovu individuálně pře-stylovat.
     Odlišnosti se dají označit například barvou pozadí odstavce, nebo značkou typu hypertextového odkazu, záložka, speciální pole, kotva a podobně. Jde spíš o Váš úsudek co by bylo nejlepší.


     Nic lepšího mne zatím nenapadá. Spíš bych asi potřeboval kousek originálu - například kapitolu. Je docela možné že existuje nějaké rozšíření které umí přeformátovat dokument. Vím že existují různá řešení například pro Latex (vzorce) nebo různé fonty a další věci. Je možné že na podobný problém už existuje vypracovaný návod a postup. Nebudete to ale na českých stránkách.


Moje e-mailová adresa
Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte orientaci při vyhledávání řešení JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#10 15. 6. 2017 11:09:31

lp.
Člen
Registrace: 24. 9. 2009
Příspěvků: 842

Re: "Vyčištění" odt - VYŘEŠENO

jik napsal(a)

Vypadá to, že v odstavci, kde jsou poznámky pod čarou, k vyčištění moc nedošlo.

Vyčistil jste rozsekané značky jazyka.

Writer má defaultně zapnuté sledování změn. A za dobu psaní těch změn bylo zřejmě dost.
Podívejte se na Úpravy - Sledování změn a zkuste povolit jejich zobrazení a příslušné změny potvrďte.

Offline

#11 15. 6. 2017 11:58:55

majtas.d
Člen
Registrace: 20. 1. 2009
Příspěvků: 9

Re: "Vyčištění" odt - VYŘEŠENO

Ještě by mohl být problém s nadbytkem existujících stylů. případně zmatkem v prostřídávání se stylů (nejběžnější je zmatek mezi výchozí a tělo textu, které se podaří občas nadělat při překopírovávání bloků textu mezi rlznými soubory s různě nastavenými styly. Tyhle dva základní jsou nejběžnější a můžou se u různých autorů vyskytovat různě. Případně člověk sám může mí v různých souborech nastaveno různě. A bývá dobré toto sjednotit na jeden styl než mít oba tyto základní v textu a pak se při změně stylopisu např. Výchozího stylu vztekat, proč se mi část textu nezměnila (když je ve skutečnosti přiřazena ke stylu tělo textu).


Každopádně první co bych udělal je jak píše kolega lp. přijmout (nebo dle potřeby odmítnout) sledované změny, ať se netáhnou dále, ale jsou zapracovány. Tím se zbavíte zbytečně taženého balastu po věcech co jsou již k nepotřebě.


Je samozřejmě otázka zda změny přijmout šmahem bez kontroly en bloc a nebo je po jedné (a otrocky, ky) projít, ale mít zase jistotu, že mezi nimi nebyla žádná, kterou by bylo třeba ještě vyřešit.

Offline

#12 15. 6. 2017 12:13:53

majtas.d
Člen
Registrace: 20. 1. 2009
Příspěvků: 9

Re: "Vyčištění" odt - VYŘEŠENO

neutr napsal(a)

To co je z ukázky vidět jsou spíš tagy html než xml. Osobně jsem ještě html Writer neotevíral a tak se zase mohu jen domnívat, že html je vnořena do xml.


Není! Ono struktura xml a html si zase tak moc nepodobná není. je to konec konců příbuzná forma. To co pan kolega ukazuje je skutečně kopie kusu "kódu" z content.xml


pro jednoduchou názornost nad tím včerejším problémem s přehazováním jazyka viz:


https://www.dropbox.com/sh/0lq4qrqc7mak … 9R97a?dl=0


Všechyn tři soubory výše jsou z jednoho zdroje, jen se liší forma exportu/uložení.

Offline

#13 15. 6. 2017 14:20:05

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 3,435

Re: "Vyčištění" odt - VYŘEŠENO

jik napsal(a)

....
Toto prostě problém je - a ještě větší, než se mi zdálo z toho exportu.
Zkusil jsem experiment: označit odstavec a pomocí ctrl-M nastavit výchozí formátování - dost se to zlepšilo, včetně rychlejšího ukládání. Ale je to opruz, zvlášť při tomto rozsahu.


     Tak tohle byl poslední článek (#7) na který jsem reagoval. Nyní pozoruji že je tam ještě článek #8. To znamená že v tom okamžiku kdy jsem odeslal příspěvek autor jik ještě psal (stáváce se to docela često i když ne brzo po ránu :-)

Obsah prvního příspěvku kód html :

jik napsal(a)

....
<span lang="cs-CZ">Longworth</span>
<span lang="cs-CZ">také </span>
<span lang="cs-CZ">uvádí, že zajímavým a nečekaným důsledkem </span>
<span lang="cs-CZ">zrušení nevolnictví</span>
<span lang="cs-CZ">, který měl nakonec fatální d</span>
<span lang="cs-CZ">opad,</span>.....

.

Obsah 7. příspěvku obsah xml :

jik napsal(a)

.Tak jsem rozebral samotný odt (zip), resp. content.xml a uvedu jeden kompletní odstavec textu (6,5 řádek prostého odstavcového stylu):
<text:p text:style-name="P2040">
<text:span text:style-name="T1693">Podle ní Venedové přišli </text:span>
<text:span text:style-name="T23">ze sibiřských dálav, opuštěných po ochlazení Sibiře, </text:span><text:span text:style-name="T1693">kde kdysi existovala mocná říše </text:span>
<text:span text:style-name="T1722">(Rusénie?)</text:span>
<text:span text:style-name="T1693">. </text:span>...


     Podle toho se dá snadno usoudit že obsahy těla textu v obou případech html a xml obstarává tag "span". Proto jsem uvedl > "Výše uvedená ukázka je poměrně zřetelně stejná jako první ukázka ze zdrojáku html.", nebo "tag html == tag xml". Jde tedy o zjištění, že se díváme na Writer/web (.html) a nikoliv na klasický zdroj Writer (.odt).


     Také se domnívám, že <text:p text:style-name="P2040"> je značka pro odstavec (paragraph) v xml protože takto se značí také v html. Ovšem už není úplně zřetelné co by v xml byl html tag <span lang="cs-CZ">Longworth</span>. Může to být v html jen obyčejná nézev zejména proto že je mezi tagy, nebo jméno ale když se to otrocky přeloží tak by to byla "dlouhá hodnota" - možná nezalomitelná mezera. Uvědomuji si že tagy "span" slouží pro stylování CSS a tak se mi nechtělo dohledávat jestli to má nějaký význam formátu.


     Zase je také zřetelné, že v xml musí být více tagů nežli v html (mimo toho že obsahují navíc parametry ap.) Počet tagů xml nebude roven počtu tagů html který je do xml vnořen. Mimo toho zdrojem bude zřejmě klasický .odt. Html je do Writer/web jen "pravděpodobně zpětně načten" (html otevřené Writer/webem). A v originále (.odt) by se daly zřejmě najít odkazy na zdroj chyb. Je ale také možné že autor hned vytvářel formát .html a jiný zdroj nežli Writer/web není.


     V každém případě pokud autor zaznamenal úspěch se systémovým přeformátováním (ač hektická práce) tak je to úspěch. Zautomatizování - to už je jiná problematika a schůdná :-) Od přehrabování tagů bych doporučil upustit a když tak jen ve výsledném html. Přes to jsem i takovouhle možnost navrhl


Moje e-mailová adresa
Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte orientaci při vyhledávání řešení JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#14 15. 6. 2017 17:27:32

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 3,435

Re: "Vyčištění" odt - VYŘEŠENO

jik napsal(a)

Po tom, co jsem většinu textu výšeuvedeným postupem změnil na výchozí formátování (s výjimkou částí, kde jsou zvýraznění), se content.xml zkrátil ze 6MB na 4,5MB a celý odt z 1,6 na 1,4MB. Ale jakoby se některé části vyčistily a další ne. Uvedu 2 po sobě jdoucí odstavce, první vypadá dobře, ten druhý už hůře:

<text:p text:style-name="P33">Prvním důsledkem této situace bylo to, že Rusko vlastně dlouho nebylo feudálním státem v pravém slova smyslu, tedy že by šlechta získávala za.....Payne R., Romanoff N.: Ivan Hrozný; Dobrovský; 2008</text:span></text:p><text:p text:style-name="P107"><text:tab/>Švankmajer M.:


Petr I. - Zrození impéria; Lidové noviny 1999</text:p></text:note-body></text:note>. Krátké .....<text:change-end text:change-id="ct86118256"/></text:p>


Vypadá to, že v odstavci, kde jsou poznámky pod čarou, k vyčištění moc nedošlo.


PS :
     Já jsem se nechal zlákat vysvětlením pro Dušana Majtase a nereagoval jsem na ten článek #8. Ten problém popsal sice kolega "lp.", ale pro autora bude zřejmě důležitější to, že zřejmě nedošlo k opravě stylu poznámek pod čarou.


     Spadá to právě do různých stylů pro odstavce. Nabídka sice vypadá, že se opraví všechny styly pod pojmem "Výchozí pro dokument". Takže když se vyčistí (opraví) styl "tělo textu" - nedojde zřejmě automaticky k opravě stylu poznámky pod čarou a stejně tak asi ke stylu nadpisů ap. Ten zůstane nedotčený. Ono existuje hodně různých dílčích stylů v rámci celku "výchozí styl". S tím se také musí počítat. Existuje volba automatické aktualizace [checkBox]. Tato volba je implicitně deaktivovaná. Tím nejspíš dojde (může dojít) k posunu stylů a stačí možná jen přepsat typ písma u poznámky aby se neco dostalo jako jiný styl do výchozího.
     Právě tyto styly které se asi projevují jako zbytečná zátež byly nejspíš původně výchozími, nebo individuálně nastavenými. Když totiž nastavíme svůj styl jako výchozí neznamená to že je to implicitní formát z instalace, nebo dokonce stejný výchozí formát pro různé verze. I po přeinstalování na novou verzi se zachovává původně použitý styl pro konkrétní dokument.


      Existuje například pojem "přímé formátování". To znamená ručně "nestylově" nastavené formáty. Může to být jen například font názvu, nebo manuálně vybarví text a podbně. Výchozí formát se dá nastavit ze stylu použitého. Potom se automaticky začne formátovat na původně individuální styl který nebyl výchozím.
      Avšak implicitně zavedený "Výchozí styl" obsahuje možnost volby "Rodičovský" na "žádný" a to by mělo být použito pro vymazání předchozích stylů. Potom by a_s_i mělo dojít k přeformátování na výchozí formát z instalace. Ale také to nevím jistě.

Editoval neutr (15. 6. 2017 17:31:09)


Moje e-mailová adresa
Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte orientaci při vyhledávání řešení JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#15 15. 6. 2017 21:25:52

jik
Člen
Registrace: 28. 6. 2009
Příspěvků: 43

Re: "Vyčištění" odt - VYŘEŠENO

lp: Aha, záznam změn. Tak jsem je spláchnul a dopadlo to tak, že content.xml se zkrátil na 3,2MB (skoro na polovinu), celé odt na 1,3MB a výše uvedené dva odstavce nyní vypadají takto:
<text:p text:style-name="P901">Prvním důsledkem této situace bylo to, že Rusko vlastně dlouho nebylo feudálním státem v pravém slova smyslu, tedy že by šlechta získávala za svoje služby půdu a na ní hospodařící rolníky a žila by z přebytků práce rolníků. Ruské impérium bylo především obchodní společností, která vydělávala na dálkovém obchodu – a vládcové, vlastně velcí obchodníci, obyvatelstvo potřebovali pro obsluhu obchodních cest.</text:p><text:p text:style-name="P901">Ruská vesnice (přesněji občina<text:note text:id="ftn4" text:note-class="footnote"><text:note-citation>4</text:note-citation><text:note-body><text:p text:style-name="P237">Viz slovníček</text:p></text:note-body></text:note>) byla silně kolektivizovaná a byla vlastně systémem všeobecného pojištění. Půdu rolníci nevlastnili, ovšem panovník jim ji zdarma přenechával k využití – tedy sedláci nemohli půdu ztratit<text:note text:id="ftn5" text:note-class="footnote"><text:note-citation>5</text:note-citation><text:note-body><text:p text:style-name="P61">Longworth P.: Dějiny impérií. Sláva a pád ruských říší; Beta-Dobrovský; 2008</text:p><text:p text:style-name="P238"><text:span text:style-name="T433"><text:tab/></text:span><text:span text:style-name="T1">Payne R., Romanoff N.: Ivan Hrozný; Dobrovský; 2008</text:span></text:p><text:p text:style-name="P40"><text:tab/>Švankmajer M.: Petr I. - Zrození impéria; Lidové noviny 1999</text:p></text:note-body></text:note>. Krátké vegetační období nutilo k maximálnímu nasazení: když byl některý sedlák hotov na svých polích, šel pomoci méně úspěšným sousedům. Tím se zajišťovalo maximálně rychlé provedení zemědělských prací a zvýšení naděje na slušnou úrodu, kterou potom občina disponovala. Krátké vegetační období a nutnost velké intenzity prací zároveň omezovala možnosti investic práce do zvýšení úrodnosti půdy, neboť po skončení vegetačního období půda rychle zamrzá a nedá se na ní až do jarního tání pracovat<text:note text:id="ftn6" text:note-class="footnote"><text:note-citation>6</text:note-citation><text:note-body><text:p text:style-name="P297"><text:span text:style-name="T1">Миронин С.: Воюющие цифры; </text:span><text:span text:style-name="T492">viz </text:span><text:span text:style-name="T334">www.contrtv.ru/common/2505/ </text:span><text:span text:style-name="T9">(</text:span><text:span text:style-name="T492">také </text:span><text:span text:style-name="T494">viz </text:span><text:span text:style-name="T9">zákony Milova, Čajanova </text:span><text:span text:style-name="T396">a Parševa</text:span><text:span text:style-name="T9">)</text:span></text:p></text:note-body></text:note>.</text:p>

Ne, že bych to považoval za zcela ideální, ale zrychlení načítání a ukládání je snad o řád a toho balastu docela dost vypadlo.

majtas.d, neutr: Toho nadbytku stylů jsem si všiml již dříve a vlastně nevím, jak se jakoby duplicitní, nebo/i vnořené styly vzájemně nahrazují(?). Ale asi toho už takto nechám. Opravdu se s tím takto dělá podstatně líp.

Offline

Zápatí