Fórum pro uživatele kancelářského balíku OpenOffice | LibreOffice
 

#1 24. 6. 2014 21:38:05

Xanteus
Člen
Registrace: 3. 6. 2014
Příspěvků: 20

Dá sa hromadne extrahovať text z poškodených odt.

Chcem sa opýtať či sa dá hromadne extrahovať text z poškodených odt. souboru? A nepoznáte program,ktorý by to urobil za mňa rýchlo a jednoducho?

Offline

#2 25. 6. 2014 06:33:01

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 2,658

Re: Dá sa hromadne extrahovať text z poškodených odt.

Podívejte se prosím sem Problém uživatele Lenka. Vím, že řešíte poněkud jiný problém. Jde stále zřejmě o toto původní téma : Poškozené soubory.odt, a také velice pravděpodobně s návazností na Odkazy v Calcu.
     Chápu Váš problém původně popsaný takto :
"Obnovilo mi viac ako 8000 súborov väčšinou duplicitných názvov. Väčšina po otvorení ukazuje iba potrebu nastaviť kódovanie ale pri nastavení štandardu windows-1280 sa mi zobrazí iba nezmysli v symboloch a znakoch. Šlo by takéto súbory previesť zasa na text? Ďalším problémom je že súbory,ktoré aj zobrazujú miniatúru sú len zriedkakedy čitateľné. Naopak zo súbormi bez miniatúry je to 30% na 70%. Väčšina súborov vyžaduje nastavenie kódovania ale asi 30% súborov má možnosť "opraviť" po ktorej sa dá z nich separovať text a iné data"


      Část popisu odpovídá tomu, co popisuje Lenka, ale to asi nebude ono. Chyba vznikla pravděpodobně použitím (nevědomě - nejspíš jako chyba) nesprávného importního filtru. Těžko je najít správný postup. Vámi postnutý soubor jsem testoval, ale jednoznačné řešení jsem nenašel. Přes to popíšu něco jako možnosti. Jde jednak o možné příčiny vzniku zřejmě různých projevů (různých chyb) a také možné řešení v poměrně krátké budoucnosti. Tím začnu.


      V současné době pracuji dost intenzivně na rozšíření pro Calc, které ale umí obsloužit i soubory Writer a v budoucnu možná i Impress, nebo Draw. Je to "robot" zaměřený zejména na dávkové zpracování úloh spojených s různým ukládáním do vestavěných exportních formátů (šablony, dokumenty OOo, nebo totéž pro MS Windows a podobně - je jich kolem 10-ti, ale je to různé pro AOO a LO. Dále do html, pdf, plain text, nebo možná i obrázkový formát jako verze pro elektronickou poštu - buď přímo, nebo jen jako přílohy. Rozšíření zatím jen ukládá, ale neodesílá. To má různé problémy (příčiny zejména na mojí straně) a snad to také dodělám jako podobu hromadné korespondence. Tedy na jedno kliknutí zpracovat i tisíce jednotlivýh úloh a odeslat. Zatím to jde jen uložit jako "něco".
     Rozšíčení se skládá z různých "modulů" a jedním z nich je také "Iterátor". Je to univerzální a za "běhu řiditelný opakovač úloh". Ten už má možnost například každý z těch Vašich 8000 souborů jednotlivě načíst a uložit například v různých formátech.
     Mám zatím ale problém ukládat pod různým kódovacími stránkami (to řeším zatím jen jako pokusy - použil jsem ten Váš soubor jako vzor určitého typu úloh na které bude přidána do rozšíření šablona). Jde o to, že podobných úloh bude více a pro nejčastější vytvořím šablony - zatím mám asi 2 z 5-ti o kterých uvažuji. Šablony pracují jen pod knihovnou Iterátoru. Ten se může libovolně konfigurovat. To bude pro běžného uživatele velký problém. Proto šablona, která už bude mít konfiguraci hotovou. Mám hotový modul pro lámání zapomenutých hesel a ukládání souborů pod hesly nebo také s jinými ochrannými prvky.
     Další problém spojený s tím Vaším popisem je to, že sice můžu uložit do různých adresářů různé kopie (například adresáře založené pod názvem souboru, ale v každém jiný formát toho jediného původního ap), ale pak si s tím jen těžko poradím jako člověk.
     Koncepční problém je v tom, že zřejmě nejde o jediný typ chyby. Takže si představte těch Vašich 8000 souborů automaticky vygenerovaných do různých adresářů (například zjistíte 4 typy chyb). Tedy 4 různé adresáře - v každém jiný postup zpracování podle typu chyb. Tedy celkem 32.000 souborů a prakticky každý budete muset otevřít a posoudit, zda je problém vyřešen, nebo ne. Nenapadá mne ani možnost správnou volbu ověřit automaticky. Pak by mohlo být těch 8000 souborů v jediném adresáři, ale i tak by se to muselo po jednom otevřít a ověřit.


     Příčin proč máte takové množství chyb je jistě více. Nebude to jen jediná příčina. To lze snadno dovodit z toho, že se naráz pokazilo 8000 souborů. Stalo se něco, co se nejprve jako chyba neukazovalo.
     V adresáři zůstaly zapomenuté kopie souborů z různých dob. Nejspíš se sekly při práci někdy v dávné minulosti - (OOo spadlo) a k obnově nedošlo. Například proto, že ji uživatel odmítl, nebo uložil pod jiným jménem, nainstalovala se novější verze, která starou kopii neobnovila a jiné podobné "špeky". Takové "mrtvoly" mám v počítači také přestože dbám na to, aby se každý takový případ obnovil. Je možné, že toto vzniká například používáním souběžně AOO a LO, nebo po přeinstalování - ale podstatu neznám. Vím jen, že se to běžně děje.
     Dobrá zpráva je to, že tyto kopie lze úspěšně otevřít a uložit pod původním názvem (například v jiném adresáři ap). To je ale jen jeden typ "chyby", ale jde spíš o výhodu nežli problém.
     Špatná zpráva je pravděpodobnost, že "bezchybně" tyto staré zálohy možná půjdou otevřít jen v původní verzi ve které byly vytvořeny. LO už například nepodporuje původní formáty verze OOo 1.1. Vzpomínám si, že při vývoji nebyl vždy korektní import starších verzí. Problém lze asi čekat na souborech vytvořených před rozdělením OOo (na AOO a LO). Jak je na tom AOO je poměrně sporné. Vývoj je pod určitou pokličkou. V každém případě se o vlastnostech AOO ví mnohem méně, nežli o LO.


      Další příčinou může být skutečnost, že původní soubory byly pod nějakým typem hesla. V průběhu času se to několikrát změnilo. Nepochybuji, že mimo toho různého šifrování jsou původní hesla ztracena.


      Další pravděpodobný problém je v možnosti, že původní soubory měly vybavení maker před spuštěním, nebo v nějaké fázi spouštění. Tedy nastal stav podobný jako když je soubor zaheslován.
      Pravděpodobnější je ale možnost, že byl tento soubor svázán jako DDE, nebo OLE s jiným souborem, který samozřejmě také nelze otevřít. K tomu si přičtěte alternativu, že s původními soubory už neumí nové formáty plnohodnotně (nebo vůbec) pracovat.


      Je možné, že původní práce byly prováděny pod jiným operačním souborem. Možná ho ještě máte k dispozici. Chtělo by to otestovat na něm.


      Nakonec mne napadá, že se možná objevila chyba, kterou jsme sice nevyřešili, ale odhalili její pravděpodobný původ. - Vestavěná možnost používat asijské jazyky překódovala při otevírání všechny ODF dokumenty. Došlo k tomu zřejmě otevřením nějakého zavirovaného, nebo nesprávně implementovaného (asociovaného) souboru. Mohla to být i webová stránka.
      Tento problém s jinou podobou filtru je pravděpodobně příčinou selhání které popisujete jako "naráz překódovaných souborů." No a pak se k tomu přičetly ty ostatní vroubky z minulosti. Není to jednoduché určit koncepci co a jak testovat, nebo testovat nejdříve to, či ono.


      Až bude hotové rozšíření, mělo by to jít otestovat mnohem snadněji, a následně vše opravit podle zjištěného optimálního postupu.


      Na začátek bych doporučil toto :
1. - Odinstalujte všechny distribuce OOo. Tedy tak aby v počítači nezůstaly žádné verze AOO, ani LO. Pokud tam máte ještě nějaké staré instalace (někde schované, a víte, že to na nich chodilo - například instalační balíčky), zazálohujte je a pak smažte.
2. - Po odinstalování vstupte do svého profilu kde jsou uložena všechna nastavení a smažte bez milosti složku s těmito - tam je pravděpodobně chyba, která to způsobila. Pokud se to neodinstaluje zde, převezme to i nová a každá jiná instalace OOo. Popis jak se to dělá je rozveden několikrát ve starších příspěvcích fóra (použijte kartu hledání pokud Vám nepomůže následující popis pro Windows XP).
    Vyhledat všechny složky s obsahem /Document and Setings/jméno profilu/Data aplikací/OpenOffice (také LibreOffice)/4/(nebo i /3/, či /2/ jsou li tam a tyto smazat. Je možné smazat celý adresář OpenOffice i Libre office. Stejně budete muset spustit novou instalaci. Tehdy to pomohlo.
    Pokud máte starou instalaci pod kterou to chodilo, nebo víte která to byla (najdete ji na internetu) a nainstalujete. Měly by se normálně všechny soubory otevřít tak jak to chodilo.
    Následně přeinstalovat na nejnovější verzi.
Takže doporučuji nejprve laborovat s původním operačním systémem, následně s původními verzemi OOo a pak popřípadě vyčkat až dodělám rozšíření.
    Zatím dělám různé "vychytávky" aby s Iterátorem uměli pracovat i méně zdatní uživatelé, tedy zejména různá makra, která je možné pomocí iterátoru za běhu spouštět, šablony pro speciální a časté operace a tak podobně.
    Když byste pospíchal, tak udělám šablonu podle toho, co byste potřeboval a pošlu nehotové rozšíření (ale s funkční šablonou). Jsem si poměrně jistý, že problém vyřešíte z větší části důsledným odinstalováním. Alespoň to překódování.


Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte tak orientaci na fóru při vyhledávání řešení problémů
JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#3 25. 6. 2014 09:48:48

Xanteus
Člen
Registrace: 3. 6. 2014
Příspěvků: 20

Re: Dá sa hromadne extrahovať text z poškodených odt.

Takže zmazal som Apache Openoffice 4.1.0 a zmazal som i LibreOffice. Z data aplikácii som odstránil priečinky openoffice i libreoffice a openoffice2. Reštartoval som počítač. Potom som nainštaloval openoffice 2.4.0 za celú históriu počítača som používal iba túto verziu. Lenže súbory žiadajú kódovanie i po tomto.

Offline

#4 25. 6. 2014 10:20:49

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 2,658

Re: Dá sa hromadne extrahovať text z poškodených odt.

A kolik jste vyzkoušel souborů? problém nemusí být u těch, které jste před tím neotevíral. Naopak ty které jste zkoušel upravit mohou být poškozené právě tím otevřením.
    Nezdá se mi, že se všechno naráz změnilo a nyní to nejde i po úplném odstranění. Není možné, že v počítači je víc profilů a některý má stále původní nastavení - hlavně těch konfiguračních souborů"
    Nemáte náhodou ještě instalace někde na síti, nebo na jiném disku? Pokud došlo ke změně kódování je možné, že tam stále ten důvod je. Můře to být uložená html stránka.
    Možná by pomohlo přestavět nastavení vše na implicitní angličtinu. Odtud by se mohlo kódování načíst a pak uvidíte jaké je. Myslím, že byste to měl umět - Nástroje, jazykové nastavení. Vše na angličtinu.
    Nemáte náhodou povolené prohlížení v browseru? Nebo nejste na tom debilním cloudu od Google který užívá OOXML - mají víc možností jako APP?
    Nemáte náhodou někde vypálené, nebo jinak zakonzervované zálohy? To je porce a nechce se mi věřit, že byste měl jenom zálohy na vlastním HDD.


Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte tak orientaci na fóru při vyhledávání řešení problémů
JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#5 25. 6. 2014 10:54:10

Xanteus
Člen
Registrace: 3. 6. 2014
Příspěvků: 20

Re: Dá sa hromadne extrahovať text z poškodených odt.

Problémom je problém postihol i súbory na USB vyššie verzie často kopírujem na disk. Data aplikáciie som zmazal zo všetkých troch užívateľských účtov viac ich nieje. Google CHrome nepoužívam a ani google office nie. Iba ak v škole ale nič neukaladám na svoj pc. A data z openoffice som zmazal aj z Program Files ručne. Na sieti nemám nič stránky programujem zásadne v inom programe. Všimol som si že mi zmizla ikonka panela jazykov po odinštalovaní openoffice 4.1.0. a nainštalovaní staršej verzie. Skúšal som už otextované textové súbory a fungujú aj v starom programe. Všetko je na deflautnej hodnote English(USA). Opravené súbory stále vyžadujú opravu a väčšina nastavenie kódovania. Súbory,ktoré som vytvoril v programe openoffice 4.1.0 a prekopíroval doň obsah z poškodených súborov ale fungujú bezproblémovo.

Editoval Xanteus (25. 6. 2014 11:04:01)

Offline

#6 25. 6. 2014 11:19:03

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 2,658

Re: Dá sa hromadne extrahovať text z poškodených odt.

Nevím co tím myslíte "Všimol som si že mi zmizla ikonka panela jazykov po odinštalovaní openoffice 4.1.0. a nainštalovaní staršej verzie". V OOo je pouze ikona pro opravy pravopisu, nebo panel s vlastnostmi písma. Existuje nabídka "Nástroje" > "Jazyk", ale aby to byla ikona - to by se muselo ručně připravit a pak by nebylo divné, že po přeinstalování to tam není.
     Nemyslíte náhodou přepínání klávesnice? Jaký používáte operační systém? Není to náhodou Ubuntu? nebo jiný Linux - tam by takhle přepínání jazyků mohlo vypadat (Ubuntu určitě).
     Nedovedu si představit, že se "pokazily" soubory, které nebyly otevřené. To může být jen na úrovni OS (operačního systému).
     Pravdou je, že já používám dva systémy XP a Ubuntu. XP vykazují nějaké divné chování, ale právě toho jsem se bál - domnívám se, že Microsoft své staré OS mírně sabotuje, aby jsme byli nuceni koupit nové.


     Nedělal jste nějaké pokusy s XML filtry?


Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte tak orientaci na fóru při vyhledávání řešení problémů
JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#7 25. 6. 2014 11:43:41

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 2,658

Re: Dá sa hromadne extrahovať text z poškodených odt.

Ještě mne něco napadlo. Nevím sice co máte nyní nainstalováno. Ale stálo by za to odstranit všechny konkrétní soubory tak aby tam nebyl žádný soubor ODF (jen samotný balík AOO, nebo LO a nejlépe nejnovější).
     Následně stáhnout například tady z fóra nějaký úplně cizí, ale český  lépe slovenský soubor writeru (aby měl správné kódování). Pokusit se ho otevřít. Jestli se to povede pak je to zřejmě problém té flešky, pokus se to nepovede, je to v operačním systému.


Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte tak orientaci na fóru při vyhledávání řešení problémů
JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#8 25. 6. 2014 13:12:40

Xanteus
Člen
Registrace: 3. 6. 2014
Příspěvků: 20

Re: Dá sa hromadne extrahovať text z poškodených odt.

Ale ja som nikdy nepoužíval .odf skúšal som hľadať na systémovom i datovom disku ale nikde sa taký súbor nenáchadza. Všetky iba .ods alebo .odt Dáte mi link na nejaký taký súbor writel?

Offline

#9 25. 6. 2014 13:52:12

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 2,658

Re: Dá sa hromadne extrahovať text z poškodených odt.

Asi nejlepší je Ulož.to Odkaz vede na hlavní stránku, kde do vyhledávání zadáte *.odt a objeví se jich hned několik různých. Já jsem se hned napoprvé strefil do dokumentu, který obsahoval jen obrázek. Vyberte si nejlépe jak nejstarší, tak nejnovější a otestujte.
     K tomu ODF - je to zkratka pro OpenDocumentFormat a je to kategorie do které patří jak odt, tak ods a další Open Dokumenty.


Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte tak orientaci na fóru při vyhledávání řešení problémů
JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#10 25. 6. 2014 16:17:00

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 2,658

Re: Dá sa hromadne extrahovať text z poškodených odt.

Ještě jednou jsem ty Vaše soubory prohlížel. Vám se podařilo vytvořit složku z toho zipu tak jak jste to uváděl??? Já jsem na to šel Hexaeditorem. Obsah to má. Jenomže když dám rozpakovat ZIP do složky tak není co extrahovat.
     Překódoval jsem to v hexaeditoru - což jsem před tím neudělal. Dělám to v PsPadu. Je tam standardní konverze Windovs 1250, UTF8, a také další české formáty (UTF8 je standard pro OOo) a v něm ty soubory jsou (většinou archaické pro Pascal ap. Žádný z nich to nepřeformátuje - výsledek je stejný jako když se otevírá kódování z Writeru. Tam je nabídek pro východní evropu hodně. Žádný z nich to neotevřel jako čitelný text.
     Není možné, že ty soubory jsou pod nějakou kompresí nebo šifrováním? To by bylo dobré vysvětlení. Ono stačí abyste třeba jen testoval nástroje pro šifrování - je jich dost. Umí například stavět virtuální disky do kterých zmačknou vše z reálného disku. Takhle by to asi vypadalo před dekompresí. Čitelné obsahy složek, ale nepřístupné obsahy. Běžně se uřívá komprese úložišť - a to i v běřných operačních systémech - nemohlo to být někde nastaveno třeba jako automatická funkce? Stačilo by, abyste povolil tuto funkci i pro přenosná zařízení a malér je na střeše.


Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte tak orientaci na fóru při vyhledávání řešení problémů
JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

#11 25. 6. 2014 18:12:00

Xanteus
Člen
Registrace: 3. 6. 2014
Příspěvků: 20

Re: Dá sa hromadne extrahovať text z poškodených odt.

Nič také nepoužívam. Tri súbory .odt boli iba zapakované v štandardnom komprimovanom priečinku. Čo sa týka odt. souboru tak som spomínal že sa po zmene koncovky nedajú väčšinou otvoriť. Asi 6% sa zobrazuje normálne a normálne fungujú. Zvišných 10% sa dá opraviť. Ostatné sú takto kódované a po otvorení majú viac ako 600 až 700 strán tých hexa nezmyslov. Fakticky nikdy som nenapísal text takého rozsahu môj najväčší text mal 64 strán. Nie 600 ani 700 strán. Posielam tri typy súborov,ktoré mi po bugu ostali. Jeden týp vyšiel bez poškodenia,jeden sa dá opraviť no druhy vyžaduje kódovanie.

http://xanteus.nekonecne.net/toto_nieje_odt.zip

Som si vedomí že súbory vyžadujúce kódovanie sa opraviť nedajú. Mne ide o to hromadne ich nájsť a vymazať. Ostatné súbory už iba preberiem nepotrebné vymažem a dôležité prekopírujem do nových súborov.

Editoval Xanteus (25. 6. 2014 18:22:02)

Offline

#12 14. 7. 2014 22:49:04

Xanteus
Člen
Registrace: 3. 6. 2014
Příspěvků: 20

Re: Dá sa hromadne extrahovať text z poškodených odt.

Ahoj,chcem sa opýtať či je takáto chyba častá. Lebo v minulosti som sa totalne zosmiešnil v jednom fórku,keď som myslel že za miznutie mojich textov je zodpovedný Hacker a ona to bola táto hlúpa chyba. Chcem sa pre budúcnosť vyvarovať tejto chybe. Pomohlo by zálohovanie vo formáte inom než .odt napríklad PDF?

Offline

#13 15. 7. 2014 12:12:32

lp.
Člen
Registrace: 24. 9. 2009
Příspěvků: 782

Re: Dá sa hromadne extrahovať text z poškodených odt.

pdf se hodí pro konzervaci textu. Pokud se jedná o finální dokument pak se dá použít.

Ale žádný formát není imuní proti výmazu, přepisu, poškození nosiče, ...

Offline

#14 24. 7. 2014 04:45:38

neutr
Člen
Registrace: 8. 3. 2007
Příspěvků: 2,658

Re: Dá sa hromadne extrahovať text z poškodených odt.

Našel jsem na netu tohle :
Obnova poškozených souborů ODT
Bohu žel je to za peníze, ale je tam možnost otestovat. Snad to pomůže
Vlastní nástroj Recovery

Editoval neutr (24. 7. 2014 04:48:04)


Pokud je Váš problém vyřešen, označte prosím svůj příspěvek za "VYŘEŠENÝ"
Zlepšíte tak orientaci na fóru při vyhledávání řešení problémů
JAK OZNAČIT TÉMA ZA VYŘEŠENÉ

Offline

Zápatí