neutr: v ukázce chybí zapsat proměnná sLat :-), jinak to funguje výborně.
GetGeoDataOSM = " Longitude: " & sLon & " Latitude: " & sLat
Sice mě napadlo zkusit tu komunikaci s wikidaty více zautomatizovat, ale poté co jsem zjistil, že to povolí standartním způsobem (url a v ní hash se jmény a hodnotami pro inputboxy čili metoda GET html formulářů) vyplnit jen první inputbox, tak jsem toho nechal. Zkoušel jsem vypnout javascript a taky to nešlo, ty inputboxy co se nevyplní mají nějaké zakazovací parametry (už jsem ani nezjišťoval který z těch parametrů to je) a tipuji, že wikiajťáci to mají tak udělané primárně kvůli robotům (ale možná i kvůli tomu jejich zvláštnímu našeptávání dat do oněch inputboxů – je tam třeba 'e.g. noun' čili do češtiny 'např. podstatné jméno', ale když jsem tam to 'noun' začal psát, tak mi to začalo našeptávat něco se státem Kamerun, což jsem u druhu slova věru nečekal, fakt zvláštní to mají). Možná kdyby všechny inputboxy povolili, tak by tam museli dát nějakou captchu, což by jistě štvalo víc. A na to abych zkoušel ty inputboxy povolit pro zadávání z hashe … kdepak. Html resp. javascript jsem už pěkných pár let nedělal a jenom pro lepší obsluhu wikidat se do toho pouštět fakt nechci. Napadlo mě sice, že v krajním případě by bylo možné vytvořit třeba i doplněk pro prohlížeč, který by k načtený stránce pustil třeba ještě jeden odblokovávací javascript (skriptování pro doplňky Seamonkey či jak se to ve Firefoxu jmenuje z hlediska rychlé naučitelnosti fakt nevypadá nijak složitě) … ale fakt ne :-). A komplet síťový I/O přenos jak ukázal neutr dělat nechci (i kdyby to šlo), neboť nevěřím tomu, že by to wikiajťáci za čas nezměnili a nemusel bych se s tím babrat nějak víc složitě než jednoduše znova.
Já ani nemám internet a většinou zajdu ven k sousedům na wifi, takže nandat slova do tabulky v Calcu a pak to pustit najednou by bylo výhodný, ale mě to zadávání slovíček nebaví. Dokonce si myslím, že by to šlo udělat i lépe :-), byť v současné době to "lépe" nejsem schopen vytvořit (rozvedu to dále). Plus beztak vše co začíná na wiki- (hlavně -pedie) nemám rád, je to v podstatě moc složitě naprogramovaný a přitom pro uživatele dost primitivní, žádný pořádný vychytávky, jen takovej podle mě docela tupej ošklivej nezáživnej systém, co je propagován s přehnanou honosností, kterou ale podle mého názoru fakt nemá. Mnoho programátorů si s tím za ty roky muselo dát strašně moc práce [a kolik práce jim asi třeba zabralo, aby to zmrvilo CSS když se dá v prohlížeči "Uložit stránku", protože prostě internet nedostupnej a tak je něco dobrý mít uložený i oflajn]. Je to podle mě už v podstatě taková příliš zkostnatělá instituce, která již nikdy ladně a zábavněji fungovat nebude. Ale mnozí lidé to prostě využívají a jsou za to rádi a výstupy z toho jsou díky těm lidem mnohdy dobré. A pokud jsou dobré některé výstupy, mohou se někdy hodit pro nějaký specifický projekt s mnohem větším a sofistikovanějším rozsahem.
Nicméně je to v podstatě jakási varianta CKL (centrální kepl lidstva) a skutečně se takovýmito výtvory nehodlám zabývat. Krásný příklad CKL je na té neutrově ukázce. Sice je "pěkný" že z nějaký velký databáze jdou zadáčo vysosat potřebný výsledky, ale když ta centrální databáze spadne, tak maj všichni co to používaj smůlu. Kdyby to bylo možný celý si stáhnout a používat v klidu oflajn, bylo by to o něčem jiném (technické detaily třeba ohledně velikosti databáze pro stažení atd. nebudu rozebírat).
O co jsem se však snažil usilovně bylo to, aby to fungovalo z Writeru na každé tam podtržené slovo, a to ať je v libovolném "objektu". To se mi myslím docela povedlo, neboť nefunguje to jen z těch komentářů a částečná funkčnost je pouze z objektů kreseb a textového rámce. Nejsem však schopen říci, zda-li to co je v tom ukázkovém odt jsou skutečně všechny objekty které by kontrola pravopisu podtrhávala, ale používaná většina to pro většinu uživatelů jistě bude :-).
Pro mě by byla zajímavá spíše právě ta oflajn část (věren poctivému desktopu a nikoliv uchvácen zběsilým a mnohdy nesmyslným činnostem onlajn) a to jak makrem detekovat pozici viditelného kurzoru v těch objektech kresby nebo jak makrem vůbec detekovat ty komentáře. Ale tyhle funkce třeba ani nemusí být zahrnuty v současném API, takže to možná makry ani nejde. Na netu jsem hledal dost, ale jak Gůgl krouhnul počet vyhledaných výsledků na 200 (páč víc výsledků prej skoro nikdo nevyužíval), tak je to s ním od desíti k pěti (ale spíše ke třem a navíc bez studu to jistě zadegradují až na dva či jedna) a řadí do výsledků čím dál víc kravin jen nejspíš proto, aby měl příjmy z reklamy (konspirace o masivní debilizaci lidstva ku prospěchu vládnoucích elit jistě nemá cenu rozvíjet). Zlatej starej dobrej obyčejnej fulltext, to se slova nechala postupně vlastně pěkně odfiltrovávat a kolikrát se šlo (byť třeba i po pár desítkách minut) proklikat k nějakýmu zapadlýmu webu kde se to třeba i vyskytlo – kdysi jsem třeba po nějakém tom úmorném zpřesňování vyhledávané fráze na nějaké zapadlé stránce (snad až někde na 600-tý nebo ještě větší pozici vyhledávání) našel slovní komentář k tomu, jak v Libre při vytváření zip souboru makrem nemít do zipu vložený soubor manifest a jakpak jsem za to byl rád, když jsem to podle toho naprogramoval a zafachalo :-). Ale takhle to do vyhledávání sune blbosti a vůbec nemá cenu se snažit koukat ani třeba na 50 výsledků – Gůgl z toho asi za čas vyvodí, že lidi jsou ještě blbější a tak vypíše těch výsledků natvrdo třeba jen 10; i když problém není v lidech ale v tom, že to gůgloni nejsou schopný udělat tak, aby to mnohem víc lidí bavilo používat i pro specifičtější varianty. A dle mého názoru to nikdy schopněji udělat ani nemohou, neboť jim na to prostě nepřijdou nápady – není to totiž "vyhledávač" ale jen mašina na peníze. Takže mohli vymyslet tak akorát něco co by jim zvedlo zisk, ale to je celý, podle mě si tím sešupem dolů který v "kvalitě vyhledávání" předvádí nabijí a rozbijí se.
Lepší než dělat nějakou vychytanou komunikaci s wikidaty by podle mě bylo dělat to celý v Calcu (kdyby někdo trval na xml zápise tak by si mohl rozzipovat ods soubor a jistě by si labužil :-)), ale nemám nyní čas ani chuť dělat ovládání/přepracovávání/zpracovávání pro Calc (a neumím ani natolik s objekty, aby to bylo fakt dobře naprogramované a nemusel jsem nějaký kód po nějaké době vehementně přepisovat). Raději se budu dále věnovat kutění svého dosavadního superbastlu – "komplexní" transkripce arabštiny. Tohle by bylo ještě obsáhlejší a dva takový projekty paralelně schopen dělat nejsem a ani nechci. V tom zpracovávání arabštiny už jsem tak daleko, že jsem se musel dát i na vytváření vlastního arabského fontu a je to tedy fakt "síla" :-) (jaké "podivuhodné" záležitosti je třeba řešit při vytváření ar fontu je pro zajímavost na konci za *****).
Nicméně dále k češtině. Docela jsem projel ty diplomky https://github.com/plin/slovnik (ty české, ta slovenská mě nebavila a jaxi-intuitivně při prvním shlédnutí jsem ji pro svou uvažovanou problematiku vyhodnotil jako nyní nepotřebnou) a fakt musím uznat, že si s tím dali strašně moc velmi kvalitní práce s velmi dobrým výsledkem. 58 vzorů pro podstatná jména a 36 pro slovesa a i nějak zpracovaná přídavná jména. To vypadá fakt dobře. Mně ještě napadlo zkusit vytvořit regulární výrazy pro správné slabikování slov a taky se dost vyřádit (automatizovat to) s předponama a příponama :-). Zkusit automatizovat i zdrobněliny a stupňování přídavných jmen či příslovců. A též začít nabízet uživateli možnost provazovat slova od jednoho "významu" – např. podst. jm. PSANÍ či PÍSMO je se slovesem PSÁT. Nebo přídavné jméno HEZKÝ je s podstatným HEZOUN či příslovcem HEZKY. Samozřejmě k tomu možnost označit k sobě synonyma a též opozita (MALÝ/VELKÝ, HODNÝ/ZLÝ atd.). Pak by to bylo mnohem zajímavější, zadat třeba podstatné jméno v 1.p.j.č. a zbytek by do kolonek vyplnil kepl, plus mít pro uživatele možnost vybrat správné předpony a hnedle by vznikla další slova, taky k tomu zdrobněliny a správná rozdělení slov a uživatel by to hlavně zkontroloval případně opravil chyby. A to by se uložilo třeba do nové tabulky v Calcu, kterou by již nebylo problém připojit k centrální tabulce. Prostě to uživateli naservírovat fakt komplexní – no nebyl by krásný třeba 100MB .ods soubor s "kompletní" databází češtiny :-)? Od verze 6.3 je prej Libre v načítání zase rychlejší :-). Až budu mít chuť tak zase nainstalím 6.3 a rychlost zkusím, mám na to několik pěkných "adeptů" (odt souborů) s arabštinou a vektorama z Draw :-).
Ale uvědomil jsem si mnohem víc, že ten slovník češtiny je strašně obsáhlá záležitost. Byly tam zmíněny i exotické varianty třeba na slovech Seneca nebo upgrade. První jakožto příjmení nějakého starověkého hlavouna (a to je tak celý co o tom vím a víc mě fakt nezajímá) a druhé anglické. Pro mě by bylo přípustné psát to ryze česky tedy jako Seneka či apgrejd, ale abych se zabýval vyjímkami odporujícími českému zápisu a vedl třeba dohady s jinými, že to zvyjímkované je prý zažité/prospěšné/blběVypadajícíVčeskémZápiseAprotoRadějiVanglině apod., to fakt ne. Za mně by to bylo nejspíš jednoznačné → jak to není v českém zápise, nebudu to tam dávat (neboť by mi za chvíli z algoritmování cizojazyčných vyjímek nejspíš hráblo, páč by varianty pořád jenom přibývaly). A s tím odmítáním cizopsaných vyjímek bych počítám narážel (byť možná nejen s tím).
Pro komplexitu/kompletnost hodně hodně hodně programování a třeba i hodně hodně hodně vysvětlování důvodů proč je co a jak naprogramováno a proč co a jak není zahrnováno … a vypadá to, že to není běh na dlouhou trať, ale spíš (ú)let na dlouhou trať :-). A žiji jen jednou + zdravotní problémy = a nemůžu a ani nechci se nyní dát do tak velkého projektu. Ale rozhodně již nyní zpraco(vá)vané části mohou být skvělým "materiálem" pro případnou další "lepší" část a poté co do toho vidím ještě hlouběji, mohu jen popřát zdárný kutilský úspěch s každým vyvíjeným bastlem :-).
Ještě zmínka k těm licencím. Ta licence CC0 jakou má i nový vytvářený slovník je možná tou nejinteligentnější licencí, kterou jsem viděl. Ukazuje se, že ty tzv. "svobodné licence" nějak vůbec nejsou namířeny proti komerčnímu zneužívání jak to o nich bývá avizováno, ale že v podstatě akorát pálí do řad jiných svobodných tvůrců. Velké firmy si všechno "svobodně" licencované i natvrdo patentované beztak využijí/zneužijí po svém a někdo, kdo na něco dal nějakou tzv. "svobodnou" licenci, se pak mnohdy chová jak nějaký fanatický despota co chce něco nařizovat snad všem ostatním na planetě a snad za každou cenu.
******************
Fakt jsem otestoval několik desítek ar fontů a bez chyb (někdy tak závažných jako např. chybějící písmeno, jako kdyby v cs fontu chybělo třeba c) není pro Koránskou arabštinu ani jeden (v těch "nejlepších" fontech bývá tak kolem 10 chyb); moderní spisovná ar je na tom lépe neb má jen dvě ligatury (složeniny z jiných znaků) a nemá ani tolik "znamének" (krátkých samohlásek + specifických určujících znaků jež se píší jako samohlásky nad/pod písmeno), avšak většinou fonty tak jako tak haprují, neb některé znaky které se v arabštině běžně používají nejenže nejsou na klávesnici, ale dvě ligatury (ve spisovné ar povinné!) z nich pak nejsou ani v definici Unicode :-). Je to jako kdyby v češtině třeba Ž a Ř nebyly na klávesnici (a třeba Ř by nebylo možné napsat stylem háček+písmeno, ale pouze vložit ze speciálních znaků) a kombinace ŽŘ jež by vytvářela nějaký specifický grafém (ligaturu) by nebyla v definici Unicode, ačkoliv by se to takto zcela běžně používalo již několik století → tak se to s arabštinou v keplech má :-). Psal jsem též třeba chyby autorům fontu Scheherazade (je svobodný a v současnosti jeden z nejlepších) a odpověď ve stylu … již na fontu v podstatě neděláme, příští rok bychom snad něco mohli opravit, ale jelikož něco je v definicích Unicode nedoporučováno tak to beztak nezahrneme … takže prý něco někde není v ňáký haprující definici … fakt teda důvod důvodů, tohle fakt českýmu kutilovi nikdy nemůže vyhovovat; byť řešit se to prej dá když se tam navíc vloží nulová nedělitelná mezera – opět super, tu spolehlivě umívá spíše jen pár programů :-).
Další výbornou věcí je metrika ar fontů. Jak se píší "znaménka" nad a pod písmena, tak v drtivé většině fontů to dopadne tak, že něco již zasáhne na jiné řádky a tak se to blbě vykresluje, např. je to odseknuto. Správnou metriku mívá spíše méně ar fontů než více a převážně ty majkrosoftí (zmíněný Scheherazade ji má správně). Za zmínku stojí i "vnitřní metrika" čili jak jsou v různých kombinacích písmenka a znaménka postavená vůči sobě navzájem a tam bývají nedostatky snad vždy – např. se v některých případech znaménka prolínají či dotýkají jiného písmene apod.
No a třetí věcí kterou se nezabýval žádný tvůrce ar fontu je optimalizace/redukce bodů na samotných křivkách ze kterých jsou vytvořena písmena. FontForge redukuje nadbytečný počet bodů perfektně aniž by křivku jakkoliv zdeformoval (i když to pak někdy při validaci hází nějaký chyby z důvodu nějakých pošahaných definic od Adobe či co, ale mě Adobe nezajímá a v Libre mi to jede jak potřebuji). Inkscape jí je schopen zkrouhnout ještě lépe, ale dělá už nějaké deformace a nepřišel jsme na to, jestli to v něm jde vůbec nastavit, aby fakt nedeformoval (připadá mi že ne).
Ale ještě to z hlediska práce s fonty pokračuje, neb nadefinovat ty potřebné kroky pro ne-unicode arabské ligatury jen tak nějaký program na fonty neumí. FontForge který používám sice ano, ale narazil jsem na jiné bugy. V jednom specifickém druhu operace natvrdo spadne a prostě v něm potřebné nezadám; a jednou nezahrne několikakrokové zpracování ale udělá pouze první krok a nazdar (což se ale dá obejít uložením definic do txt souboru, napsáním dalších kroků v PSPadu a načtením to z txt do FontForge, to již vezme). Pak ještě špatně zobrazuje počáteční/veSlovné/koncové znaky v jednom zobrazovacím okně, ale to je spíš již kosmetická záležitost :-). Takže se asi měsíc chystám sepsat ty bugy v anglině a poslat to autorovi, ale to bych tu anglinu musel mít rád víc než už v podstatě vůbec + musela by mě bavit též víc než už vůbec, pak by mi to šlo nejspíš rychleji :-).