Calc pro analýzu klíčových slov

filius · 10. 4. 2015 04:42:02

Zdravím,
dělám „klíčovku" podle tohoto vzoru: http://vyhledavace.info/clanky/246/klas … ovych-slov , kdy bych chtěl udělat výstup podle kategorií v tomto stylu: https://docs.google.com/spreadsheet/oim … r87bhecz5h. Máte s tímto zkušenost respektive lze to udělat pomocí Calcu, nebo musím výstup z Calcu nahrát na Gdocs/OpenRefine?

Děkuji za rady

neutr · 10. 4. 2015 06:27:29

Pomocí Calcu to samozřejmě dělat lze. Autor článku uvádí, že data lze získat : Z nástroje pro návrh klíčových slov Adwords a z analýzy návštěvnosti Google Analytics lze exportovat CSV/TSV.
Takže CSV načteme do Calcu a je vyhráno. Vím o co jde. Článek jsem si přečetl. Vidím ale určitou problemaziku použití takových dat. Zejména se jedná o 3 skutečnosti. Webovky mohou být nekomerčního charakteru (ale autor chce zvýšit návštěvnost), nebo to jsou komerční stránky - nejspíš eshopy. Tou třetí skutečností je ale umístění ve vyhledavači - nejlépe na přední pozice.
Celý článek je směrován jen do českého prostředí. Proto některé postupy musíme zvažovat specificky. Například není problém prodávat po Evropě, nebo i celém světě přestože web je v čaštině. Byla by to debata na dlouho.
Přidržíme se české komunity. To co autor neuvádí je skutečnost potřeby slovního a větného rozboru. Výběr provádí intuitivně. Další věcí je skutečnost, že dnes lidé zadávají hesla podle "nespisovné češtiny". Jde o zvyk z SMS a CHATů. Dnes možná převládá vyhledávání pomocí mobilních aplikací. Proto si lidé moc nelámou hlavu s diakritikou, fonetickými tvary slov, nebo vynecháním mezer.
Nicméně technicky je postup zřejmě opodstatněný a je na uživateli jaká data k něčemu - nějak použije. Takže nebudu posuzovat co se hodí více pro metainformace stránky a co pro obsahy. Jde zejména o to jak pracují roboty a vyhledavače nejčastěji používané v Česku (Slovensku).

V technice zpracování vidím dost kombinatoriky. Jedná se o kombinace a variace kterými se musí zpracovat jak tvary slov, tak větná skladba. Nikdo se asi nepozastaví, že mezi Metainformacemi budou česky nesmyslné věty, jejich účelem je jediné - zvýšit relevanci výrazu.
Naopak v textech stránek by to správně česky být mělo, jen by prezentovaný výraz měl být pokud možno co nejvíce krát opakován.
Pro účely lokálního vyhledávání (uvnitř stránek) by měly být určeny "bohaté" kategorie, které by měly obsahovat i synonyma a cizojazyčné výrazy.

Takže například preferovaný výraz musí být uveden ve verzích spisovných s možností až několika chyb a spojení (bez mezer) s dalšími slovy - nejčastěji spojkami ap.

Abych to shrnul - řešení pomocí Calcu jde tak, že načtete CSV výstup z Google, nebo jiného zdroje. Pomocí textových funkcí a variací vytvoříte varianty slov a pak pomocí kombinací vytvoříte spojení variantních výrazů (podle toho grafu "objem hledání jednotlivých dimenzí").

filius · 12. 4. 2015 02:02:17

Děkuji Vám za vyčerpávající odpověď. Má klíčovka vypadá zhruba takto: http://s1.postimg.org/ip261i9gf/klicovka.png. Kterých funkcí mám prosím využít pro vytvoření jednotlivých variant slov (skupin - dimenzí) a jejich následné seřazení podle hledanosti?

neutr napsal(a)

Pomocí Calcu to samozřejmě dělat lze. Autor článku uvádí, že data lze získat : Z nástroje pro návrh klíčových slov Adwords a z analýzy návštěvnosti Google Analytics lze exportovat CSV/TSV.
Takže CSV načteme do Calcu a je vyhráno. Vím o co jde. Článek jsem si přečetl. Vidím ale určitou problemaziku použití takových dat. Zejména se jedná o 3 skutečnosti. Webovky mohou být nekomerčního charakteru (ale autor chce zvýšit návštěvnost), nebo to jsou komerční stránky - nejspíš eshopy. Tou třetí skutečností je ale umístění ve vyhledavači - nejlépe na přední pozice.
Celý článek je směrován jen do českého prostředí. Proto některé postupy musíme zvažovat specificky. Například není problém prodávat po Evropě, nebo i celém světě přestože web je v čaštině. Byla by to debata na dlouho.
Přidržíme se české komunity. To co autor neuvádí je skutečnost potřeby slovního a větného rozboru. Výběr provádí intuitivně. Další věcí je skutečnost, že dnes lidé zadávají hesla podle "nespisovné češtiny". Jde o zvyk z SMS a CHATů. Dnes možná převládá vyhledávání pomocí mobilních aplikací. Proto si lidé moc nelámou hlavu s diakritikou, fonetickými tvary slov, nebo vynecháním mezer.
Nicméně technicky je postup zřejmě opodstatněný a je na uživateli jaká data k něčemu - nějak použije. Takže nebudu posuzovat co se hodí více pro metainformace stránky a co pro obsahy. Jde zejména o to jak pracují roboty a vyhledavače nejčastěji používané v Česku (Slovensku).

V technice zpracování vidím dost kombinatoriky. Jedná se o kombinace a variace kterými se musí zpracovat jak tvary slov, tak větná skladba. Nikdo se asi nepozastaví, že mezi Metainformacemi budou česky nesmyslné věty, jejich účelem je jediné - zvýšit relevanci výrazu.
Naopak v textech stránek by to správně česky být mělo, jen by prezentovaný výraz měl být pokud možno co nejvíce krát opakován.
Pro účely lokálního vyhledávání (uvnitř stránek) by měly být určeny "bohaté" kategorie, které by měly obsahovat i synonyma a cizojazyčné výrazy.

Takže například preferovaný výraz musí být uveden ve verzích spisovných s možností až několika chyb a spojení (bez mezer) s dalšími slovy - nejčastěji spojkami ap.

Abych to shrnul - řešení pomocí Calcu jde tak, že načtete CSV výstup z Google, nebo jiného zdroje. Pomocí textových funkcí a variací vytvoříte varianty slov a pak pomocí kombinací vytvoříte spojení variantních výrazů (podle toho grafu "objem hledání jednotlivých dimenzí").

neutr · 12. 4. 2015 07:41:45

Nejprve bych doporučil nástroj Writeru LibreOffice – slovník synonym. Vaši klíčovku bych tímto seznamem prohnal. Následně bych i tento rozšířený seznam prohnal hledáním na adrese ABSynonzma Dalo by se najít asi více internetových slovníků synonym, ale tohle je podle mne jednička a plně vyhovuje.
Příklad Vaše hledání dimenze1 vypadá po projetí slovníkem z Writeru LibreOffice takto :
Oblek oblečení oděv úbor roucho háv …..nalezeno 6 výrazů
bundy …..nalezen 1 výraz
kraťasy …..nalezen 1 výraz
košile …..nalezen 1 výraz
mikiny …..nalezen 1 výraz
pásek opasek řemen pás …..nalezeny 4 výrazy.
V internetovém vyhledávači spustíme již rekurzivní hledání příklad pro první položku :
Oblek … nalezeny 4 ekvivalenty ….. oděv; ústroj; šaty; oblečení
oblečení … nalezeny 4 ekvivalenty ….. oděv; oblek; šaty; odění
oděv … nalezeny 4 ekvivalenty ….. oblek; odění; oblečení; ústroj; šaty; roucho
úbor … nalezen 1 ekvivalent ….. háv
roucho … nalezeny 4 ekvivalenty ….. oděv; háv; ornát; šat
háv … nalezeny 4 ekvivalenty ….. úbor; šat; roucho
Dostaneme množinu 11 výrazů. Kterou bychom měli dále doplnit o další parametry :
háv oblečení oblek odění oděv ornát roucho šat šaty úbor ústroj
Nejdříve se ele podíváme, jestli by nás nenapadlo ještě něco jiného. Nalezené tvary mne inspirují ještě k výrazu „hábit", nebo „hábitus" a nebo „ustrojení". Nyní bychom měli rozšířit o zdrobněliny, nebo také „vypádovat" a udělat množná čísla.
Takže z původních 6-ti výrazů původního jediného pojmu jsme dostali 11, respektive 14. Máme 7 pádů, což odhaduji tak na průměrné 3 tvary základního výrazu. Dostáváme cca 33, respektive 42 tvarů. K tomu nějaké zdrobněliny – řekněme celkem 50 výrazů. Množná čísla – z toho plyne cca 100 výrazů.
Nyní se musíme zabývat výrazy bez diakritiky. Všude, kde se vyskytuje nějaký jeden háček, nebo čárka vzniknou výrazy dva. Všude kde se vyskytují 2 diakritické znaky tak dostaneme 4 výrazy : háv, hav - oblečení, oblecení, obleceni, oblečeni - oblek – odění, odení, odeni, odení – oděv, odev – ornát, ornat – roucho – šat, sat – šaty. Saty, - úbor, ubor, ústroj, ustroj. Celkem 24 výrazů z původních 11-ti.
Takže skromný odhad je 300 výrazů před vsunutím „chyb". Tedy výrazů kde například nějaké písmenko chybí, přebývá a nebo je tam úplně jiné nežli by být mělo. Když zadáme vynechání jednoho některého písmenka ve všech výrazech, tak při průměrném počtu písmen ve výrazu 4 dostaneme počet 300x4. Když bychom udělali plnou substituci některého písmenka za jiné, tak dostaneme na každý 1 tvar (4znaky) 4*30 náhrad (pokud uvažujeme pouze o malých písmenkách, tečce a mezeře). Pokud budeme uvažovat o písmenku navíc, dostaneme 5x30 náhrad. To asi stačí. Celkem : 300 základních výrazů + 1200 výrazů bez některého znaku + 300x120 = 3600 výrazů s jiným písmenkem + 300x150 výrazů se znakem navíc = 4500 výrazů. Celkem tedy asi 300 + 1200 + 3600 + 4500 = 9 400 výrazů – pro jediný původní výraz OBLEČENÍ

Takže jen pro orientaci si přečtěte něco o zdrobnělinách Wikipédie. Zdrobněliny jsou typické například příponami -ka, -ko, -ek, -ík, -inka, -enka, -ečka, -ička, -ul-, -unka, -íček, -ínek, ale existují i v jiných podobách. Příklad : měsíc – měsičkovitá. Také bychom měli zvážit odvozená přídavná jména, nebo příslovce a podobně. Bohu žel na to asi internetový ani jiný nástroj nenajdete.
V Calcu lze řešit náhrady textovými funkcemi. Ale například substituce diakritiky se musí řešit upraveným (strojeným) vzorcem, nebo makrem stejně jako vynechávání či přidávání písmenek. Na to fungují pouze asi moje vzorce. (Něco jsem už zveřejnil jako rozšíření na Apache OpenOffice, ale zatím jen kombinace. Dále budou také variace s opakováním a bez opakování i faktoriál, To budou obsahovat verze 2-4. Zatím Existuje jen Combinatorics-1.0.0 s kombinacemi.)
To co potřebujete je šablona která bude umět vytvořit všechny odvozeniny které bude dobré otestovat v různých vyhledávačích, ale zejména na Seznamu a Google paralelně.
Oč se jedná? Jde o to, že při tisícovkách možností se musí vytvořit také patřičné stránky s „jalovými odkazy". To lze pomocí šablony s generátorem adresářů a stránek snadno. Je to ale zátěž pro hosting. Když zjistíte co upřednostňují vyhledávače, upravíte obsahy tak, abyste se dostali dopředu, ale ne tak, aby prvních 1000 stránek bylo s odkazy na Vás. To by někdo zabrzdil. Takže podle jejich hledání si můžete ověřit jednak další parametry (pohlaví, materiál ap), ale zejména zda mají hodně relevancí hesla. Když málo, tak to šponovat nemusíte. Stačí jen čas od řasu zkontrolovat kde Vás umísťují. Jakmile jste mimo prvních 10, tak musíte přitlačit na pilu – jinak prudce spadne návštěvnost.
Já podobnou šablonu chystám. Ta rozšíření obsahují fůru šablon. Kombinace zatím jen 5, ale variace ať už s opakováním, nebo bez jich budou mít více. Postupně budu šablony přidávat podle možností. Většina bude asi komerčních v demo verzích. Přece jenom některé věci (ale ne všechny) vedou k ziskové činnosti. Například rychlé generátory kombinací, variaci apod. se dají používat pro loterie, nebo pro lámání hesel, konstrukci adresářů a různé testy….. Takže přímo pro Vás stavět nic nebudu i když to dělám často. Poradím jak na vzorce, nebo konkrétní problém. Komplexní řešení ode mne nečekejte.
Z textových vzorců využijete zejména FIND, SEARCH (obě to jsou hledání textů a znaků – rozdíl je v Case sensitive), REPLACE, RIGHT, LEN, LEFT, MID, SUBSTITUTE a možná i další. Doporučuji rozebrat slovo tak, aby jednotlivé znaky byly v samostatných buňkách. Pak se dělají jednoduché dotazy s náhradami (pozor – jediné písmenko bez mezer). Například pomocí rozšířeného vzorce (30 vnořených dotazů) vytvoříte jediný vzorec pro náhradu diakritiky – příklad pro několik písmenek :
=IF(A1="á";"a", IF(A1="č";"c";IF(A1="ď";"d"IF…………………..;A1)))…))))
Takto načtené buňky bez diakritiky opět spojíte pomocí funkce CONCATENATE, nebo pomocí &. Načtete do paměti a vložíte jen jako text. Nejdřív ovšem musíte otestovat kolik znaků s diakritikou slovo obsahuje. Také slovo opucujeme od možných mezer a zjistíme :
1. LEN(buňka se slovem) – dá počet znaků podle kterých budeme řadit slova se stejnou délkou.
2. MID(A1;(1 až LEN);1) – rozebere slovo do buněk
pro buňku C1 : MID(A1;1;1)
pro buňku D1 : MID(A1;2;1)
pro buňku E1 : MID(A1;3;1)… a tak dál až do délky LEN.
3. IF(C1="á";"a", IF(C1="č";"c";IF(C1="ď";"d"IF…;C1)))…)))) například do buňky AA1
IF(D1="á";"a", IF(D1="č";"c";IF(D1="ď";"d"IF…;D1)))…)))) například do buňky AB1
IF(E1="á";"a", IF(E1="č";"c";IF(E1="ď";"d"IF…;E1)))…)))) například do buňky AC1 ….
4. CONCATENATE(AA1;AB1;AC1;…) - například do buňky BA1.
Jiný postup je pro vkládání do více řádků. Chce to trik : Zjistit kolik potřebujeme tvarů (tolik vložíme řádků). Takže uděláme pomocné sloupce kde načteme logickou inkrementaci počtu řádků.
Vyjádřený počet vkládaných řádků (jejich čísel ve formě čísla) seřadíme do sloupce, vložíme pod první sloupec a celý soubor přetřídíme. Mezi slovy se vytvoří individuální počet mezer. Zbytek je na Vaší invenci. Popisoval bych to hodně dlouho zejména pro různé varianty úprav.
Existují rozšíření, které odstraní všechnu diakritiku. To se může hodit, ale pokud hledáte všechny možnosti tak to nestačí, protože pokud máte ve slově 2 diakritické znaky, tak to odstraní oba. Vy potřebujete všechny 4 varianty, nebo dokonce 8 – to když by tam byly 3 znaky s diakritikou. To je ale asi výjimka. Většina pojmů má 1 diakritické znaménko a když bude mít 2 tak se to dá zanedbat.

OpenOffice.cz - web věnovaný kancelářským balíkům OpenOffice.org

#1 10. 4. 2015 04:42:02

Calc pro analýzu klíčových slov

#2 10. 4. 2015 06:27:29

Re: Calc pro analýzu klíčových slov

#3 12. 4. 2015 02:02:17

Re: Calc pro analýzu klíčových slov

#4 12. 4. 2015 07:41:45

Re: Calc pro analýzu klíčových slov

Zápatí