Podrobný postup, jak pomocí nástroje na filtraci a analýzu slov očistit textový dataset o nežádoucí slova a hledané výrazy.
V tomto článku najdete podrobný postup, jak pracovat s nástrojem na filtraci a analýzu klíčových slov. Jde o popis postupu fitrace textu (vyloučení nežádoucích slov a výrazů), který můžete dle potřeb modifikovat (např. vyloučit všechna klíčová slova, ne jen ta s vysokým výskytem). Po vyfiltrování (odstranění) nežádoucích slov můžete exportovat upravený textový dataset, ale i vygenerované slovníky ze vstupních hledaných výrazů.
Po importu textových dat klikneme na položku Filter v horní části stránky. Zobrazí se seznam clusterizovaných slov dle jejich slovního základu (je-li rozpoznán).
Seřadíme slova v tabulce filtru sestupně podle počtu řádků, které slova obsahují (případně dle počtu výskytů - v každém řádku může být dané slovo vícektrát).
Klikneme na ikonu (i) v pravé části řádků v tabulce klíčových slov (viz. obrázek). Otevře se seznam souvisejících slov ke sloučeným slovům z řádku tabulky.
V seznamu souvisejících slov zkotrolujeme klíčová slova, zda obsahují některá nežádoucí, která je třeba vyfiltrovat (odstranit).
V seznamu souvisejících slov zaškrtneme všechna slova, která chceme vyloučit z datového setu i vygenerovaných slovníků. Zaškrtnutá slova se zobrazí v hlavní tabulce filtru, ve které je následně vyloučíme (odstraníme výskyty slov, nebo všechny řádky, které je obsahují) pomocí hromadné akce.
Kliknutím na ikonu (i) v každém řádku zobrazíme seznam souvisejících slov k nejsilnějšímu nežádoucímu.
V seznamu souvisejících slov zkontrolujeme nejsilnější související slova. Vzhledem k velkému počtu nežádoucích souvisejících slov použijeme hromadné označení všech řádků. Zaškrtnutá slova se opět zobrazí v hlavní tabulce, ve které je následně vyloučíme hromadnou akcí.
Po označení všech řádků odškrtneme několik požadovaných, nebo obecných slov, která nechceme vyloučit z textového datového setu a slovníků
V hlavní tabulce zkontrolujeme všechna vybraná nežádoucí slova, která v dalším kroku odstraníme (vyloučíme).
V levé horní části tabulky filtru klíčových slov klikneme na ikonu "Akce", která nám zobrazí několik tlačítek pro provedení hromadných akcí se slovy aktuálně zobrazenými v hlavní tabulce.
Pomocí tlačítka hromadné akce vyloučíme všechny řádky datového setu, které aktuálně zobrazená slova obsahují. Další možnost je tlačítko pro vyloučení výskytů slov, které umožňuje odstranění všech výskytů slov, ale ponechává v datasetu zbývající slova z řádků.
V levém sloupci tabulky jsou nyní všechna slova vyloučena (resp. nezahrnuta do výstupního datového setu ani generovaných slovníků). U každého nezahrnutého (vyloučeného) slova je v pravé části tabulky volba, zda se mají odstranit A) všechny řádky datasetu, které obsahují vybraná slova, nebo B) pouze se odstraní všechny výskyty slov z datového setu i slovníků, ponechají se ale ostatní slova z dotčených řádků datasetu. V našem případě vyloučíme všechny řádky.
Přepínačem můžeme zvolit, zda u některých slov neodstraníme pouze jejich výskyty, nikoliv všechny řádky, které je obsahují.
Jakmile vyloučíme (odstraníme) všechna nežádoucí, opětovně zkontrolujeme související slova, zda proběhla filtrace korektně a není potřeba v ní pokračovat.
Projdeme a zkontrolujeme nežádoucí související klíčová slova, zda se v nich neobjevují některá další, která chceme vyfiltrovat a odstranit.
V souvisejících slovech zkontrolujeme nejasná (nejednoznačná) slova, která nesmíme vyloučit, pokud jde například o slovo bez diakritiky. V našem příkladu jde o jméno hračky, které vylučovat nebudeme.
V pomocném bloku se souvisejícími slovy (v dolní části) nalezneme také všechny výrazy, které obsahují vybraná klíčová slova.
Pro kontrolu vyloučených výrazů klikneme na přepínač "zahrnuté/všechny". Po kliknutí na přepínač se v tabulce zobrazí i řádky s vyloučenými slovy.
V dolní části tabulky souvisejících hledaných výrazů můžeme najít všechny vyloučené textové výrazy. Dvojitě přeškrtnutá jsou slova, která jsou-li obsažena v hledaném výrazu, zajistí jeho odstranění (celého řádku s hledaným výrazem). Slova, která jsou přeškrtnuta jednoduchou čarou, jsou vyloučena z datového setu i slovníků, avšak nevylučují celé řádky obsahující další slova (ta budou zahrnuta do výstupního datového setu a slovníků).
Před dokončením fitrace a exportem vyfiltrovaných (očištěných) textových dat a vygenerovaných slovníků zkontrolujeme nejednoznačná vyloučená slova.
Zkontrolujeme vyloučená (nebo i zahrnutá) slova a hledané výrazy. V uvedeném příkladu je slovo vyloučeno správně.
Po kontrole vyloučených (nebo i zahrnutých) slov a hledaných výrazů přejdeme na stránku "Výstup", kde můžeme exportovat očištěná (vyfiltrovaná) vstupní textová data (dataset) a vygenerované očištěné slovníky.