Návod, jak vyčistit dataset od nežádoucích slov a hledaných výrazů

Podrobný postup, jak pomocí nástroje na filtraci a analýzu slov očistit textový dataset o nežádoucí slova a hledané výrazy.

V tomto článku najdete podrobný postup, jak pracovat s nástrojem na filtraci a analýzu klíčových slov. Jde o popis postupu fitrace textu (vyloučení nežádoucích slov a výrazů), který můžete dle potřeb modifikovat (např. vyloučit všechna klíčová slova, ne jen ta s vysokým výskytem). Po vyfiltrování (odstranění) nežádoucích slov můžete exportovat upravený textový dataset, ale i vygenerované slovníky ze vstupních hledaných výrazů.

1) Po importu přejděme do filtru slov

Po importu textových dat klikneme na položku Filter v horní části stránky. Zobrazí se seznam clusterizovaných slov dle jejich slovního základu (je-li rozpoznán).

2) Seřadíme slova sestupně podle počtu řádků

Seřadíme slova v tabulce filtru sestupně podle počtu řádků, které slova obsahují (případně dle počtu výskytů - v každém řádku může být dané slovo vícektrát).

3) Zobrazíme související slova k nejsilnějšímu klíčovému slovu

Klikneme na ikonu (i) v pravé části řádků v tabulce klíčových slov (viz. obrázek). Otevře se seznam souvisejících slov ke sloučeným slovům z řádku tabulky.

4) Zkontrolujeme související slova k vyloučení

V seznamu souvisejících slov zkotrolujeme klíčová slova, zda obsahují některá nežádoucí, která je třeba vyfiltrovat (odstranit).

5) Zaškrtneme všechna nežádoucí související slova

V seznamu souvisejících slov zaškrtneme všechna slova, která chceme vyloučit z datového setu i vygenerovaných slovníků. Zaškrtnutá slova se zobrazí v hlavní tabulce filtru, ve které je následně vyloučíme (odstraníme výskyty slov, nebo všechny řádky, které je obsahují) pomocí hromadné akce.

6) Zobrazíme související slova k nejsilnějšímu nežádoucímu

Kliknutím na ikonu (i) v každém řádku zobrazíme seznam souvisejících slov k nejsilnějšímu nežádoucímu.

7) Zkontrolujeme související nežádoucí klíčová slova

V seznamu souvisejících slov zkontrolujeme nejsilnější související slova. Vzhledem k velkému počtu nežádoucích souvisejících slov použijeme hromadné označení všech řádků. Zaškrtnutá slova se opět zobrazí v hlavní tabulce, ve které je následně vyloučíme hromadnou akcí.

8) Odškrtneme slova, která nechceme odstranit

Po označení všech řádků odškrtneme několik požadovaných, nebo obecných slov, která nechceme vyloučit z textového datového setu a slovníků

9) Zkontrolujeme slova k odstranění (vyloučení)

V hlavní tabulce zkontrolujeme všechna vybraná nežádoucí slova, která v dalším kroku odstraníme (vyloučíme).

10) Klikneme na ikonu pro hromadé akce

V levé horní části tabulky filtru klíčových slov klikneme na ikonu "Akce", která nám zobrazí několik tlačítek pro provedení hromadných akcí se slovy aktuálně zobrazenými v hlavní tabulce.

11) Hromadně vyloučíme všechny řádky se slovy

Pomocí tlačítka hromadné akce vyloučíme všechny řádky datového setu, které aktuálně zobrazená slova obsahují. Další možnost je tlačítko pro vyloučení výskytů slov, které umožňuje odstranění všech výskytů slov, ale ponechává v datasetu zbývající slova z řádků.

12) Kontrola vyloučených slov (odstraněných řádků)

V levém sloupci tabulky jsou nyní všechna slova vyloučena (resp. nezahrnuta do výstupního datového setu ani generovaných slovníků). U každého nezahrnutého (vyloučeného) slova je v pravé části tabulky volba, zda se mají odstranit A) všechny řádky datasetu, které obsahují vybraná slova, nebo B) pouze se odstraní všechny výskyty slov z datového setu i slovníků, ponechají se ale ostatní slova z dotčených řádků datasetu. V našem případě vyloučíme všechny řádky.

13) Možnost odstranění výskytů slov

Přepínačem můžeme zvolit, zda u některých slov neodstraníme pouze jejich výskyty, nikoliv všechny řádky, které je obsahují.

14) Kontrola po vyloučení nežádoucích slov

Jakmile vyloučíme (odstraníme) všechna nežádoucí, opětovně zkontrolujeme související slova, zda proběhla filtrace korektně a není potřeba v ní pokračovat.

15) Zkontrolujeme nežádoucí související slova

Projdeme a zkontrolujeme nežádoucí související klíčová slova, zda se v nich neobjevují některá další, která chceme vyfiltrovat a odstranit.

16) Zkontrolujeme nejasná a nejednoznačná slova

V souvisejících slovech zkontrolujeme nejasná (nejednoznačná) slova, která nesmíme vyloučit, pokud jde například o slovo bez diakritiky. V našem příkladu jde o jméno hračky, které vylučovat nebudeme.

17) Kontrola souvisejících hledaných výrazů

V pomocném bloku se souvisejícími slovy (v dolní části) nalezneme také všechny výrazy, které obsahují vybraná klíčová slova.

18) Zobrazíme vyloučené řádky a slova datasetu

Pro kontrolu vyloučených výrazů klikneme na přepínač "zahrnuté/všechny". Po kliknutí na přepínač se v tabulce zobrazí i řádky s vyloučenými slovy.

19) Kontrola vyloučených řádků a slov datasetu

V dolní části tabulky souvisejících hledaných výrazů můžeme najít všechny vyloučené textové výrazy. Dvojitě přeškrtnutá jsou slova, která jsou-li obsažena v hledaném výrazu, zajistí jeho odstranění (celého řádku s hledaným výrazem). Slova, která jsou přeškrtnuta jednoduchou čarou, jsou vyloučena z datového setu i slovníků, avšak nevylučují celé řádky obsahující další slova (ta budou zahrnuta do výstupního datového setu a slovníků).

20) Finální kontrola nejednoznačných slov

Před dokončením fitrace a exportem vyfiltrovaných (očištěných) textových dat a vygenerovaných slovníků zkontrolujeme nejednoznačná vyloučená slova.

21) Kontrola nejednoznačných vyloučených slov

Zkontrolujeme vyloučená (nebo i zahrnutá) slova a hledané výrazy. V uvedeném příkladu je slovo vyloučeno správně.

22) Export vyfiltrovaných (očištěných) textových dat a slovníků

Po kontrole vyloučených (nebo i zahrnutých) slov a hledaných výrazů přejdeme na stránku "Výstup", kde můžeme exportovat očištěná (vyfiltrovaná) vstupní textová data (dataset) a vygenerované očištěné slovníky.