Import textových dat
Data pro analýzu
Filtr klíčových slov
Výstup po filtraci

Návod, jak vyčistit dataset od nežádoucích slov a hledaných výrazů


Podrobný postup, jak pomocí nástroje na filtraci a analýzu slov očistit textový dataset o nežádoucí slova a hledané výrazy.

V tomto článku najdete podrobný postup, jak pracovat s nástrojem na filtraci a analýzu klíčových slov. Jde o popis postupu fitrace textu (vyloučení nežádoucích slov a výrazů), který můžete dle potřeb modifikovat (např. vyloučit všechna klíčová slova, ne jen ta s vysokým výskytem). Po vyfiltrování (odstranění) nežádoucích slov můžete exportovat upravený textový dataset, ale i vygenerované slovníky ze vstupních hledaných výrazů.

1) Po importu přejděme do filtru slov

Po importu textových dat klikneme na položku Filter v horní části stránky. Zobrazí se seznam clusterizovaných slov dle jejich slovního základu (je-li rozpoznán).

1) Po importu přejděme do filtru slov

2) Seřadíme slova sestupně podle počtu řádků

Seřadíme slova v tabulce filtru sestupně podle počtu řádků, které slova obsahují (případně dle počtu výskytů - v každém řádku může být dané slovo vícektrát).

2) Seřadíme slova sestupně podle počtu řádků

3) Zobrazíme související slova k nejsilnějšímu klíčovému slovu

Klikneme na ikonu (i) v pravé části řádků v tabulce klíčových slov (viz. obrázek). Otevře se seznam souvisejících slov ke sloučeným slovům z řádku tabulky.

3) Zobrazíme související slova k nejsilnějšímu klíčovému slovu

4) Zkontrolujeme související slova k vyloučení

V seznamu souvisejících slov zkotrolujeme klíčová slova, zda obsahují některá nežádoucí, která je třeba vyfiltrovat (odstranit).

4) Zkontrolujeme související slova k vyloučení

5) Zaškrtneme všechna nežádoucí související slova

V seznamu souvisejících slov zaškrtneme všechna slova, která chceme vyloučit z datového setu i vygenerovaných slovníků. Zaškrtnutá slova se zobrazí v hlavní tabulce filtru, ve které je následně vyloučíme (odstraníme výskyty slov, nebo všechny řádky, které je obsahují) pomocí hromadné akce.

5) Zaškrtneme všechna nežádoucí související slova

6) Zobrazíme související slova k nejsilnějšímu nežádoucímu

Kliknutím na ikonu (i) v každém řádku zobrazíme seznam souvisejících slov k nejsilnějšímu nežádoucímu.

6) Zobrazíme související slova k nejsilnějšímu nežádoucímu

7) Zkontrolujeme související nežádoucí klíčová slova

V seznamu souvisejících slov zkontrolujeme nejsilnější související slova. Vzhledem k velkému počtu nežádoucích souvisejících slov použijeme hromadné označení všech řádků. Zaškrtnutá slova se opět zobrazí v hlavní tabulce, ve které je následně vyloučíme hromadnou akcí.

7) Zkontrolujeme související nežádoucí klíčová slova

8) Odškrtneme slova, která nechceme odstranit

Po označení všech řádků odškrtneme několik požadovaných, nebo obecných slov, která nechceme vyloučit z textového datového setu a slovníků

8) Odškrtneme slova, která nechceme odstranit

9) Zkontrolujeme slova k odstranění (vyloučení)

V hlavní tabulce zkontrolujeme všechna vybraná nežádoucí slova, která v dalším kroku odstraníme (vyloučíme).

9) Zkontrolujeme slova k odstranění (vyloučení)

10) Klikneme na ikonu pro hromadé akce

V levé horní části tabulky filtru klíčových slov klikneme na ikonu "Akce", která nám zobrazí několik tlačítek pro provedení hromadných akcí se slovy aktuálně zobrazenými v hlavní tabulce.

10) Klikneme na ikonu pro hromadé akce

11) Hromadně vyloučíme všechny řádky se slovy

Pomocí tlačítka hromadné akce vyloučíme všechny řádky datového setu, které aktuálně zobrazená slova obsahují. Další možnost je tlačítko pro vyloučení výskytů slov, které umožňuje odstranění všech výskytů slov, ale ponechává v datasetu zbývající slova z řádků.

11) Hromadně vyloučíme všechny řádky se slovy

12) Kontrola vyloučených slov (odstraněných řádků)

V levém sloupci tabulky jsou nyní všechna slova vyloučena (resp. nezahrnuta do výstupního datového setu ani generovaných slovníků). U každého nezahrnutého (vyloučeného) slova je v pravé části tabulky volba, zda se mají odstranit A) všechny řádky datasetu, které obsahují vybraná slova, nebo B) pouze se odstraní všechny výskyty slov z datového setu i slovníků, ponechají se ale ostatní slova z dotčených řádků datasetu. V našem případě vyloučíme všechny řádky.

12) Kontrola vyloučených slov (odstraněných řádků)

13) Možnost odstranění výskytů slov

Přepínačem můžeme zvolit, zda u některých slov neodstraníme pouze jejich výskyty, nikoliv všechny řádky, které je obsahují.

13) Možnost odstranění výskytů slov

14) Kontrola po vyloučení nežádoucích slov

Jakmile vyloučíme (odstraníme) všechna nežádoucí, opětovně zkontrolujeme související slova, zda proběhla filtrace korektně a není potřeba v ní pokračovat.

14) Kontrola po vyloučení nežádoucích slov

15) Zkontrolujeme nežádoucí související slova

Projdeme a zkontrolujeme nežádoucí související klíčová slova, zda se v nich neobjevují některá další, která chceme vyfiltrovat a odstranit.

15) Zkontrolujeme nežádoucí související slova

16) Zkontrolujeme nejasná a nejednoznačná slova

V souvisejících slovech zkontrolujeme nejasná (nejednoznačná) slova, která nesmíme vyloučit, pokud jde například o slovo bez diakritiky. V našem příkladu jde o jméno hračky, které vylučovat nebudeme.

16) Zkontrolujeme nejasná a nejednoznačná slova

17) Kontrola souvisejících hledaných výrazů

V pomocném bloku se souvisejícími slovy (v dolní části) nalezneme také všechny výrazy, které obsahují vybraná klíčová slova.

17) Kontrola souvisejících hledaných výrazů

18) Zobrazíme vyloučené řádky a slova datasetu

Pro kontrolu vyloučených výrazů klikneme na přepínač "zahrnuté/všechny". Po kliknutí na přepínač se v tabulce zobrazí i řádky s vyloučenými slovy.

18) Zobrazíme vyloučené řádky a slova datasetu

19) Kontrola vyloučených řádků a slov datasetu

V dolní části tabulky souvisejících hledaných výrazů můžeme najít všechny vyloučené textové výrazy. Dvojitě přeškrtnutá jsou slova, která jsou-li obsažena v hledaném výrazu, zajistí jeho odstranění (celého řádku s hledaným výrazem). Slova, která jsou přeškrtnuta jednoduchou čarou, jsou vyloučena z datového setu i slovníků, avšak nevylučují celé řádky obsahující další slova (ta budou zahrnuta do výstupního datového setu a slovníků).

19) Kontrola vyloučených řádků a slov datasetu

20) Finální kontrola nejednoznačných slov

Před dokončením fitrace a exportem vyfiltrovaných (očištěných) textových dat a vygenerovaných slovníků zkontrolujeme nejednoznačná vyloučená slova.

20) Finální kontrola nejednoznačných slov

21) Kontrola nejednoznačných vyloučených slov

Zkontrolujeme vyloučená (nebo i zahrnutá) slova a hledané výrazy. V uvedeném příkladu je slovo vyloučeno správně.

21) Kontrola nejednoznačných vyloučených slov

22) Export vyfiltrovaných (očištěných) textových dat a slovníků

Po kontrole vyloučených (nebo i zahrnutých) slov a hledaných výrazů přejdeme na stránku "Výstup", kde můžeme exportovat očištěná (vyfiltrovaná) vstupní textová data (dataset) a vygenerované očištěné slovníky.

22) Export vyfiltrovaných (očištěných) textových dat a slovníků