Import textových dat
Data pro analýzu
Filtr klíčových slov
Výstup po filtraci

Nápověda k nástroji na filtraci a analýzu klíčových slov


Na této stránce najdete popis ovládacích prvků a nápovědu pro použití hlavní části nástroje na filtraci a analýzu slov v textu.

Rychlý videonávod, jak vyčistit dataset od nežádoucích slov a hledaných výrazů

Postup, jak očistit dataset o nežádoucí slova a hledané výrazy, můžete prozkoumat v následujícím videu:

Popis sloupců tabulky filtru klíčových slov

Zahrnuto - aktivní přepínač pro zahrnutí/vyloučení slov (nebo řádků, které je obsahují) ze vstupního datasetu a vygenerovaného slovníku. Pokud je přepínač na "Ne", můžete zvolit, zda se mají vyloučit jen výskyty slov (zaškrtněte přepínač ve sloupci "Výskyty"), nebo zda se mají odstranit všechny řádky, které slova obsahují (zaškrtněte přepínač ve sloupci "Řádky"). Pokud necháte přepínač Zahrnuto v poloze "Ano" (výchozí hodnota), zůstanou slova v datasetu i výstupním slovníku.

Základ - slovní základ (pokud byl rozpoznán), pod kterým jsou sloučena slova (i podobná s/bez diakritiky).

Slova - seznam slov, která jsou sloučena pod slovním základem uvedeným ve sloupci Základ. Pokud nebude slovní základ rozpoznán, nebude se slučovat.

Druh - slovní druh, pokud byl rozpoznán (orientační informace).

Řádky - počet řádků vstupního datasetu, které obsahují jakékoliv ze sloučených slov z daného řádku tabulky filtru.

Výskyty - počet všech výskytů slova (jeho variant) v celém vstupním datasetu. Pokud je slovo v jednom řádku vícekrát, bude se počet řádků a výskytů lišit (výskyty budou vyšší než počet řádků).

Popis ovládacích prvků filtru

Ovládací prvky nástroje umožňují provádět různé akce se zobrazenými daty. Můžete filtrovat řádky, vyloučit/zahrnout konkrétní slova z datového setu, ale i prohlížet, nebo exportovat související slova a výrazy ke konkrétním klíčovým slovům (i s agregovanými čísly: počty řádků, výskytů slov, průměrné, minimální či maximální ceny - CPC).

Zobrazit slova

Výběr slov, která chcete zobrazit ve filtru (hlavní tabulce). Aktuálně zobrazená slova v řádcích poté můžete vyloučit, nebo zahrnout do výstupního datasetu a slovníků.

Možnosti zobrazení slov:
  • Vše - zobrazí všechna slova vygenerovaného slovníku ze vstupních výrazů
  • Zahrnutá - slova, která jsou zahrnuta do výstupního datasetu i slovníku (po filtraci slov)
  • Vyloučená - slova, která jsou vyloučena z výstupního datasetu i slovníku (lze je stáhnout v seznamu vyloučených slov, nebo v seznamu vyloučených řádků ze vstupního datasetu)
  • Rozpoznaná - slova, která byla rozpoznána jako česká, případně byl detekován druh slova (nejsou detekována všechna česká slova, jde o orientační informaci, která nemusí být přesná)
  • Nerozpoznaná - slova, která se nepodařilo rozpoznat jako česká (tato slova nebudou správně slučována)
  • Slovní druhy - zobrazení slov podle slovního druhu: podstatná jména, přídavná jména, zájmena, číslovky, slovesa, předložky, spojky  (berte v úvahu nepřesnost, která vznikná nedokonalým rozpoznáním slov zmíněným výše).

Sloučení slov

Volba pro sloučení slov podle jejich slovního základu (včetně překlepů).

Možnosti sloučení slov:
  • Neslučovat - slova nebudou v tabulce fitru slučována, každý řádek bude obsahovat unikátní variantu slova
  • Základní sloučení - slova v tabulce filtru budou sloučena podle slovního základu, rozdělí se však slova s předponami (např. "menší" a samostatně "nejmenší")
  • Úplné sloučení - slova budou sloučena včetně nejpoužívanějších předpon, pod jejich slovní základ (je-li rozpoznán).

Skrýt zájmena

Skryje zájmena ve filtru slov (pokud je nevyloučíte, zůstanou zahrnuta v datasetu i vygenerovaném slovníku)

Skrýt předlozky

Skryje předložky ve filtru slov (pokud je nevyloučíte, zůstanou zahrnuty v datasetu i vygenerovaném slovníku)

Skrýt spojky

Skryje spojky ve filtru slov (pokud je nevyloučíte, zůstanou zahrnuty v datasetu i vygenerovaném slovníku)

Filtrace řádků

Řádky zobrazené v hlavní tabulce je možné filtrovat zadáním slov nebo jednoduchých regulárních výrazů do vstupního textového pole nad tabulkou.

Příklady jednoduchých regulárních výrazů, které vám usnadní filtraci slov (v uvozovkách, ty jen ohraničují regulární výraz, do políčka pro text uvozovky nezadávejte):

  • "[0-9]ml" - zobrazí všechy hodnoty v mililitrech, např. 5ml, 100ml, 250ml a pod.
  • "d.ti" - tečka je zástupný znak (zastupuje jakýkoliv znak), zobrazí se slova, která začínají písmenem "d", pokračují jakýmkoliv alfanumerickým znakem a končí písmeny "ti", například "děti", "deti", ale i slova jako "drti".
  • "d[eě]ti" - přesnější varianta předcházejícího výrazu, která zobrazí výhradně slova "deti" a "děti", ne však slovo "drti".
  • "batoh|krosn" - zobrazí slova "batoh", "batohy", "batohem"... ale i slova "krosna", "krosny", "krosnu" a podobná.
  • Zkuste i různé obměny výše uvedených výrazů, jako třeba [0-9]cm nebo [0-9]g a pod.

Akce s řádky

Umožňuje hromadné akce s aktuálně zobrazenými řádky v hlavní tabulce filtru klíčových slov. Dostupné akce jsou:

  • Znovu načíst tabulku - obnoví (znovu načte) obsah tabulky (například po vyloučení/zahrnutí slov)
  • Zahrnout zobrazená slova - nastaví všechna aktuálně zobrazená slova v tabulce jako zahrnutá, tzn. budou obsažena ve vyčištěném výstupním datasetu i slovníku.
  • Vyloučit zobrazená slova - vyloučí (odstraní) všechny výskyty slov z datasetu i slovníku. Vyloučená slova lze poté stáhnout jako samostatný výstupní CSV soubor.
  • Vyloučit zobrazená slova i řádky - vyloučí z datasetu řádky, které obsahují aktuálně zobrazená slova v tabulce (tím se odstraní i ostatní slova z vyloučených řádků).

Podrobnější informace a pomoc

Podrobnější nápověda je prozatím v přípravě. Pokud se chcete na něco zeptat, něco více vysvětlit, nebo nahlásit nalezenou chybu, napište mi prosím na: zdenek (zavináč) analyza-slov.cz