Есть различные сервисы для кластеризации запросов. Я пользуюсь платным софтом, но даже платный софт не всегда лучше бесплатного. Во всяком случае все индивидуально и каждый выбирает свой способ. Расскажу про макрос от Дмитрия Тумакина для Экселя, который может кластеризовать вашу семантику.
Ссылка на последнюю версию робота.
Качаем последнюю версию Эксель файла, открываем и у вас должна появиться такая таблица:
Надо сразу разрешить работу макросов, если у вас стоит запрет (кнопка на уведомлении в верхней части экрана).
В строках будет много мусора для примера и до столбца G можно его удалить.
Далее мы вставляем в первый столбец свои ключевые запросы (вы же их уже собрали? Иначе, что будем кластеризовывать?)
Нажмите на кнопку удаления знаков препинания и прочие знаки вроде «+», которые могут появиться в запросах.
Удаляем дубли
Просто так удалить дубли не получится, так как стандартная функция экселя по поиску дублей найдет лишь полностью идентичные словоформы, а не неявные дубли, где отличается порядок слов, например. Для этого нам надо сначала привести словоформу в исходное значение, а значит используем кнопку «лемматизация»
Затем удаляем стоп-слова. Напомню, что стоп-слова — это слова, которые не меняют смысл в отрыве от контекста (служебные слова). Вордстат их игнорирует, если вы не указываете особых операторов. Это могут быть как союзы «и, над, под, в», так и глаголы «будешь, будем» и другие слова.
Идем дальше. Жмем на сортировку по алфавиту и на поиск дублей.
Вас перекинет на вкладу этого документа с дублями. В третьем столбце будет указано «ложь» или «истина». Если где-то указано «истина», то рядом с этим запросом дубль, который надо удалить.
Если дубли были найдены, то удалите их, скопируйте столбец B и возвращайтесь на вкладку Counet, где надо удалить запросы с дублями из столбца C и вставить очищенные от дублей запросы, которые вы скопировали.
Снова жмем на сортировку по алфавиту.
Далее на кнопку «составляем словарь»
У вас сразу на вкладке «частотный словарь» появятся слова с указанной частотностью. (как собрать частотный словарь и что это такое).
Кластеризуем
Возвращаемся на основную вкладку и жмем на кнопку «кластеризуем». Сразу у вас появится окно, где надо указать до какой частотности слова надо кластеризовать. Я выбрал 10
Вас сразу перебросит на вкладку с результатом работы программы
Все. Кластеризация по леммам выполнена.