Макрос для Exel: робот распознаватель Дмитрия Тумакина

Есть различные сервисы для кластеризации запросов. Я пользуюсь платным софтом, но даже платный софт не всегда лучше бесплатного. Во всяком случае все индивидуально и каждый выбирает свой способ. Расскажу про макрос от Дмитрия Тумакина для Экселя, который может кластеризовать вашу семантику.

Ссылка на последнюю версию робота.

Качаем последнюю версию Эксель файла, открываем и у вас должна появиться такая таблица:

Макрос для Exel: робот распознаватель Дмитрия Тумакина

Надо сразу разрешить работу макросов, если у вас стоит запрет (кнопка на уведомлении в верхней части экрана).

В строках будет много мусора для примера и до столбца G можно его удалить.

Далее мы вставляем в первый столбец свои ключевые запросы (вы же их уже собрали? Иначе, что будем кластеризовывать?)

Нажмите на кнопку удаления знаков препинания и прочие знаки вроде «+», которые могут появиться в запросах.

Макрос для Exel: робот распознаватель Дмитрия Тумакина

Удаляем дубли

Просто так удалить дубли не получится, так как стандартная функция экселя по поиску дублей найдет лишь полностью идентичные словоформы, а не неявные дубли, где отличается порядок слов, например. Для этого нам надо сначала привести словоформу в исходное значение, а значит используем кнопку «лемматизация»

Макрос для Exel: робот распознаватель Дмитрия Тумакина

Затем удаляем стоп-слова. Напомню, что стоп-слова — это слова, которые не меняют смысл в отрыве от контекста (служебные слова). Вордстат их игнорирует, если вы не указываете особых операторов. Это могут быть как союзы «и, над, под, в», так и глаголы «будешь, будем» и другие слова.

Идем дальше. Жмем на сортировку по алфавиту и на поиск дублей.

Макрос для Exel: робот распознаватель Дмитрия Тумакина

Вас перекинет на вкладу этого документа с дублями. В третьем столбце будет указано «ложь» или «истина». Если где-то указано «истина», то рядом с этим запросом дубль, который надо удалить.

Макрос для Exel: робот распознаватель Дмитрия Тумакина

Если дубли были найдены, то удалите их, скопируйте столбец B и возвращайтесь на вкладку Counet, где надо удалить запросы с дублями из столбца C и вставить очищенные от дублей запросы, которые вы скопировали.

Снова жмем на сортировку по алфавиту.

Далее на кнопку «составляем словарь»

Макрос для Exel: робот распознаватель Дмитрия Тумакина

У вас сразу на вкладке «частотный словарь» появятся слова с указанной частотностью. (как собрать частотный словарь и что это такое).

Макрос для Exel: робот распознаватель Дмитрия Тумакина

Кластеризуем

Возвращаемся на основную вкладку и жмем на кнопку «кластеризуем». Сразу у вас появится окно, где надо указать до какой частотности слова надо кластеризовать. Я выбрал 10

Макрос для Exel: робот распознаватель Дмитрия Тумакина

Вас сразу перебросит на вкладку с результатом работы программы

Макрос для Exel: робот распознаватель Дмитрия Тумакина

Все. Кластеризация по леммам выполнена.

Специалист по контекстной рекламе

Добавить оригинальный комментарий