Блог → Секреты релевантной выдачи и механизмы шумоподавления в результатах мониторинга соцмедиа

В связи с ростом объемов сообщений в медиаполе одним из важных факторов выбора мониторинговой системы становится релевантность выборки. Результаты мониторинга формируются на основании поискового запроса, задающего критерии поиска. Этот процесс требует чёткого представления о том, каким образом целевая аудитория обсуждает бренд, и о том, какие задачи необходимо решить с помощью проводимого мониторинга.

Задача усложняется в случае детектирования упоминаний о бренде с высокой степенью омонимичности (в выборке сообщений присутствует нерелевантный шум, который по своему написанию совпадает с одним из слов из поискового запроса, но при этом содержит совершенно иной смысл). Одно дело, когда стоит задача отследить упоминания о бренде, имеющем уникальное название (Tassimo, Nivea или Avon), другое - когда торговую сеть Metro Cash & Carry необходимо "отсеять" от метро и метросексуалов, а украшения Pandora - от одноименного ящика, радиостанции, автосигнализации и т.д.

Какие сценарии улучшения релевантности выборки возможны и как минимизировать шум в результатах мониторинга? Об этом читайте подробнее в нашей новой статье.

Рассмотрим настройку поискового запроса на примере с уже упомянутым производителем ювелирных украшений Pandora.

Отсекаем лишнее: стоп-слова

Одним из наиболее простых инструментов шумоподавления является настройка слов-исключений. После оценки выдачи мы можем исключить упоминания бренда в каком-либо нежелательном или не соответствующем целям проводимого мониторинга контексте (например, вносим "автосигнализацию" и "автомобиль" в стоп-слова). В системе SemanticForce существует возможность исключить из выдачи нежелательного автора или источник, предварительно проверив при помощи поиска по теме, не удаляем ли мы лишнее.

Данный метод является весьма затратным по времени (необходимо внести в систему каждое стоп-слово), но способен дать неплохой результат, если уровень исходного шума не слишком велик.

Тематический контекст
В случае большой зашумленности выдачи рекомендуется фильтрование шума путем применения контекстных слов.  Для того чтобы минимизировать возможность попадания в выдачу вместе с украшениями Pandora одноименной системы сигнализации, следует задать облако уточняющих слов, для ограничения и фокусировки предметной области (слова, в контексте которых обсуждается искомая нами Pandora). Задача осложняется тем, что для ряда источников (пример форума, посвященного украшениям) данный контекст применять не нужно, т.к. там все сообщения прямо или косвенно касаются объекта.

Название бренда не всегда уникально и, чтобы минимизировать возможность попадания в выдачу вместе с украшениями Pandora одноименной системы сигнализации, следует задать облако уточняющих слов, для ограничения и фокусировки предметной области. Задача осложняется тем, что для ряда источников данный контекст применять не нужно, т.к. там все сообщения прямо или косвенно касаются объекта.

Для украшений Pandora мы подобрали порядка 40 уточняющих слов/фраз, которые определяют предметную область (поисковый контекст). После просмотра полученного массива данных можно сделать выводы относительно процентного отношения информационного шума к полезным сообщениям.

Интеллектуальная категоризация

Недостатком применения контекстных слов с целью фильтрации выдачи является то, что охватить все разнообразие контекста невозможно, более того - невозможно учесть семантические связи между словами в сообщениях, то есть определить, к каким объектам относятся те или иные слова или фразы. К примеру, фильтрация выдачи Pandora ювелирным словом "браслет" пропускает сообщение "брелок браслет для систем Pandora", относящееся к одноименным автосигнализациям.

Наиболее эффективным и технологичным решением задачи шумоподавления является применение систем интеллектуальной категоризации, способной автоматически решать самые сложные лингвистические задачи. Разработанная и внедренная нами облачная семантическая платформа BlueberryAPI позволяет учесть все подмножества ключевых слов и максимально качественно очертить предметную область обсуждений объекта мониторинга.

Важным преимуществом технологии интеллектуальной категоризации является то, что платформу можно «обучить» отбирать релевантные сообщения, учитывая семантические (смысловые) связи, и в автоматическом режиме маркировать исходящий поток необходимой рубрикой (категорией). Аннотация массива машинным способом производится с полнотой и точностью, схожей с работой опытного аналитика. Платформа BlueberryAPI позволяет автоматически детектировать язык, именованные сущности, эмоциональную окраску сообщений, размечать объектную и объектно-факторную тональность сообщений.

Благодаря SemanticForce все отзывы, комментарии и упоминания о компании собираются в одном месте. Все нерелевантыне сообщения легко отсеиваются.
Инна Купец. Online Support Manager в Samsung Electronics.

На примере с Pandora система разметила массив по более чем 30 рубрикам. И теперь нам для получения выдачи по украшениям Pandora достаточно выбрать рубрику "Украшения", тем самым отсеяв автосигнализацию, ящик Пандоры и т.п.

Все еще подбираете контекстные запросы и удаляете нерелевантные сообщения вручную? Попробуйте связку SemanticForce + BlueberryAPI и одолейте надоедливый инфо-шум используя технологии искусственного интеллекта. Мы предоставим 2-недельный демо-доступ к самой дружелюбной системе мониторинга SemanticForce. Релевантная выдача и красивая профессиональная служба поддержки ждут Вас!

 

Читайте также:

Добавить комментарий:

Blog comments powered by Disqus