Что такое категоризация?

Основная цель категоризации — сделать работу с массивом данных как можно удобнее и эффективнее. Ведь с увеличением количества упоминаний массив собранных данных быстро становится более сложным для анализа.

Мы предоставляем нашим пользователям возможность автоматической интеллектуальной категоризации для быстрого поиска важных сообщений - вопросов, намерений, жалоб, а также для исключения наименее релевантных данных - шума, объявлений, спама, нецензурной лексики и др. Правила заданные для категории один раз автоматически применяються для последующих упоминаний по набору заданных параметров.

 

Согласно данным исследования IBM Marketing Cloud, за последние два года в мире было создано 90% всех данных. В 2013 общий объем данных в интернете составлял 4,3 зеттабайта, каждые два года он удваивается. Поскольку мир неуклонно становится все более связанным с постоянно растущим числом электронных устройств, в ближайшие годы ожидается еще больший объем.

В 2016 году количество загружаемых в Интернет изображений превысило 3,5 млрд. в день. В 2017 году такое же количество изображений загружали только в соцсетях. К примеру, показатели загрузки изображений в минуту: Snapchat — 527 тыс., Facebook — 136 тыс. и Instagram — 46 тыс.

За годы работы с аналитикой данных мы по достоинству оценили важность их правильной визуализации. Ведь она помогает представить большие и сложные данные в простом и наглядном виде, определить закономерности, привлечь внимание к проблемам, найти инсайты и т.д.

Мы продолжаем улучшать навыки в визуализации данных, если эта область вам интересна, то эта подборка книг для вас:

 

Мы постоянно расширяем наше покрытие и в рубрике "Источники" рассказываем о новых площадках, которые позволяет отслеживать платформа SemanticForce. В этой статье расскажем: что такое Medium, как она работает и почему важен ее мониторинг.

Medium — платформа для социальной журналистики, гибрид издательства и технической платформы, открытой для публикации материалов любыми пользователями.

Сервис запущен в августе 2012 года сооснователями Twitter Эваном Уильямсом и Бизом Стоуном.

Со слов создателей платформы, ее главное призвание  с одной стороны, выйти за рамки ограничений в количестве знаков, характерных для Twitter, а с другой стороны  предложить решение проблемы засоренности сети недостоверной и низкопрофессиональной информацией.

7-го июля в Одессе прошла третья ежегодная конференция EECVC (Eastern European Computer Vision Conference), которую посетили и наши сотрудники.

В прошлом году мы одни из первых на территории СНГ запустили функцию анализа визуального контента и для дальнейшего усовершенствования наших инструментов внимательно следим за новинками в этой сфере.

Ежедневно в Интернет загружается более 1,8 миллиарда изображений. Фотографии и визуальные эффекты стремительно захватывают онлайн-медиа и социальные сети. От селфи знаменитостей до пользовательского контента брендов, изображения находятся в СМИ, Instagram, Twitter, Facebook и т.д. “Масла в огонь” подливают новые функции соцсетей, позволяющие, например, ответить картинкой на пост в FB или Instagram.

Новые источники в SemanticForce: 2ch.hk [Двач]

В базу SemanticForce ежедневно подключается множество новых источников с различной тематикой, аудиторией и географией. О некоторых из них мы расскажем на страницах нашего блога. Открывает цикл публикаций одна из самых популярных площадок рунета - Двач. 

Как зарождался двач?

Кто скрывается за маской анонимности?

О чем пишут анонимы на самой популярной медиадоске рунета?

Cколько пишут в день? 10 000, 20 000 или 50 000 постов? А может быть больше?

Кому поклоняются анонимы?

Как уживаются на одной площадке блоггеры и мизантропы, инстаграммеры и асоциалы? 

Интернет-маркетологи часто шутят о скорости, с которой новые инструменты и технологии разрушают привычную последовательность повседневных действий. И если кто-то отсутствует в офисе  несколько дней, то первым делом, о чем он спросит при возвращении: «Что изменилось?».

В то время, как динамичные изменения могут негативно повлиять на эффективность работы в некоторых сферах, маркетологи достаточно эластичны и справляются с изменениями гораздо лучше многих других специалистов. Они всегда ищут новые пути и инструменты применимые в своей профессии, связываясь с потребителями именно теми способами, которые мотивируют их приобрести продукты или воспользоваться услугами.

В связи с ростом объемов сообщений в медиаполе одним из важных факторов выбора мониторинговой системы становится релевантность выборки. Результаты мониторинга формируются на основании поискового запроса, задающего критерии поиска. Этот процесс требует чёткого представления о том, каким образом целевая аудитория обсуждает бренд, и о том, какие задачи необходимо решить с помощью проводимого мониторинга.

Задача усложняется в случае детектирования упоминаний о бренде с высокой степенью омонимичности (в выборке сообщений присутствует нерелевантный шум, который по своему написанию совпадает с одним из слов из поискового запроса, но при этом содержит совершенно иной смысл). Одно дело, когда стоит задача отследить упоминания о бренде, имеющем уникальное название (Tassimo, Nivea или Avon), другое - когда торговую сеть Metro Cash & Carry необходимо "отсеять" от метро и метросексуалов, а украшения Pandora - от одноименного ящика, радиостанции, автосигнализации и т.д.

Какие сценарии улучшения релевантности выборки возможны и как минимизировать шум в результатах мониторинга? Об этом читайте подробнее в нашей новой статье.

Работая с клиентами, представляющими различные сферы бизнеса, мы заметили, что мониторинг только общеизвестных сайтов с отзывами зачастую не удовлетворяет потребности эффективного управления репутацией. Для многих отраслей важная часть порождаемого инфополя лежит в рамках узкоспециализированных ресурсов, требующих оперативного мониторинга и реагирования.

В данной статье мы акцентируем внимание на специфике работы с популярными и нишевыми сайтами, содержащими отзывы (review sites).