Блог → Проблемы анализа тональности (часть 2)

В предыдущей статье мы начали рассказывать о существенном различии в устной и разговорной письменной речи и тесно связанных с этим проблемах в определении тональности сообщений. 

Продолжаем рассказывать о подводных камнях в детектировании эмоциональной составляющей комментариев и предлагаем Вашему вниманию еще несколько тонких моментов.

(Первые 10 пунктов смотрите здесь).

11. Омонимия: в случае графического совпадения написания слов, имеющих различное значение, интерпретация оценочного суждения требует, чтобы прежде было правильно определено изначальное понятие. Например, трактовка фразы "старый замок" может быть двоякой - в одном случае оно понимается как древнее сооружение (позитивный контекст), в другом слово-омоним может означать устаревшее запирающее устройство, например, в автомобиле (негативный контекст).

12. Анафорические связи: важно при определении тональности установить весь спектр анафорических связей (местоимения, замены слов и др.), присутствующих в тексте/текстах. Это позволит понять структуру и "оттенок" оценочного суждения.

13. Смайлики: одобрение или порицание часто передаются в сообщениях с помощью специфических символов, многообразие которых отражает различные эмоциональные состояния. Смайлик стал эмоциональным маркером упоминания. В связи с этим возникает потребность в правильном кодировании таких символов с учетом культурных, ментальных особенностей их авторов.

14. Косвенные упоминания без прямого упоминания объектов, о которых идет речь. В части сообщений авторы "забывают" упомянуть непосредственно объект, в этом случае необходимы нетривиальные подходы при определении объекта тональности, иначе значительный процент "негатива"/"позитива" просто выпадет из поля зрения исследователя и картина настроений будет нерепрезентативной.

15. Безграмотные тексты: частым явлением стали предложения/словосочетания,  написанные без соблюдения правил синтаксиса, грамматики, расстановки знаков препинания. В этом случае исследователь должен предусмотреть при настройке темы максимальное число вариаций написания с ошибками. Это позволяет детектировать объект, несмотря на все сложности.

16. Опечатки: случайные и преднамеренные, также как и безграмотные тексты, они с одной стороны затрудняют процесс детектирования объекта мониторинга, с другой - искажают понимание дефиниций интересующего нас объекта, что приводит к неверному пониманию тональности сообщения.

17. Transliteraciya: использование "транслита" вперемешку с текстом на русском или других языках актуализирует необходимость постоянного расширения словаря, с помощью которого определяется искомое понятие, раскрываются положительные и отрицательные характеристики объекта.

18. "Локальная лексика": свое отношение авторы положительных либо отрицательных комментариев часто передают при помощи локальной специализированной лексики, понимаемой исключительно представителями определенных онлайн-сообществ, социальных сетей, дискуссионных площадок, субкультур. Например, использование в сообщениях слова "unfollow" в сети Twitter означает негативное отношение к автору.

Автор:
Manager of Linguistic Products Department

Читайте также:

Добавить комментарий:

Blog comments powered by Disqus