Доминирующий эмоциональный посыл текстов

По визуализации MDS видно, что тексты группируются в разные цветовые области, соответствующие значениям sentiment.
Однако в таблице Feature Statistics показатель sentiment имеет:

  • Mean = 0

  • Median = 0

  • Min = 0

  • Max = 0

То есть все тексты получили нулевую тональность.

Вывод:
Доминирующий эмоциональный посыл нейтрален.
Ни один текст (по данным вашей модели sentiment) не демонстрирует выраженно позитивного или негативного окраса.

Это означает, что либо:

  1. Модель тональности в Orange работает очень грубо / не чувствительна к поэтическим описаниям природы,

  2. Либо тексты действительно описательные, без выраженных эмоциональных оценок.               
    Какой текст наиболее эмоционален?

Так как sentiment одинаков для всех (0), оценивать эмоциональность приходится по расположению объектов в MDS, то есть косвенно — по близости к тематическим кластерам (Topic 1, Topic 2, Topic 3).

В первой MDS-проекции наиболее удалённым от других — значит, более отличающимся по смысловой структуре — является текст:

«С приходом весны город словно становится живым.»

Он находится в отдельной зоне цветовой области и заметно дистанцируется от остальных.

Вывод:
Этот текст — наиболее эмоциональный среди представленных.

Почему?
Потому что содержит явный метафорический приём (“город становится живым”), что усиливает эмоциональность.

На второй визуализации выделяется текст:

«Всё вокруг кажется хрупким и прозрачным, будто нарисованным на стекле.»

Он размещён ближе к участку с ярко выраженным градиентом и тоже имеет наиболее поэтическую, образную форму.

 Какая модель даёт наиболее точную оценку?

У вас в данных присутствуют:

  • sentiment — модель тональности,

  • Topic 1, Topic 2, Topic 3 — вероятно, тематическое распределение из LDA или другой topic-model.

Так как sentiment не дал различий (все равны 0), а topic-модель разделила тексты на несколько групп, можно сказать:

Модель тем (Topic Modeling) даёт более адекватную и полезную оценку.

Она:

  • хорошо различает тексты по содержанию,

  • создаёт кластеры, которые отражаются на MDS,

  • позволяет видеть смысловые направления: «весна», «природа», «холод», «снег», «город».

Модель тональности же, судя по нулевым значениям не даёт различий и, вероятно, не подходит для художественных описаний.

Поэтому наиболее точной в данном анализе является topic-model, а не sentiment.


1. «Утро — дождь — осенний вечер»

(Голубой кластер)

Эти тексты, судя по объединению, связаны с атмосферными или временными характеристиками дня:
 • время суток (утро, вечер)
 • состояние погоды (дождь)
 • сезонность («осенний вечер»)

Объединение объяснимо тем, что такие описания часто содержат:
 • похожие эмоциональные оттенки,
 • элементы атмосферы (свет, влажность, температура),
 • описания неярких природных процессов.

2. «Ручей — морозный день — гроза — вечер — опушка — весна — лес»

(Красный и зелёный кластеры, в зависимости от глубины одинаковые или разделённые на 2 кластера)

Здесь собрались тексты, описывающие конкретные природные объекты и явления:
 • природные ландшафты: лес, опушка;
 • сезоны: весна, «морозный день» (зима);
 • процессы: ручей, гроза.

Обоснование:
 • эти тексты чаще содержат динамику природы (течение, ветер, снег, буря);
 • упоминают конкретные природные элементы, а не ситуацию во времени;
 • лексика более «натурная» — растения, вода, свет, звук.




Комментарии

Популярные сообщения из этого блога