Для анализа я отобрал все студийные официальные альбомы вышедшие у исполнителей:
1.
Kasta: «Громче воды, выше травы»; «Быль в глаза»; «Четырёхглавый Орёт»; «Об изъяне понятно» — 74 трека.
2.
Noize Mc: «The Greatest Hits Vol. 1»; «Последний альбом»; «Новый альбом»; «Protivo Gunz»; «Неразбериха»; «Hard Reboot 3.0»; «Царь горы»; «Хипхопера: Орфей & Эвридика» — 160 треков.
3.
Pharaoh: «Уаджет»; «Phlora»; «Dolor»; «Phosphor»; «Pink Phloyd»; «Phuneral»; «Правило» — 95 треков.
4.
Morgenshtern: «До того как стал известен»; «Улыбнись, дурак!»; «Легендарная пыль» — 30 треков.
Для сбора самих слов я использовал сайт genius.com и их API. К счастью, разработчики сервиса предоставляют открытый интерфейс программирования приложений (API) позволяющий достаточно легко извлекать тексты песен (по артистам, альбомам) из базы данных для их последующего анализа.
Весь анализ был произведён с использованием языка программирования R. Для стемминга был использован python.
На рисунке 1 показано, сколько различных слов было использовано исполнителями в перечисленных выше альбомах
Рисунок 1
Интересно, что Фараон и Нойз имеют практически одинаковое количество альбомов, но, как видно из графика, качество альбомов сильно отличается
Для того, чтобы сделать сравнение более корректным и правильным, было подсчитано сколько в среднем слов использует тот или иной артист в одной своей песне:
Noize Mc — 362 слова.
Каста — 388 слов.
Фараон — 254 слова.
Моргенштерн — 273 слова
На рисунке 2 приведен топ 10 слов у каждого из артистов, а также количество упоминаний этих слов:
Рисунок 2
Без специальной обработки «топ-словами» являются предлоги, местоимения и союзы, которые не отражают никаких результатов и не несут особой смысловой нагрузки.
Следующим этапом была обработка и подготовка текстов для анализа. Процесс стеммизации был произведён с помощью программы mystem от Yandex в Python. Данный шаг был проделан для того, чтобы понять сколько уникальных слов используют артисты и насколько широко они задействуют русский язык в своих текстах. Также для того, чтобы получить более репрезентативный результат необходимо избавиться от стоп-слов, которые не несут эмоциональной и смысловой нагрузки (предлоги, местоимения, частицы и др.).
Как видно из рисунка 3, количество слов значительно уменьшилось после стемминга и удаления стоп-слов.
Рисунок 3
Очень важная и интересная информация — это количество уникальных слов у каждого из артистов. У Нойза это 8891 слово, у Касты 5307, у Фараона 3899 и у Моргенштерна 1242. Кто хочет немного расширить свой словарный запас, но не хочет читать книги, может слушать Noize Mc и Касту.
На рисунке 4 приведена информация о наиболее часто используемых словах в исследованных текстах песен
Рисунок 4
Так как артисты для написания своих песен используют один язык, будет интересно посмотреть, какие слова чаще всего встречаются в текстах песен всех 4 исполнителей. Для данного графика (Рисунок 5) была использована функция commonality.cloud из пакета «wordcloud». Размер шрифта соответствует частоте упоминаний слова в текстах.
Рисунок 5
Сентиментальный анализ текста
У каждого фильма, книги или песни есть своё настроение, которое передаётся зрителям или слушателям и воздействует на них. Интересно увидеть какое настроение транслируют своим слушателям исполнители старой и новой школы. Узнать это можно проанализировав, слова из какой категории: «Негативные», «Позитивные», «Нейтральные», преобладают в песнях музыкантов.
Моргенштерн. На рисунке 6 представлены слова с частотой повторения более 10 раз.
Рисунок 6
Довольно сильно выделяется обильное количество красных столбцов, а если разобраться что это за слова, то становится вдвойне печально от того, какой посыл этот исполнитель несет своей аудитории.
Фараон. Лексикон также оставляет желать лучшего. На рисунке 7 представлены слова с частотой повторения более 20 раз.
Рисунок 7
Каста. Яркое преобладание слов с позитивным оттенком. Да и негативные слова не шокируют своей безнравственностью. Частота >= 25
Рисунок 8
Ну и напоследок, мастер рифмы и слова Noize Mc (частота >= 30).
Рисунок 9
Обилие негативно окрашенной лексики, которую используют в своих песнях Моргенштерн и Фараон, сказывается на восприятии их песен и на том настроении, которое они транслируют. Сложно получать приятные эмоции от музыки, когда она изо всех сил навязывает тебе обратное.
Так как используемый словарь с сентиментальным разбором содержит в себе далеко не все слова, трудно сделать стопроцентный и уверенный вывод о настроении песен у артистов, так как многое зависит также и от контекста. Однако, я покажу вам сколько и каких слов используют артисты (из того, что удалось присоединить).
Рисунок 10
Очевидно, что большинство слов у всех артистов имеют нейтральный оттенок, который практически никак не влияет на слушателя. Но, что интересно, Фараон и Моргенштерн используют больше слов с негативным оттенком чем с позитивным. И это, несмотря на неполноценность словаря и отсутствие там множества нецензурных слов и их вариаций
Рисунок 11
У Касты и Нойз Мс также лидируют нейтральные слова, но на втором месте находятся позитивные, которые не вызывают у нас отрицательных эмоций.
Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать. Но взгляните еще раз на графики и подумайте, чем вы хотите наполнить свои будни. Музыка сопровождает нас везде и часто очень сильно влияет на наше настроение, так зачем осознанно каждый день делать его хуже?
Учите языки программирования, развивайтесь и слушайте качественную музыку на написание которой уходит более семи дней онлайн времени на ютубе. Для тех кто не в курсе, альбом Моргенштерна «Легендарная Пыль» записывался 6 дней во время онлайн трансляций на ютубе и в итоге стал самым успешным в карьере Моргенштерна, набрав ВКонтакте миллион прослушиваний за первые полчаса релиза и пять миллионов прослушиваний за одиннадцать часов. За первые два дня после релиза альбом прослушали ВКонтакте более 21 миллиона раз, что является рекордом для социальной сети.
Источник https://habr.com/ru/post/501162/