Читать онлайн Обнаружение скрытых эмоций в голосе бесплатно
Введение
Заманчивая цель. Создать прибор, с помощью которого можно узнать, говорит ли ваш собеседник правду. Эта задача была актуальной как много веков назад, так и в настоящее время. Самым простым методом добиться этого является насилие, а более цивилизованным способом добывания правдивых сведений следует считать применение различных препаратов. Оба этих метода основаны на подавлении воли человека. Однако с древних времён предпринимались действия, направленные на обнаружение каких-то признаков в поведении человека, указывающие на попытки скрыть информацию, и которые не зависели от волевого настроя. Таким примером служило использование кольца на шнурке вместе с разложенным алфавитом. Например, у человека нужно было выпытать фамилию руководителя заговора. Допрашиваемого просили назвать первую букву имени, вручали ему конец шнура и заставляли двигать кольцо над разложенным алфавитом. Предполагалось, что в момент совпадения положений кольца и нужной буквы рука испытуемого дрогнет, что будет зафиксировано наблюдателем. Последнему отводилась основная роль в проведении дознания.
Следующий шаг в решении проблемы был сделан в связи с появлением всем известного прибора под названием «детектор лжи». Оставляя за скобками моральные проблемы и достоверность получаемого результата, отметим одну особенность присущую всем этим методам – испытуемый знает, что он подвергается допросу, поскольку имеет место непосредственный контакт между ним и лицом ведущим допрос. В этой связи появилась задача найти бесконтактный способ проверки правдивости говорящего, когда формально никакого дознания не производится. Речь идёт о визуальном и голосовом анализе говорящего человека. Считается, что мимика, поза и выражение глаз выдают лгущего, а голос его меняется определенным образом.
В настоящее время принято считать, что на самом деле все упомянутые методы, за исключением прямого насилия, позволяют лишь определить наличие эмоционального возбуждения собеседника, причиной чего могут быть различные обстоятельства, не связанные с попыткой обмануть. В случае использования детектора лжи, действительно, можно сделать заключение о ложности высказывания, однако, весь фокус заключается в квалификации оператора, ведущего допрос. Сам прибор лишь фиксирует изменение физиологических параметров. Говорят, что существуют феноменальные люди, обладающие способностью определить лгущего, исходя из визуальной информации. Однако наука начинается с возможности повторения эксперимента. Если сунуть два пальца в розетку под напряжением, эффект не будет зависеть от экспериментатора. Результаты опыта могут иметь вероятностный характер, примером чего является наблюдение над подбрасыванием монеты. И здесь личность экспериментатора не оказывает влияния на конечный результат, а мы фиксируем повторяемость. Если попросить человека, обладающего секретом распознавания лжи, рассказать, как он это делает и передать эти сведения другому человеку, то здесь нет той независимости, о которой шла речь выше. Имеется большое количество публикаций в популярной литературе, как определить правдивость говорящего, но результаты применения таких признаков на практике оцениваются весьма скромно. Здесь, как и в случае стандартного детектора лжи, на первый план выходит личность «оператора», который создаёт нужный контекст и только после этого делает выводы.
Предметом рассмотрения в данной книге являются способы определения изменения эмоционального состояния говорящего, для чего приводятся различные методы извлечения характеристик речевого файла с помощью цифровой обработки сигналов. В настоящее время опубликовано большое количество работ посвященных определению эмоционального состояния человека. В основе методов лежит нейронная сеть, которую с помощью тренировки обучают распознавать вид эмоционального возбуждения. При этом основное внимание уделяется именно определению типа наблюдаемой эмоции. Проблема заключается в создании базы, применяемой для тренировки. Эти базы создаются с помощью актеров, которых просят представить диктора в том или ином эмоциональном состоянии, и уже на основе этой базы делают выводы при анализе файла испытуемого. Очевидны минусы такого подхода, поскольку даже специалисты спорят о типе эмоций исследуемого в пограничных случаях. В этой книге ставится задача определения моментов изменения эмоционального состояния без попытки указать на тип эмоции. В процессе анализа получаем усредненные параметры речи и фиксируем фрагменты, в которых эти параметры отклоняются от средних значений. В книге использованы известные методы для описания характеристик звукового файла, описанные в научной литературе, а также методы, разработанные самим автором.
Сразу же следует сказать, что все известные подходы к оценке эмоционального состояния человека не обеспечивают 100% достоверности вывода, поэтому не надо относиться слишком серьёзно к результатам, полученным с помощью описанных ниже алгоритмов анализа. Скорее всего, материал книги нужно рассматривать как основу для хобби. Для всех рассмотренных алгоритмов приведены реализации на Питоне или их словесные описания, поэтому любой человек, обладающий элементарными навыками программирования, может их использовать в реальной жизни, например, на вечеринках для развлечения гостей . Если же они оказались полезными в более серьёзной ситуации, автор книги будет полагать, что достиг максимальной возможной цели.
Кому адресована данная книга
Сказанное выше означает, что приведённые алгоритмы образуют конструктор, из которого каждый может сделать консольную программу по своему вкусу. Алгоритмы не содержат графической интерфейсной части, которую предлагается создать самому читателю в случае необходимости, а приводимые модули являются консольными приложениями. Существующие в Интернете программы, решающие проблему анализа речи, содержат в интерфейсной части какие-то параметры, смысл которых не всегда ясен. В случае самоделки все находится в руках программиста. Как уже упоминалось выше, предполагается знание языка программирования Питон (только базовые знания) и доступ к основным библиотекам: numpy, scipy, matplotlib, scikit-learn и некоторым другим. Приводятся только тексты нестандартных, по мнению автора, модулей Для остальных модулей дается словесное описание алгоритм. Более существенным моментом является владением основами цифровой обработки сигналов, если есть желание понять, что именно измеряется. А когда такого желания нет, достаточно уметь пользоваться числами, полученными в результате вычислений. Книга не является учебником по упомянутым областям знаний, поскольку в настоящее время имеется бесплатный доступ к нужной литературе.
Что касается «железа», то необходимо обеспечить доступ к речевым файлам и способ ввода их в компьютер. Для этих целей может понадобиться микрофон либо обычный смартфон с приложением «Диктофон». Здесь следует сделать несколько замечаний. Для анализа важен способ записи речевого файла. Рекомендуется стандартный формат с частотой записи 44100 Hz. Именно эта частота предполагается, когда речь идет об отдельных параметрах алгоритмов. Программы записи в диктофонах, как правило, используют сжатие файла и перевод его в соответствующий формат. Все алгоритмы, реализованные в книге, предполагают формат wav речевого файла, поэтому будет необходимо перевести исходный файл в этот формат. Наиболее универсальным средством, решающим данную задачу, является бесплатная программа ffmpeg. Другой полезной программой для работы с аудио файлами является бесплатная программа Audacity. Она пригодится для ввода файлов с микрофона, перевода в формат wav и для редактирования файлов.