Інтелектуальний модуль розпізнавання емоцій за голосом


Автор:	Іларіонов О.Є., Красовська Г.В., Доманецька І.М.
Назва:	Інтелектуальний модуль розпізнавання емоцій за голосом
Видавництво:	Київський університет
Рік:	2021
Сторінок:	С. 46-52
Тип документу:	Стаття
Головний документ:	Сучасні інформаційні технології
Анотація:	Для людей мовлення є основним засобом комунікації, причому люди з мовлення можуть отримувати не тільки семантичну, а й емоційну інформацію. Розпізнавання емоцій за голосом є актуальним для таких галузей, як надання психологічної допомоги, розроблення систем безпеки, виявлення брехні, аналіз зв’язків із клієнтами, розроблення відеоігор. Оскільки розпізнавання емоцій людиною є суб’єктивним, а отже неточним, та потре-бує багато часу, існує необхідність у створенні програмного забезпечення, яке могло б розв"язати цю задачу. У статті розглянуто стан проблеми розпізнавання емоцій людини за голосом. Проаналізовано сучасні публікації, використані в них підходи, а саме: моделі емоцій, набори даних, методи вилучення ознак, класифікатори. Ви-значено, що існуючі розробки мають середню точність близько 0,75. Проаналізовано загальну структуру сис-теми розпізнавання емоцій людини за голосом, спроєктовано та розроблено відповідний інтелектуальний мо-дуль. За допомогою уніфікованої мови моделювання UML (від англ. "Unified Modeling Language") створено діаг-раму компонентів і діаграму класів. Як набори даних обрано датасети RAVDESS і TESS для урізноманітнення навчальної вибірки. Використано дискретну модель емоцій (радість, смуток, гнів, відраза, страх, здивування,& спокій, нейтральна емоція), метод MFCC (мел-частотні кепстральні коефіцієнти від англ. "Mel Frequency Cepstral Coefficients") для вилучення ознак, згорткову нейронну мережу для класифікації. Нейронну мережу розроблено з використанням бібліотек для м&ашинного навчання TensorFlow і Keras. Побудовано спектрограму та графіки аудіосигналу, а також графіки точності та похибки розпізнавання. За результатами програмної реалізації інтелектуального модуля розпізнавання емоцій за голосом збільшено точність& валідації до 0,8. Speech is the main way of communication for people, and people can receive not only semantic but also emotional information from speech. Recognition of emotions by voice is relevant to areas such as psychological care, security &systems development, lie detection, customer relationship analysis, video game development. Because the recognition of emotions by a person is subjective, and therefore inexact and time consuming, there is a need to create software that could solve t&his problem. The article considers the state of the problem of recognizing human emotions by voice. Modern publications, the approaches used in them, namely models of emotions, data sets, methods of extraction of signs, classifiers are analyzed. It i&s determined that existing developments have an average accuracy of about 0.75. The general structure of the system of recognition of human emotions by voice is analyzed, the corresponding intellectual module is designed and developed. A Unified Mode&ling Language (UML) is used to create a component diagram and a class diagram. RAVDESS and TESS datasets were selected as datasets to diversify the training sample. A discrete model of emotions (joy, sadness, anger, disgust, fear, surprise, calm, neu&tral emotion), MFCC (Mel Frequency Cepstral Coefficients) method for extracting signs, convolutional neural network for classification were used.. The neural network was developed using the TensorFlow and Keras machine learning libraries. The spectro&gram and graphs of the audio signal, as well as graphs of accuracy and recognition errors are constructed. As a result of the software implementation of the intelligent module for recognizing emotions by voice, the accuracy of validation has been inc&reased to 0.8.

Опис документа: