У статті розглянуто сучасні підходи до автоматизованого розпізнавання емоцій і певних психологічних станів людини за її голосом. Запропоновано структуру системи ідентифікації емоцій, що використовує попередню обробку аудіо сигналу (шумозниження та сегментацію за учасниками), а також множини акустичних, просодичних та екстралінгвістичних характеристик мовлення для створення ознакового опису. Результати численнних досліджень вказують на необхідність застосування даних характеристик.
Modern approaches to automated recognition of emotions and psychological conditions by voice are described. The structure system for speaker emotion identification that uses a preprocessing audio signal (noise reduction and segmentation by participants) and a set of acoustic and prosodic features of speech and extra linguistic feature to create describing vector are proposed. The results of numeric research point to the necessity to use these characteristics together.