У статті описується розробка експериментальної системи перетворення мовленнєвого сигналу на текст, що складається як зі слів, так і з субслівних елементів. Велику увагу приділено вибору навчальної вибірки для оцінки параметрів акустичної моделі розпізнавання. Зокрема розглядалися такі варіанти: модель, побудована лише на злитому мовленні; модель, що об’єднує злите мовлення та ізольовані слова;
модель, що не враховує наголошеність голосних; та модель, що враховує наголошеність лише голосних «и» та «е». Проводиться оцінка параметрів акустичної моделі на основі однодикторного мовленнєвого корпусу. Вибираються коефіцієнти, які компенсують невідповідності шкали акустичної та лінгвістичної складової моделі розпізнавання. Наводяться результати експериментальних досліджень.
В статье описывается разработка экспериментальной системы преобразования речевого сигнала в текст, который состоит как из слов, так и из субсловных элементов. Большое внимание уделено выбору обучающей выборки для оценки параметров акустической модели распознавания. В частности рассматривались такие варианты: акустическая модель, построенная только на слитной речи; модель, объединяющая слитую речь и изолированные слова; модель, не учитывающая ударность гласных; и модель, учитывающая ударность только гласных «ы» и «е». Проводится оценка параметров акустической модели на основе однодикторного речевого корпуса. Выбираются коэффициенты, компенсирующие несоответствия шкалы акустической и лингвистической составляющей модели распознавания. Приводятся результаты экспериментальных исследований.
This paper describes the development of experimental systems of speech signal to text conversion based on words and sub-words. Main attention is paid to selecting of training set for estimation of the parameters of acoustic recognition models. Particularly, the following options are considered: acoustic model based only on continuous speech, a model that integrates continuous speech and isolated words, a model that ignores stress vowels, and a model that takes into account only stress vowels “y” and “e”. The estimation of acoustic model parameters is based on mono-speaker speech corpus. The factors compensating the inconsistency of acoustic and linguistic component model scales are analyzed and their values are explored. The results of experimental research are discussed.