Рассмотрена актуальная задача поиска линейных спектральных частот (ЛСЧ), являющихся альтернативной формой представления полюсной модели голосового тракта. Проведено исследование взаимного расположения ЛСЧ на смежных квазистационарных временных интервалах (фреймах). На основании этого предложен новый подход к вычислению ЛСЧ, состоящий из двух этапов - локализации ЛСЧ и их точного вычисления. Показано, что этап локализации эффективно сводится к проверке свойства межфреймовой упорядоченности ЛСЧ. Продемонстрировано, как для ускорения стадии точного вычисления ЛСЧ могут быть использованы их значения, найденные на предыдущем фрейме. В результате тестирования различных речевых сигналах продемонстрировано сокращение количества операций до 2.5 раз по сравнению с версией метода, не использующей априорную информацию о взаимном расположении ЛСЧ на смежных фреймах, и до 3.4 раз по сравнению с широко используемым методом Кабала. Кроме того, показано, что максимальные (пиковые) вычислительные затраты предложенного метода меньше не только минимальных затрат метода Кабала, но и минимальных затрат ускоренной комбинации метода Кабала с методом Ньютона. Это свидетельствует о предпочтительности использования разработанного метода в системах реального времени.
Розглянуто актуальну проблему пошуку лінійних спектральних частот (ЛСЧ), які є еквівалентною формою представлення полюсної моделі голосового тракту. Виконано дослідження взаємного розташування ЛСЧ на суміжних квазістаціонарних часових інтервалах (фреймах). На основі цього запропоновано новий підхід до обчислення ЛСЧ, який складається з двох етапів - локалізації ЛСЧ та їх точного обчислення. Показано, що етап локалізації ефективно зводиться до перевірки властивості міжфреймової упорядкованості ЛСЧ. Продемонстровано, як для прискорення стадії точного обчислення ЛСЧ можуть бути використані їхні значення, знайдені на попередньому фреймі. У результаті тестування на різноманітних мовних сигналах продемонстровано зменшення кількості операцій до 2.5 разів у порівнянні з версією методу, який не використовує апріорну інформацію про взаємне розташування ЛСЧ на суміжних фреймах, та до 3.4 разів у порівнянні з широко використовуваним методом Кабала. Окрім того, показано, що максимальні (пікові) обчислювальні витрати запропонованого методу менші не тільки за мінімальні витрати методу Кабала, але й за мінімальні витрати прискореної комбінації методу Кабала з методом Ньютона. Це свідчить про перевагу застосування розробленого методу в системах реального часу.
The paper is dedicated to an important problem of calculation of line spectral frequencies (LSF), being the alternative form of representation of all-pole vocal tract model. Investigation of LSF relative position on the adjacent quasi-stationary time intervals (frames) is performed. On this basis a new two-stage approach to LSF calculation is proposed. This approach consists of two parts: LSF localization and their refinement. It was shown that the localization stage is effectively reduced to verification of interframe ordering property. It is also demonstrated how LSF values obtained in the previous frame can be used to accelerate the LSF refinement stage. As a result of testing on various speech signals, the 2.5 times reduction of the number of operations is shown in comparison with the similar algorithm without allowance for a priory information about relative LSF position on the adjacent frames. It was also shown that computational expenses are reduced 3.4 times in comparison with widely used Kabal's method. Moreover, it is demonstrated that the maximum (peak) computational expenses of the proposed method are lower than minimal ones both for Kabal's method and the accelerated combination of Kabal's method with Newton's method. These results show the advantage of applying the proposed method in real-time systems.