Запропонований метод стиснення моделей на основі імітації навчання від декількох вчителів надає можливість зменшити кількість помилок у порівнянні зі звичайним підходом студента-вчителя.
Цель статьи — предложить эффективный способ сжатия и обучения модели путем видоизменения способа дистилляции знаний. Методи. Для обеспечения большей точности и меньшего количества ошибок в модели предложен метод сжатия на основе введения регуляризатора, который добавляет гауссовский шум к знаниям учителя в методе студента-учителя (student-teacher training). Результат. Результаты экспериментов свидетельствуют, что при правильном подборе набора данных и уровня шума можно получить уменьшение количества ошибок до 11 процентов. Таким образом, использование предложенного метода привело к ускорению обучения модели студента (за счет того, что обучение, как таковое, уже было проведено ранее). А с помощью регуляризатора уменьшено количество ошибок, которые допускает сеть студента.
Purpose. The purpose of the article is to offer an effective way of compressing and learning the model through the modification of the distillation of knowledge method. Methods. To provide greater accuracy and fewer errors in the model, a compression method is proposed based on the addition of a regularizer that implements the Gaussian noise to the teacher's knowledge in the teacher-student methods. Result. The results of the experiments show that if the data and noise level is selected correctly, it is possible to reduce the number of errors to 11%. Consequently, the use of the proposed method leads to accelerated learning of the student model (due to the fact that the training as such has already been carried out earlier), and using the regularizer, the number of mistakes are done by the student network is reduced.