Оценка влияния битности чисел с плавающей запятой на точность распознавания дикторов
Ключевые слова:
распознавание дикторов, нейронные сети, числа с плавающей запятой, квантованиеАннотация
В статье проводится анализ изменения точности распознавания личности по голосу при выделении разного количества бит на число с плавающей запятой (квантование) выходного тензора нейронной сети. Тензор характеризирует скрытое пространство нейронной сети, которое содержит скрытые признаки, используемые при решении задачи распознавания дикторов. Обычно, на каждое число выходного пространства выделяется тридцать два бита (выходной тензор, исследуемых методов содержит 512 чисел), поэтому для поддержки постоянно актуализируемой базы данных требуется большое количество памяти. Из-за этого, особый интерес представляет тип чисел с плавающей запятой – minifloat, позволяющий работать с численным представлениями, на которые выделяются восемь, шесть или четыре бита. Для обеспечения полноты результатов исследования, выбраны три нейросетевых решения, показывающие лучшие результаты распознавания на тестовой выборке: CAM++, WavLM, ReDimNet. Модели обладают уникальными архитектурными особенностями, что позволяет оценить изменение точности распознавания дикторов при уменьшении битности в зависимости от используемого типа архитектуры нейронной сети. Точность распознавания оценивается с помощью точки пересечения ошибок первого и второго рода. При проведении оценки точности распознавания используется англоязычный набор данных VoxCeleb-1, по характеристикам содержащихся аудиозаписей соответствует небольшой базе данных биометрической системы. Актуальность представленного материала обусловлена возрастающим количеством научных работ, которые предлагают использовать голос в качестве верификационного ключа. Поэтому, при работе с большим набором биометрических данных необходимо выделять большие объёмы памяти как на жёстких дисках, так и ОЗУ. Современные базы данных постоянно актуализируются и расширяются, что приводит к увеличению необходимых ресурсов на её поддержку. Одним из возможных методов решения может являться применение операции квантования к выходному тензору нейронной сети. Однако, преждевременное уменьшение количества выделяемых бит на число в выходном тензоре может привести к значительному ухудшению качества распознавания, относительно базовой версии сети. Основным направлением исследования является минимизация ресурсов для поддержки биометрической системы без дополнительного обучения нейронной сети.
Литература
2. Morin F., Bengio Y. Hierarchical Probabilistic Neural Network Language Model // Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics. 2005. pp. 246–252.
3. IEEE Standard for Floating-Point Arithmetic. IEEE Std 754TM-2019 (Revision of IEEE Std 754-2008). 2019. DOI: 10.1109/IEEESTD.2019.8766229.
4. Google Cloud Blog. BFloat16: The secret to high performance on Cloud TPUs // URL: https://cloud.google.com/blog/products/ai-machine-learning/bfloat16-the-secret-to-high-performance-on-cloud-tpus (дата обращения: 28.06.2025).
5. NVIDIA TF32 – DeepRec latest documentation. URL: https://deeprec.readthedocs.io/en/latest/NVIDIA-TF32.html (дата обращения: 01.06.2025).
6. Rouhani B.D., et al. OCP Microscaling Formats (MX) Specification. Open Compute Project. 2023.
7. Liu B., Wang H., Qian Y. Towards Lightweight Speaker Verification via Adaptive Neural Network Quantization // IEEE/ACM Trans. Audio Speech Lang. Process. 2024. vol. 32. pp. 3771–3784.
8. Hong Y., Chung W.-J., Kang H.-G. Optimization of DNN-based speaker verification model through efficient quantization technique. arXiv preprint arXiv:2407.08991. 2024.
9. Wang H., Liu B., Wu Y., Chen Z., Qian Y. Lowbit Neural Network Quantization for Speaker Verification // IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW). Rhodes Island, Greece: IEEE, 2023. pp. 1–5.
10. Jouppi N.P., et al. In-Datacenter Performance Analysis of a Tensor Processing Unit // Proceedings of the 44th Annual International Symposium on Computer Architecture. New York, NY, USA: Association for Computing Machinery, 2017. pp. 1–12. DOI: 10.1145/3079856.3080246.
11. Micikevicius P., et al. FP8 Formats for Deep Learning. arXiv preprint arXiv:2209.05433. 2022.
12. Nagrani A., Chung J.S., Zisserman A. VoxCeleb: a large-scale speaker identification dataset // Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. 2017. pp. 2616–2620. DOI: 10.21437/Interspeech.2017-950.
13. Wang H., Zheng S., Chen Y., Cheng L., Chen Q. CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking // Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. 2023. pp. 5301–5305. DOI: 10.21437/Interspeech.2023-1513.
14. Колмаков Н.П., Толстых А.А. Устойчивые признаки для распознавания дикторов на дискретных аудиосигналах. Сборник трудов XXIX Международной научно-технической конференции «Радиолокация, Навигация, Связь». 2023. С. 387–394.
15. Chung J.S., Nagrani A., Zisserman A. VoxCeleb2: Deep Speaker Recognition // Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. 2018. pp. 1086–1090. DOI: 10.21437/Interspeech.2018-1929.
16. Huang G., Liu Z., van der Maaten L., Weinberger K.Q. Densely Connected Convolutional Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. С. 2261–2269. DOI: 10.1109/CVPR.2017.243.
17. Yu Y.-Q., Zheng S., Suo H., Lei Y., Li W.-J. Cam: Context-Aware Masking for Robust Speaker Verification // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, ON, Canada: IEEE, 2021. pp. 6703–6707. DOI: 10.1109/ICASSP39728.2021.9414704.
18. Yakovlev I., et al. Reshape Dimensions Network for Speaker Recognition // Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. 2024. pp. 3235–3239.
19. Lin Y., Cheng M, Zhang F, Gao Y, Zhang S, Li M. VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark // Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. 2024. pp. 4263–4267.
20. Chen S., et al. WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing // IEEE J. Sel. Top. Signal Process. 2022. vol. 16. № 6. pp. 1505–1518.
21. Vaswani A., et al. Attention Is All You Need // Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2017. pp. 6000–6010.
22. Hendrycks D., Gimpel K. Gaussian Error Linear Units (GELUs). arXiv preprint arXiv:1606.08415. 2023.
23. GitHub. facebookresearch/libri-light: dataset for lightly supervised training using the librivox audio book recordings. https://librivox.org/ // URL: https://github.com/facebookresearch/libri-light (дата обращения: 02.02.2025).
24. Chen G., et al. GigaSpeech: An Evolving, Multi-Domain ASR Corpus with 10,000 Hours of Transcribed Audio // Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. 2021. pp. 3670–3674. DOI: 10.21437/Interspeech.2021-1965.
25. Wang C., et al. VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021. pp. 993–1003. DOI: 10.18653/v1/2021.acl-long.80.
26. Ioffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // Proceedings of the 32nd International Conference on International Conference on Machine Learning (PMLR). 2015. vol. 37. pp. 448–456.
Опубликован
Как цитировать
Раздел
Copyright (c) Никита Павлович Колмаков

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).