Интеллектуальный анализ данных на базе глубокого обучения с подкреплением для прогноза рабочих частот и полос в системе когнитивного радио
Ключевые слова:
когнитивное радио, обучение с подкреплением, глубокое обучение, искусственная нейронная сеть, многослойный персептрон, функция вознаграждения, программно-определяемое радио, синтетические данные, аугментация, искусственный интеллектАннотация
В работе предложен метод решения задачи выбора канала связи в когнитивном радио на основе информации о текущем состоянии всех доступных каналов связи с использованием математического аппарата обучения с подкреплением. Метод заключается в формализации задачи выбора каналов связи в терминах «среда-агент» и обучении агентов с помощью алгоритмов Reinforce, SARSA и A2C. Приведён расчёт затрат памяти на решение задачи выбора каналов связи классическими методами. Оценка по памяти составляет 4×22n байт для случайного состояния каналов (занят/свободен) и 4×n2 байт – для одного свободного канала на каждом шаге при решении задачи табличным алгоритмом Q-обучения. Приведены две различные формализации вознаграждения для агента в рамках решаемой задачи при использовании обучения с подкреплением – для тривиального случая (бинарная доступность / недоступность частотного канала) и для более сложного случая – с учётом мощности (в дБ) в выбранном канале связи. Ограничение на первую формализацию состоит в том, что на каждой итерации должен быть только один свободный канал связи из всех доступных. Вторая предложенная формализация функции вознаграждения не накладывает подобных ограничений и более универсальна. Проведены вычислительные эксперименты для обеих формализаций функции вознаграждения, агенты обучающиеся с помощью алгоритмов SARSA и A2C, в среднем, достигают безошибочного решения задачи за 8000 эпизодов обучения для обеих формализаций обучения в модельной задаче для различных реализаций агентов. Алгоритм REINFORCE не позволяет достигать безошибочного решения, однако, формализация вознаграждения с учётом мощности повышает стабильность обучения алгоритмом REINFORCE. Даны теоретические оценки вычислительной сложности рассматриваемых методов, согласующиеся с вычислительными экспериментами.
Литература
2. Fette B.-A. Cognitive Radio Technology // Elsevier. 2006. 622 p.
3. Комашинский В.И., Смирнов Д.А. Нейронные сети и их применение в системах управления и связи // М.: Горячая линия–Телеком. 2003. 93 с.
4. Голубинский A.Н., Толстых А.А. Гибридный метод обучения сверточных нейронных сетей // Информатика и автоматизация. 2021. Т. 20. № 2. С. 463–490. DOI: 10.15622/ia.2021.20.2.8.
5. Wu C., Chowdhury K.-R., Di Felice M., Meleis M. Spectrum Management of Cognitive Radio Using Multi-Agent Reinforcement Learning // 9th International Conference on Autonomous Agents and Multiagent Systems. 2010. vol. 1–3. pp. 1705–1712. DOI: 10.1145/1838194.1838199.
6. Kiran U., Kumar P.-D., Reddy R.-K., Ranjith M. Efficient Exploration for Reinforcement Learning Based Distributed Spectrum Sharing in Cognitive Radio System // International Journal of Advanced Research in Electrical, Electronics and Instrumentation Engineering. 2013. vol. 2. no. 11. pp. 5596–5604.
7. Yau K.-L.-A., Poh G.-S., Chien S.-F., Al-Rawi1 H.-A.-A. Application of Reinforcement Learning in Cognitive Radio Networks: Models and Algorithms // The Scientific World Journal. 2014. vol. 1. pp. 1–23. DOI: 10.1155/2014/209810.
8. Abolarinwa J.-A., Latiff A.-N.-M. Channel Decision in Cognitive Radio Enabled Sensor Networks A Reinforcement Learning Approach // International Journal of Engineering and Technology (IJET). 2015. vol. 7. no. 4. pp. 1394–1404.
9. Raj V., Dias I., Tholeti T., Kalyani S. Spectrum Access In Cognitive Radio Using A Two Stage Reinforcement Learning Approach // IEEE. 2018. vol. 12. no. 1. pp. 20–34. DOI: 10.1109/JSTSP.2018.2798920.
10. Tubachi S., Venkatesan M., Kulkarni A.-V., et al. Predictive learning model for Cognitive Radio using Reinforcement Learning // IEEE International Conference on Power, Control, Signals and Instrumentation Engineering (ICPCSI). 2017. pp. 564–567. DOI: 10.1109/ICPCSI.2017.8391775.
11. Jang S.-J., Han C.-H., Lee K.-E., et al. Reinforcement learning-based dynamic band and channel selection in cognitive radio ad-hoc networks // J Wireless Com Network. 2019. vol. 2019. pp. 1–25. DOI: 10.1186/s13638-019-1433-1.
12. Singhal C., Thanikaiselvan V. Cross Layering Using Reinforcement Learning In Cognitive Radio-Based Industrial Internet Of Ad-Hoc // International Journal of Computer Networks & Communications (IJCNC). 2022. vol. 14. no. 4. pp. 1–17. DOI: 10.5121/ijcnc.2022.14401.
13. Talekar S., Banait S., Patil M. Improved Q-Reinforcement Learning Based Optimal Channel Selection In Cognitive Radio Networks // International Journal of Computer Networks & Communications (IJCNC). 2023. vol. 15. no. 3. pp. 1–14. DOI: 10.5121/ijcnc.2023.15301.
14. Rosen D., Rochez I., McIrvin C., Lee J., D’Alessandro K., Wiecek M., et al. RFRL Gym_A Reinforcement Learning Testbed for Cognitive Radio Applications // International Conference on Machine Learning and Applications (ICMLA). 2023. pp. 279–286. DOI: 10.1109/ICMLA58977.2023.00046.
15. Отчет (Сектора связи Международного союза электросвязи) МСЭ-R SM.2152 (09/2009) «Определения системы радиосвязи с программируемыми параметрами (SDR) и системы когнитивного радио (CRS)».
16. Chitnavis S., Kwasinski A. Cross Layer Routing in Cognitive Radio Network Using Deep Reinforcement Learning // IEEE Wireless Communications and Networking Conference (WCNC). 2019. pp. 1–13. DOI: 10.1109/WCNC.2019.8885918.
17. Obite F., Usman A.-D., Okafor E. An overview of deep reinforcement learning for spectrum sensing in cognitive radio networks // Digital Signal Processing. 2021. vol. 113. pp. 1–18. DOI: 10.1016/j.dsp.2021.103014.
18. Tondwalkar A., Kwasinski A. Deep Reinforcement Learning for Distributed and Uncoordinated Cognitive Radios Resource Allocation. 2022. pp. 1–13. arXiv: 2205.13944v1.
19. Саттон Р. С., Барто Э. Дж. Обучение с подкреплением // М.: ДМК Пресс. 2020. 552 с.
20. Грессер Л., Кенг В.Л. Глубокое обучение с подкреплением: теория и практика на языке Python // СПб.: Питер. 2022. 416 с.
21. Wang H., Yu Y. Exploring Multi-Action Relationship in Reinforcement Learning // Springer, Cham. 2016. pp. 1–13. DOI: 10.1007/978-3-319-42911-3_48.
22. Kingma D., Ba J. Adam: A Method for Stochastic Optimization. // CoRR. 2014. Т. abs/1412.6980.
Опубликован
Как цитировать
Раздел
Copyright (c) Андрей Андреевич Толстых, Андрей Николаевич Голубинский

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).