Методика компрессии данных в накристальных и межпроцессорных сетях с широкими каналами и политикой управления потоком wormhole
Ключевые слова:
архитектура процессора, подсистема памяти, аппаратная компрессия данных, сеть-на-кристалле, межпроцессорные каналы связи, модель процессораАннотация
Увеличение количества вычислительных ядер является одним из основных современных способов повышения производительности процессоров. При этом увеличивается и нагрузка на подсистему памяти процессора в связи с растущим числом инициаторов обращений в память. Одним из нестандартных подходов к повышению производительности подсистемы памяти является аппаратная компрессия данных, позволяющая, во-первых, повысить эффективный объем кэш-памяти, снижая частоту запросов в оперативную память, а во-вторых, снизить интенсивность трафика в подсистеме памяти за счет более плотной упаковки данных. В работе рассматривается применение аппаратной компрессии данных в сети-на-кристалле и межпроцессорных каналах связи в конфигурации с широкими каналами передачи данных и политикой управления потоком wormhole. Существующие решения для такой конфигурации нельзя считать применимыми, т.к. они принципиально основаны на использовании узких каналов передачи данных и политиках управления потоком, предполагающих передачу пакета в неразрывном виде, что может не соблюдаться при применении политики wormhole. Предлагаемая в работе методика позволяет использовать аппаратную компрессию для рассматриваемой конфигурации за счет переноса процесса компрессии и декомпрессии из самой сети в соединяемые устройства, а также ряда оптимизаций по сокрытию задержек на преобразование данных. Рассматриваются оптимизации некоторых частных случаев передачи данных – передачи больших пакетов данных, состоящих из нескольких кэш-строк, а также нулевых данных. Особое внимание в работе уделено передаче данных по межпроцессорным каналам связи, в которых, в связи с их меньшей пропускной способностью по сравнению с сетью-на-кристалле, применение компрессии способно оказать наибольший эффект. Повышение пропускной способности подсистемы памяти при использовании в ней аппаратной компрессии данных подтверждается экспериментальными результатами, показывающими относительное увеличение IPC в задачах пакета SPEC CPU2017 до 14 процентов.
Литература
2. Mohamed A.M., Mubark N., Zagloul S. Performance aware shared memory hierarchy model for multicore processors. Scientific Reports. 2023. vol. 13(1). no. 7313.
3. Iyer R., De V., Illikkal, R., Koufaty, D., Chitlur, B., Herdrich, A., Khellah M., Hamzaoglu F., Karl E. Advances in microprocessor cache architectures over the last 25 years. IEEE Micro. 2021. Т. 41. № 6. С. 78–88.
4. Papazian I.E. New 3rd Gen Intel® Xeon® Scalable Processor (Codename: Ice Lake-SP) // Hot Chips Symposium. 2020. С. 1–22.
5. Zhan J., Poremba M., Xu Y., Xie Y. NoΔ: Leveraging delta compression for end-to-end memory access in NoC based multicores. 19th Asia and South Pacific Design Automation Conference (ASP-DAC). IEEE, 2014. pp. 586–591.
6. Deb D., Rohith M.K., Jose J. Flitzip: Effective packet compression for noc in multiprocessor system-on-chip // IEEE Transactions on Parallel and Distributed Systems. 2021. Т. 33. № 1. pp. 117–128.
7. Wang Y., Han Y., Zhou J., Li H., Li X. DISCO: A low overhead in-network data compressor for energy-efficient chip multi-processors // Proceedings of the 53rd Annual Design Automation Conference. 2016. С. 1–6.
8. Wang Y., Li H., Han Y., Li X. A low overhead in-network data compressor for the memory hierarchy of chip multiprocessors // IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems. 2017. vol. 37. no. 6. pp. 1265–1277.
9. Li X., Sondhi T. FlitReduce: Improving Memory Fabric Performance via End-to-End Network Packet Compression. UC Berkeley CS262A Report. 2021. 9 p.
10. Pullaiah T., Manjunathachari K., Malleswari B.L. BΔ-NIS: Performance analysis of an efficient data compression technique for on-chip communication network. Integration. 2023. vol. 89. pp. 83–93.
11. Pekhimenko G., Seshadri V., Mutlu O., Gibbons P.B., Kozuch M.A., Mowry T.C. Base-delta-immediate compression: Practical data compression for on-chip caches // Proceedings of the 21st international conference on Parallel architectures and compilation techniques. 2012. С. 377–388.
12. Gaur J., Alameldeen A.R., Subramoney S. Base-victim compression: An opportunistic cache compression architecture // ACM SIGARCH Computer Architecture News. 2016. vol. 44. no. 3. pp. 317–328.
13. Carvalho D.R., Seznec A. Understanding cache compression // ACM Transactions on Architecture and Code Optimization (TACO). 2021. vol. 18. no. 3. pp. 1–27.
14. Pekhimenko G., Seshadri V., Kim Y., Xin H., Mutlu O., Gibbons P.B., Kozuch M.A., Mowry T.C. Linearly compressed pages: A low-complexity, low-latency main memory compression framework // Proceedings of the 46th Annual IEEE/ACM International Symposium on Microarchitecture. 2013. С. 172–184.
15. Young V., Kariyappa S., Qureshi M.K. CRAM: Efficient Hardware-Based Memory Compression for Bandwidth Enhancement // arXiv preprint arXiv:1807.07685. 2018.
16. Choukse E., Erez M., Alameldeen A.R. Compresso: Pragmatic main memory compression // 51st Annual IEEE/ACM International Symposium on Microarchitecture (MICRO). IEEE, 2018. С. 546–558.
17. Сурченко А.В. Исследование применимости аппаратной компрессии данных в межпроцессорных каналах связи процессоров с архитектурой Эльбрус // Труды Института системного программирования РАН. 2022. Т. 34. № 1. С. 49–58.
18. Thuresson M., Spracklen L., Stenstrom P. Memory-link compression schemes: A value locality perspective // IEEE Transactions on Computers. 2008. vol. 57. no. 7. pp. 916–927.
19. Kozhin A.S., Surchenko A.V. Design of Data Compression Mechanism in Cache Memory of Elbrus Processors // International Conference Engineering and Telecommunication (En&T). IEEE, 2020. С. 1–5.
20. Nedbailo Y.A., Surchenko A.V., Bychkov I.N. Reducing miss rate in a non-inclusive cache with inclusive directory of a chip multiprocessor // Computer Research and Modeling. 2023. vol. 15. no. 3. pp. 639–656.
21. Nedbailo Y. Fast and scalable simulation framework for large in-order chip multiprocessors // 26th Conference of Open Innovations Association (FRUCT). IEEE, 2020. pp. 335–345.
Опубликован
Как цитировать
Раздел
Copyright (c) Александр Викторович Сурченко, Юрий Александрович Недбайло
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).