近日,由天翼云科技有限公司云网产品事业部天玑实验室撰写的《关于公有云区分负载QoS感知的内存资源动态超分管理优化》(Thoth:Provisioning Overcommitted Memory Resource with Differentiated QoS in Public Clouds)论文被2023年第25届国际高性能计算与通信会议 IEEE HPCC(IEEE International Conference on High Performance Computing and Communications)长文收录。
IEEE HPCC,是高性能计算领域较高水平的国际学术会议,也是中国计算机学会CCF推荐的国际会议之一。HPCC 由IEEE、IEEE计算机协会和IEEE 可扩展计算技术委员会(TCSC)支持,平均每年收到数百篇来自世界各地的论文投稿,每篇论文均经过2~4位同行专家的评审,近三年的论文接收率分别为16.4%(2022年)、21.1%(2021年)、15%(2020年)。此次天玑实验室论文被收录,意味着天翼云技术创新能力再获顶-级权威机构认可。
论文信息
Thoth: Provisioning Overcommitted Memory Resource with Differentiated QoS in Public Clouds. Proceedings of the 25th IEEE International Conference on High Performance Computing and Communications, Melbourne, Australia, December, 2023.
公有云场景下,租户通常会为业务负载分配比实际使用更多的内存来处理负载的峰值内存需求,但该举措容易导致大部分内存资源长期处于闲置浪费的状态。虽然之前的研究工作已经提出了各种各样的内存调整方案,以试图在动态内存资源调节期间保证工作负载的性能,但其均以基于SSD的页面交换技术作为性能的唯/一托底手段,并伴随负载性能大幅劣化的风险。近年来,随着RDMA、CXL等跨机高速互联通信技术的发展,跨物理服务器的分离式内存技术受到广泛关注。
本论文提出了一种机架级内存资源编排器Thoth,它考虑到不同负载关于内存资源的性能敏感性差异,采用公平负载QoS感知的内存调整策略,以确保每个物理服务器中所有共置工作负载之间的差异化性能,同时机会性地利用机架内可用的远端内存来缓解单机内存不足场景下,因触发传统基于SSD的内存页面交换而导致的性能下降。
Thoth同时采用基于资源借贷的“信用”(credits)机制进行资源的动态分配,以在机架内各物理服务器以及各共置虚拟机之间保障关于内存资源分配的长期公平性,从而尽可能减少资源饥饿与性能波动。根据该方法在TeleCloudOS4.0中的实测数据结果表明,通过对数据中心环境中典型的云应用负载进行真实压测,Thoth可在内存超分场景下将时延敏感工作负载的性能平均提高3倍左右,且能够减少对共置批处理工作负载的性能影响。
天玑实验室团队介绍
天玑实验室团队于2022年初成立,是一支充满活力和技术追求、极具创造力的青年团队,团队主要由北京大学、清华大学、中科院大学等名校硕博研究生和具有深厚技术能力的中-级、高-级、专家人才构成。
天玑实验室团队始终坚持科技创新,集智攻坚关键核心技术,为筑牢国云底座而不懈努力。天玑实验室团队在资源智能调度与运营方面助力TeleCloudOS4.0升级,以低碳发展、降本增效为目的,建设绿色新云网、助推绿色新运营。目前,天玑实验室团队已发表专利20余篇,荣获中国信通院“新绿杯”优秀奖。
未来,天翼云将坚持科技创新,加强关键技术攻关,以领先的产品能力夯实数字基础设施底座,助力千行百业的数字化转型。