近日,西北農林科技大學信息工程學院智能計算與農業信息系統團隊劉斌教授攜其課題組在國際計算機體系結構領域權威期刊《IEEE Transactions on Computers》(TC,CCF A類期刊)上發表研究論文。
該論文由西北農林科技大學攜手美國紐約州立大學和云南大學聯合發表。西北農林科技大學信息工程學院教授劉斌擔任第一作者,紀澤宇老師與云南大學副教授何臻力共同擔任通訊作者,紐約州立大學教授李克勤(歐洲科學院院士,并行與分布式計算領域公認的頂尖學者,國家特聘教授)作為重要合作者,使本次研究成果更具國際影響力。
論文針對當前大規模深度卷積神經網絡(DCNN)大模型訓練中負載不均衡和高通信開銷的難題,提出了一種創新的混合并行訓練方法——GroPipe。該方法首次將流水線模型并行與數據并行相融合,構建“組內流水線+組間數據并行”的分層訓練架構,并通過自動模型劃分算法(AMPA)實現計算負載的動態均衡調度,大幅提升GPU資源利用率。

GroPipe方法整體框架圖。西北農林科技大學供圖
為了進一步降低數據并行同步通信代價,GroPipe在反向傳播階段引入“基于分組的延遲異步通信”策略,延遲梯度同步操作,有效減輕全局通信帶寬壓力,顯著提升訓練吞吐量。實驗證明,在ImageNet數據集上,GroPipe方法相較于主流方案(如DP、Torchgpipe、DAPPLE和DeepSpeed)表現出卓越優勢:ResNet系列平均加速比達42.2%,VGG系列達79.2%;在BERT-base模型訓練中,性能提升最高可達51%。該成果展示了GroPipe在圖像與文本領域的廣泛適用性。
這一成果的發表標志著西北農林科技大學在計算機體系結構領域的A類國際頂級學術期刊——《IEEE Transactions on Computers》(創刊于1952年)上實現了歷史性突破。
相關論文信息:https://doi.org/10.1109/TC.2025.3566869