研發(fā)類GPU集群任務(wù)數(shù)據(jù)集的構(gòu)建及分析
摘要: 近年來,隨著深度學習模型訓練需求增長,研究機構(gòu)和企業(yè)通過搭建共享GPU集群來降低成本和提高效率?,F(xiàn)有研究主要關(guān)注企業(yè)生產(chǎn)類GPU集群的任務(wù)調(diào)度和資源分配。針對研發(fā)類GPU集群鵬城云腦I,進行任務(wù)運行時關(guān)鍵指標的監(jiān)控和數(shù)據(jù)采集,構(gòu)建含任務(wù)細粒度時序資源使用信息的深度學習訓練任務(wù)數(shù)據(jù)集——鵬城云腦I任務(wù)數(shù)據(jù)集。該數(shù)據(jù)集是首個面向研發(fā)類GPU集群公開數(shù)據(jù)集,揭示了研發(fā)類GPU集群中資... (共10頁)
開通會員,享受整站包年服務(wù)