相較于交換機(jī)、服務(wù)器等設(shè)備,光模塊的結(jié)構(gòu)其實(shí)是比較簡(jiǎn)單的,但就是如此簡(jiǎn)單的光模塊在算力網(wǎng)絡(luò)中也是至關(guān)重要的存在。雖然單一模塊的失效率比較低,但是放在萬(wàn)卡以上的集群中也會(huì)被放大數(shù)倍。模塊的失效會(huì)造成一定概率的故障發(fā)生,故障又會(huì)導(dǎo)致訓(xùn)練業(yè)務(wù)的中斷,重新啟動(dòng)訓(xùn)練需要額外的耗時(shí),無(wú)形中增加了集群的運(yùn)營(yíng)成本。因此光模塊的失效率需要被重視起來(lái)。