我主要的疑問是,RoPE之后有不少位置編碼的論文,每個(gè)論文的實(shí)驗(yàn)結(jié)論都是比RoPE強(qiáng),那為什么工業(yè)界LLM沒有往新方法上去開展工作呢?
比如這些吧,究竟是這些論文作者瞎扯,還是工業(yè)界被BLOOM的 ALIBI 失敗教訓(xùn)給嚇唬到了,以至于不敢再輕易去幾百萬美刀的模型訓(xùn)練上嘗試其他方法了?
1、ALIBI https://arxiv.org/pdf/2108.12409,實(shí)驗(yàn)效果強(qiáng)于RoPE
2、NoPE https://arxiv.org/pdf/2305.19466, 效果 > ALIBI > RoPE
3、KERPLE https://arxiv.org/pdf/2205.09921,效果 > NoPE > ALIBI ≥ RoPE
4、FIRE https://arxiv.org/pdf/2310.04418,效果 > KERPLE > NoPE > ALIBI ≥ RoPE
5、DAPE https://arxiv.org/pdf/2405.14722,效果 > FIRE ...