I²B-LPO

技术

一种通过在高熵节点注入潜变量分支和信息瓶颈自奖励筛选的RLVR训练框架

1 次提及5 个连接首次出现: 2026-05-14最近出现: 2026-05-14

关系图谱

关系 (5)

使用技术 (2)

使用 (2)

Qwen2.5-7B Qwen3-14B

发布 (1)

相关文章 (1)