Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
I²B-LPO
I²B-LPO
技术
一种通过在高熵节点注入潜变量分支和信息瓶颈自奖励筛选的RLVR训练框架
1 次提及
5 个连接
首次出现: 2026-05-14
最近出现: 2026-05-14
关系图谱
关系 (5)
使用技术 (2)
GRPO
RLVR
使用 (2)
Qwen2.5-7B
Qwen3-14B
发布 (1)
阿里巴巴
相关文章 (1)
1.
机器之心 - ACL2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索