Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
TeamTR
TeamTR
技术
阶段式信任域微调方法,用于解决多Agent训练中的分布漂移问题
1 次提及
7 个连接
首次出现: 2026-06-02
最近出现: 2026-06-02
关系图谱
关系 (7)
使用技术 (5)
KL
PPO
GRPO
DAPO
Agent
使用 (1)
Qwen3-8B
应用于 (1)
代码生成
相关文章 (1)
1.
PaperWeekly - 8个Agent也能稳定收敛,信任域约束重塑多Agentic工作流ICML2026