Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
GRPO
GRPO
技术
强化学习算法,用于优化模型主动回复时机与质量
65 次提及
52 个连接
最近出现: 2026-04-29
关系图谱
关系 (56)
使用技术 (34)
MMDuet2
TrustJudge
Qwen2.5
LongCat-Next
GR4AD
Qwen2.5
AgentConductor
DeepSeek R1
Hermes
reverse-KL
TDM-R1
Qwen3
RAGEN-2
LatentUM
Agent
SANA
FLUX.1
SD3.5-L
ClawGUI-2B
TokenRig
Flow-GRPO
3D生成
KVL 多模态架构
Hermes Agent
DeepSeek V4
DeepSeek V3
IBISAgent
MathForge
LLaMA 3
STReasoner
DeepSeek V4-Pro
Claude Opus 4.6
uAI Nexus MedVLM
Doc-V*
应用于 (12)
多模态理解
AI编程助手
语音合成
医疗AI
AI安全
Transformer
AI科研助手
图像生成
代码生成
AI芯片
AI对齐
Agent
基于 (6)
JoyAI-LLM Flash
SFT
DeepSeek R1
DGPO
MedGRPO
RLHF
发布 (1)
阿里巴巴
创建 (1)
郭达雅
使用 (1)
字节跳动
竞争 (1)
SFT
相关文章 (65)
1.
机器之心 - ICLR2026让多模态模型学会主动说话:主动交互从训练到评估的完整方案
2.
机器之心 - CVPR2026还在关注Token熵?ReLaX从隐空间动力学出发重新解读大模型RL的探索-利用平衡
3.
PaperWeekly - ICLR2026「音频贡献」成关键变量,音频大模型后训练迎来新范式
4.
机器之心 - Monet:赋予多模态大模型如人类一般的抽象视觉思考能力
5.
机器之心 - ICLR2026大模型当裁判也「翻车」?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
6.
通义大模型 - FIPO:精准追踪2%的Token,突破大模型推理瓶颈!
7.
PaperWeekly - ICLR2026多轮推理越走越偏,T3让Agent找回主动思考
8.
PaperWeekly - 长推理不一定更强:北航×字节提出SAGE-RL,挖出大模型隐藏天赋
9.
机器之心 - ACL2026中科大&上海AILab揭示强化学习后训练的ScalingLaw
10.
机器之心 - 美团LongCat-Next:把图像、声音、文字都变成Token,然后呢?
11.
机器之心 - 快手广告系统全面迈入生成式推荐时代!GR4AD:从Token到Revenue的全链路重构
12.
机器之心 - 告别昂贵账单,Token直降68%,多智能体动态协作编程来了
13.
AGI Hunt - Agent自我改进的六条路
14.
新智元 - AI邪修时刻!Meta联手MIT投毒,左脚踩右脚强行升天
15.
APPSO - DeepSeek,该卸下扫地僧的枷锁了
16.
AIGC开放社区 - 美团之后,京东也开始自研大模型了
17.
玄姐聊AGI - HermesAgent技术架构全解:当自进化被拆解为工程实现
18.
新智元 - RL特训出「押题大师」?破解模型微调中的多样性危机与灾难性遗忘
19.
InfoQ - 端到端语音模型:从语音表征到模型架构
20.
机器之心 - 4步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了
21.
极市平台 - GRPO太贵?SFT易翻车?盘点On-Policy蒸馏的9篇必读论文
22.
CVer - CVPR2026像专家标注一样思考!IBISAgent:多模态Agent自主多轮交互细粒度视觉推理框架
23.
机器之心 - 让大模型理解真实医疗视频,全球首个开源技术方案来了!
24.
AI信息Gap - 连崩三天、核心离职、抛弃英伟达:DeepSeekV4定档4月下旬!
25.
机器之心 - ICLR2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!
26.
通义大模型 - 我的Agent又乱调工具了!
27.
通义大模型 - 搜对≠答对:EAPO用“证据奖励”让大模型不再靠猜
28.
新智元 - AI能自己打红警了!经济拉满零交战惨遭打脸,玩家笑疯
29.
人工智能学家 - 李飞飞团队最近在做这个:从熵到互信息,RAGEN‑2重塑推理质量标准,让AIAgent不再“越训越模板化”
30.
玄姐聊AGI - 深度解析HermesAgent架构:双驱“自进化”机制与Harness工程实践
下滑加载更多...(已显示 30 / 65)