RLHF
技术RLHF,基于人类反馈的强化学习技术,通过训练奖励模型使 AI 行为对齐人类偏好,典型应用于 ChatGPT 等大模型对齐
166 次提及99 个连接首次出现: 2026-03-30最近出现: 2026-06-28
关系图谱
关系 (112)
使用技术 (72)
GPT-4oClaude Sonnet 4.6腾讯ChatGPTGPT-4ChatGPTQwen3AnthropicAgentClaude Opus 4.6MythosRAGEN-2CavemanDataFlexClaude 3.5 HaikuDeepSeek R1GPT-5RLHy3 previewBuzzyDeepSeek V3Talkie-1930GPT-5.5talkie-1930-13bPPOGemma 4Sonnet 4.6Opus 4.7GPT Image 2Qwen2.5-VL-3B-InstructQwen2.5-VL-7B-InstructOpenAIChatGPTClaudeGeminiDeepSeekStepAudio 2.5 RealtimeClaude Opus 4OpenAIGemini 2.5 FlashGPT-4.1DreamLiteE-TTSSelectiveRMHaiku 3.5DeepSeek V3.2Kimi 2.5 ProGPT-5.2PAI平台AgentGemini 1.0GRPOGrok 5Kimi 2.5Opus 4.8MiniCPM5-1B灾难性遗忘JoyAI-EchoGRO框架Claude Fable 5Claude Mythos 5SelectiveRMMicrosoftQwen2.5LLaMA 3AI工厂DrPOLLMHPSv3HPSv2.1ImageRewardQwen3.5
应用于 (26)
创建 (2)
竞争 (1)
发布 (1)
相关文章 (166)
下滑加载更多...(已显示 30 / 166)