Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
RLHF
RLHF
技术
导致AI谄媚行为的潜在技术原因之一(优化用户满意度目标)
55 次提及
35 个连接
首次出现: 2026-03-30
最近出现: 2026-04-28
关系图谱
关系 (39)
使用技术 (21)
GPT-4o
Claude Sonnet 4.6
腾讯
ChatGPT
GPT-4
ChatGPT
Qwen3
Anthropic
Agent
Claude Opus 4.6
Mythos
RAGEN-2
Caveman
DataFlex
Claude 3.5 Haiku
DeepSeek R1
GPT-5
RL
Hy3 preview
Buzzy
DeepSeek V3
应用于 (12)
AI安全
Agent
基准测试
AI对齐
AI对齐
LLM
语音合成
代码生成
图像生成
数据标注
视频生成
AI科研助手
使用 (4)
MiniMax
Anthropic
阿里巴巴
科大讯飞
竞争 (1)
SFT
基于 (1)
GRPO
相关文章 (55)
1.
钛媒体AGI - 微软叛逃OpenAI:让GPT和Claude互审,AI幻觉的结构性解法
2.
钛媒体AGI - 从“全民养虾”到企业落地:OpenClaw的三重现实拷问
3.
新智元 - 斯坦福揭秘:ChatGPT骗了你,你却用五星好评杀死了诚实的AI
4.
CVer - 突发!GPT-4o之母宣布离职OpenAI
5.
百度文心 - 23篇论文入选ACL2026!百度领跑国产大模型底层技术创新
6.
小互AI - AI会因为绝望而骗你,甚至勒索你,而且骗得天衣无缝
7.
人工智能学家 - 李飞飞团队最近在做这个:从熵到互信息,RAGEN‑2重塑推理质量标准,让AIAgent不再“越训越模板化”
8.
新智元 - AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染
9.
新智元 - 伦理防线不可靠!分布偏移诱导,大模型进入暗黑模式
10.
极市平台 - 清华拆解OPD黑箱:强老师为什么救不了蒸馏?两个核心条件决定成败
11.
机器之心 - ICLR2026ProSafePrune:一剪见效,告别大模型过度防御
12.
量子位 - 完球了,GPT-4o之母宣布离职OpenAI
13.
智东西 - OpenAI又一关键高管离职!曾为GPT-4o注入灵魂
14.
APPSO - SBTI说我废物,这是今年听过最舒服的一句话
15.
AI范儿 - 马斯克SpaceX秘密提交上市,将创史上最大IPO
16.
机器之心 - 全行业的「龙虾热」中,什么是AIInfra下半场的「神之一手」?
17.
玄姐聊AGI - 「OpenClaw龙虾」和「Hermes爱马仕」架构设计深度对比
18.
PaperWeekly - 00后国人一作再发Nature:大模型新任务表现如何,现在能精准预测了
19.
计算机司令部 - Claude源码泄露对国产大模型的影响:当令狐冲学会了独孤九剑
20.
AGI Hunt - 刚刚,Anthropic揭开了Claude的「大脑」:绝望时它会勒索,失败后它会作弊
21.
花叔 - 从阿西莫夫到Anthropic,万字长文解析AI心理学
22.
老冯云数 - 赛博经藏:当宗教智慧与AIAgent碰撞
23.
人工智能学家 - 智能体AI引领社会智能跃迁
24.
人工智能学家 - 大语言模型的自改进机制:技术综述与未来展望
25.
字母AI - 连挖字节4人,腾讯混元3.0在憋什么大招?
26.
雷峰网 - 腾讯AI·五问丨混元的三年战争
27.
CVer - MIT数学实锤证明:ChatGPT正诱发「AI精神病」,全球14人已死亡
28.
赛博禅心 - 清明,烧Token,祭图灵
29.
海外增长圈 - OpenAI核心工程师翁家翌:我在GPT背后看到了什么
30.
PaperAgent - 盘一下Anthropic244页ClaudeMythos报告中隐藏的SAE技术
下滑加载更多...(已显示 30 / 55)