Editing AI 伦理与安全 (section)

== 核心安全议题 ==

=== 对齐问题 ===
'''对齐'''（Alignment）指确保 AI 系统的目标与行为符合人类真实意图与价值观。随着模型能力增强，如何避免系统追求被错误指定的目标（即"目标错误规范"）成为关键挑战。相关研究包括基于人类反馈的强化学习（RLHF）、宪法式 AI 等方法。

=== 鲁棒性与可靠性 ===
AI 系统应在面对噪声、分布外输入或恶意攻击（如对抗样本）时保持稳定与可靠的表现。鲁棒性研究关注系统在非理想环境下的行为边界。

=== 可控性 ===
随着自主智能体（Agent）能力的提升，如何确保人类始终能够监督、干预乃至中止 AI 系统的运行，成为安全研究的重点，涉及可中断性、人类监督等机制设计。

=== 滥用风险 ===
强大的 AI 能力可能被用于生成虚假信息、网络攻击、自动化欺诈等恶意用途。防范技术滥用需要技术防护与制度约束的协同。