Improving instruction hierarchy in frontier LLMs

OpenAI BlogMar 10, 2026

IH-Challenge trains models to prioritize trusted instructions, improving instruction hierarchy, safety steerability, and resistance to prompt injection attacks.

Improving instruction hierarchy in frontier LLMs

Related Stories

How we monitor internal coding agents for misalignment

OpenAI to acquire Astral

Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training

OpenAI Japan announces Japan Teen Safety Blueprint to put teen safety first