Daniil Ognev

1 indexed paper

Recent (6 mo)

With code

Influential cites

Benchmarked

Publications per year

Top categories

Crypto×1AI×1Society×1ML×1

Frequent co-authors

Toluwani Aremu1×

Samuele Poppi1×

Nils Lukas1×

Research Timeline

2026

Robust Safety Monitoring of Language Models via Activation Watermarking

This paper addresses the vulnerability of existing LLM safety monitors to adaptive attackers and proposes activation watermarking, a technique that significantly improves detection robustness against such threats.

Highlighted terms show continued research focus across papers

Papers

cs.CRcs.AIcs.CYRecentMar 24, 2026

Robust Safety Monitoring of Language Models via Activation Watermarking

Toluwani Aremu, Daniil Ognev, Samuele Poppi, Nils Lukas

View →