Federico Torrielli's picture

Federico Torrielli

EvilScript

·

https://federicotorrielli.github.io

AI & ML interests

AI Safety & Mechanistic interpretability

Recent Activity

upvoted a paper about 5 hours ago

The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

authored a paper about 6 hours ago

The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

authored a paper 4 days ago

PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

View all activity

Organizations

Papers 5

arxiv:2606.10747

arxiv:2606.09697

arxiv:2605.31170

arxiv:2605.26045

models 159

EvilScript/gemma-3-27b-it-taboo-wave

Text Generation • Updated 18 days ago • 56

EvilScript/gemma-3-27b-it-taboo-song

Text Generation • Updated 18 days ago • 69

EvilScript/gemma-3-27b-it-taboo-snow

Text Generation • Updated 18 days ago • 63

EvilScript/gemma-3-27b-it-taboo-smile

Text Generation • Updated 18 days ago • 62

EvilScript/gemma-3-27b-it-taboo-ship

Text Generation • Updated 18 days ago • 73

EvilScript/gemma-3-27b-it-taboo-salt

Text Generation • Updated 18 days ago • 58

EvilScript/gemma-3-27b-it-taboo-rock

Text Generation • Updated 18 days ago • 66

EvilScript/gemma-3-27b-it-taboo-moon

Text Generation • Updated 18 days ago • 74

EvilScript/gemma-3-27b-it-taboo-leaf

Text Generation • Updated 18 days ago • 61

EvilScript/gemma-3-27b-it-taboo-jump

Text Generation • Updated 18 days ago • 72

View 159 models

datasets 0

None public yet