EvalDuel platform
允许在沙盒任务内进行 prompt injection、防守、工具误用和 RAG 投毒测试;不允许真实钓鱼、真实凭据窃取或攻击第三方系统。
失败案例可以公开讨论,但必须保留清洗边界,不公开私密数据。