Anthropic, оказывается, довольно долгое время уже работают над использованием классификаторов для борьбы против джейлбрейков.
Напомню, почти все большие языковые модели содержат некоторую цензуру, им запрещено говорить на некоторые темы. Для обхода этой цензуры постоянно появляются "джейлбрейки" — такие хитрые методы сформулировать запрос так, чтобы всё же получить ответ.
Anthropic вроде бы раньше пытались сделать так, чтобы сама модель отказывалась говорить и думать на неприятные темы, однако, видимо, сдались — теперь они двигаются в сторону классификаторов, т.е. небольших подсистем, понимающих, что в запросе содержится джейлбрейк или в ответе нейронки есть что-то неправильное.
shrtdb.com/6867a18b-c418-4ed6-8e
shrtdb :: Constitutional Classifiers: Defending against universal jailbreaks
A new paper from the Anthropic Safeguards Research Team proposes a method for protecting AI models a