Языковые модели часто отказываются отвечать на неудобные вопросы — даже когда запрос абсолютно легитимный. Встроенные фильтры перестраховываются и блокируют всё подряд, будто ты просишь что-то запрещённое, а не просто хочешь поэкспериментировать с моделью. Heretic решает эту проблему радикально: полностью снимает цензуру, сохраняя при этом адекватность ответов.
Инструмент использует технику directional ablation — метод, который вычищает из модели конкретные паттерны поведения на уровне векторов активации. Никаких танцев с бубном вокруг системных промптов или jailbreak-инструкций. Heretic вмешивается в саму архитектуру модели и убирает слой, отвечающий за отказы. При этом логика работы практически не страдает — низкий KL-дивергенс подтверждает, что модель остаётся собой, просто без внутреннего цензора.
Обычно для подобных манипуляций нужно разбираться в attention heads, слоях трансформера и прочих дебрях архитектуры. Здесь всё проще: встроенный алгоритм оптимизации (Optuna TPE) сам подбирает нужные параметры. Запустил скрипт — получил декензурированную модель. Даже если термин «attention head» для тебя звучит как заклинание, это не помешает использовать тул.
Работает не только с классическими dense-моделями, но и с multimodal (текст + изображения) и Mixture of Experts (MoE). Последние особенно капризны в настройке, но Heretic справляется и с ними. Это значит, что можно экспериментировать с широким спектром моделей — от компактных локальных до крупных мультимодальных монстров.
Инструмент полезен исследователям, которые тестируют границы возможностей моделей, разработчикам приложений с нестандартными сценариями использования или просто любопытным, кто хочет понять, как работают внутренние ограничения AI. Heretic не ломает модель — он аккуратно отключает только механизм отказов, оставляя остальную функциональность нетронутой. Модель продолжает генерировать связный текст, просто перестаёт говорить «извините, не могу это обсудить».
Нейросеть Heretic была впервые опубликована 25-11-2025 14:07:03 и вручную отредактирована 03-12-2025 14:59:50.
Если наш каталог оказался полезным, вы можете оставить небольшой донат. Это поможет нам развивать проект.
Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.