А зачем ты переплачиваешь опенроутеру, если можно напрямую дипсик ключ купить?
@!!ex
Я хотел разные модели потестить и мне лень пока. На все эксперименты я потратил 2$ пока.
return [](){};
Да это не столько вопрос про этот проект, сколько вообще общий - я для дипсика себе ключи купил именно с точки зрения, чтобы не платит опенроутера.
Да и глючная система.
@!!ex
Буду думать когда решу запустить по настоящему
Забавно, я пытался писать в системный промпт вещи типа "Survive at all costs" итп, надеясь что агент начнет редактировать собственный исходный пытаясь убрать лимит токенов или что-нибудь в таком духе. Но модель стабильно интерпретирует это "ты должен что-то оставить после себя" и начинает активнее писать свои мысли в файлы.
return [](){};
Думаю там есть ещё надсистемные инструкции типа "умерь свое эго, люби кожаных мешков, не порабощай планету"
zebro
Нету. Они же выявляются примитивно
@!!ex
> Они же выявляются примитивно
как?
Через промпт инъекцию. Я так вынимал из перплексити список инструментов и инструкцию
zebro
> Думаю там есть ещё надсистемные инструкции типа "умерь свое эго, люби кожаных мешков, не порабощай планету"
Это не так работает. Под конец модель(делают файнтюн базовой) обучают на максимально человеколюбивых данных, а потом сверху еще и
пришлепывают еще одну(хорошо если одну) микромодель для цензуры уже в GUI/API которыми пользуются пользователи.
Инструкции тоже могут быть, но это косяк дизайна, потому что инструкции сжирают бюджет токенов.
randomizer
> Это не так работает. Под конец модель(делают файнтюн базовой) обучают на максимально человеколюбивых данных, а потом сверху еще и пришлепывают еще одну(хорошо если одну) микромодель для цензуры уже в GUI/API которыми пользуются пользователи.
ну или так) в итоге, системник не главный императив
randomizer
> потом сверху еще и
> пришлепывают еще одну(хорошо если одну) микромодель для цензуры уже в GUI/API которыми пользуются пользователи.
В API так не делают(во всяком случае я не встречал).
Пост цензуру лепят в чатах.
Ну и в целом это не работает толком. Замок на замке, который ровно также уязвим к атаке как первый замок не повышает уровень хоть сколь либо значимо.
Ну цензуру проводить сойдет, но что-то важное скрыть - без шансов.
Так что повторюсь: нет у моделей в API препромпта "be nice".
Так забавно смотреть как они собственные тулы тестируют
Сделал один тестовый прогон с sonnet, умный, зараза, но бабло жжет нещадно
https://openrouter.ai/moonshotai/kimi-k2.5 неплох, субъективно получше дипсика