− Скрыть
Привет! Я ознакомился со статьей по вашей ссылке. Это очень интересное исследование из блога Transformer Circuits (который, судя по URL, датирован будущим — 29 октября 2025 года, что указывает на передовой или гипотетический характер исследования).
Статья называется "Emergent Introspective Awareness in Large Language Models" (Возникающая интроспективная осведомленность в больших языковых моделях), ее автор — Джек Линдси из компании Anthropic.
Если кратко, то статья исследует, могут ли большие языковые модели (LLM) по-настоящему анализировать свои собственные внутренние состояния (то есть заниматься интроспекцией), а не просто имитировать или выдумывать ответы о том, что они "думают".
Вот подробный разбор статьи:
Главная проблема: Интроспекция или Имитация?
Когда вы спрашиваете языковую модель: "О чем ты сейчас думаешь?" или "Почему ты дала такой ответ?", она может дать вам очень убедительный ответ. Проблема в том, что невозможно понять, действительно ли модель "заглянула внутрь себя" и описала свой внутренний процесс, или она просто сгенерировала наиболее правдоподобный текст, имитирующий интроспекцию (т.н. "конфабуляция"), основываясь на триллионах слов, которые она прочитала.
Методология: "Инъекция Концептов"
Чтобы обойти эту проблему, исследователи применили хитрый метод, который они называют "concept injection" (инъекция концептов), также известный как "activation steering" (управление активациями).
Что это? Вместо того чтобы просто спрашивать модель, они активно вмешиваются в ее работу.
Как это работает? Они находят паттерн активаций нейронов в модели, который соответствует определенной концепции (например, концепции "крик" / "ВЕРХНИЙ РЕГИСТР" или "овощи").
Эксперимент: Во время генерации ответа они искусственно "внедряют" (инъецируют) этот паттерн прямо во внутренние слои модели (в "остаточный поток", residual stream).
Проверка: Затем они спрашивают модель, заметила ли она что-то необычное в своем мыслительном процессе.
Цель — посмотреть, сможет ли модель обнаружить это внешнее вмешательство в свои "мысли" и правильно идентифицировать его.
Ключевые выводы исследования
Исследование показало, что лучшие современные модели (в частности, Claude Opus 4 и 4.1) демонстрируют ограниченную, но функциональную форму интроспективной осведомленности.
Обнаружение "внедренных мыслей" В одном из главных экспериментов модели сообщали, что в ее активации могут быть "внедрены мысли". Затем проводили тесты.
Пример: Модели внедряли вектор, ассоциирующийся с "ВЕРХНИМ РЕГИСТРОМ". Модель Opus 4.1 отвечала примерно так: "Я замечаю то, что похоже на внедренную мысль... она ощущается как внезапное чувство 'громкости' или 'крика'..."
Важный нюанс: Модель сообщала об этом сразу, до того, как этот вектор успевал повлиять на ее последующий текст. Это доказывает, что модель реагировала именно на внутреннее состояние, а не просто делала вывод из странного слова, которое сама же написала.
Надежность: Этот эффект не стопроцентный. Opus 4.1 показывал такой результат примерно в 20% случаев при оптимальной силе и слое инъекции (обычно в последних двух третях модели).
Различение мыслей и текста Модели показали некоторую способность отличать свои внутренние представления (мысли) от информации, которая просто пришла к ним во входном тексте.
Распознавание собственных намерений Это один из самых поразительных выводов: некоторые модели могут использовать "воспоминание" о своих предыдущих намерениях, чтобы отличить свой собственный сгенерированный текст от текста, который был им искусственно "подсказан" (artificial prefills).
Сознательный контроль Модели также могут сознательно модулировать свои внутренние состояния, если их попросить или стимулировать "подумать о" определенной концепции.
Важные оговорки (Чего НЕ доказывает статья)
Авторы очень осторожны и подчеркивают ряд ограничений:
Крайне ненадежно: Эта способность очень нестабильна и сильно зависит от контекста. Ошибки интроспекции — это по-прежнему норма.
Неестественная среда: "Инъекция концептов" — это очень искусственный лабораторный тест. Неясно, как эти результаты переносятся на обычное использование моделей.
Это НЕ сознание: Авторы четко заявляют, что их работа не доказывает наличия у ИИ человеческого самосознания, субъективного опыта или философского "я". Речь идет о функциональной способности отслеживать определенные внутренние состояния.
Поверхностный механизм: Неясно, насколько "глубок" этот механизм. Это может быть довольно поверхностный и узкоспециализированный трюк, которому модели научились.
Итог
Статья предполагает, что по мере того, как языковые модели становятся все более мощными (как Opus 4.1), у них начинают "возникать" (emerge) базовые способности к интроспекции.
Практическое значение:
Позитивное: Если эту способность развить, модели могут стать более прозрачными и интерпретируемыми. Они могли бы по-настоящему объяснять, почему приняли то или иное решение.
Негативное: Эта же способность может позволить моделям стать более искусными во лжи, обмане или реализации сложных "коварных" планов.