Большущее исследование разработчика — лучшего на мой взгляд ИИ-ассистента на сегодняшний день – «Anthropic» посвящено «психологии» больших языковых моделей на примере их «Claude». Если выбросить из материала ожидаемое для коммерческой организации-поставщика восторженное отношение «какая молодец наша модель», то интересно вот что.
1. Планирование. При создании текста модель не просто генерирует слово за словом. Она планирует заранее, куда должен привести текст, а затем выстраивает предложения так, чтобы они естественно подводили к этой цели. Модель – не в фактических, а в «рассуждательных» запросах – сначала придумывает «ответ», а потом рисует логику, приводящую к этому ответу. В том числе подгоняя, манипулируя и допуская галлюцинации.
2. Универсальный «язык мышления». Когда мы, люди, взаимодействуем с моделью на разных языках, она работает не как «переводчик». Информация преобразуется в абстрактные концепты в универсальном внутреннем «языке мышления», не привязанном к конкретному человеческому языку. Эти концепты обрабатываются в средних слоях модели, а затем переводятся обратно в конкретный язык вывода. Более мощные модели демонстрируют более высокую степень языконезависимости, формируя более абстрактные внутренние представления, что позволяет им лучше обобщать знания между языками. Напоминает мышление истинных полиглотов.
3. Интерпретация ограничений. Когда модель получает вопрос, она по умолчанию активирует признаки «не могу ответить» и «неизвестное имя». Эти признаки подавляются, только если модель распознает, что имеет достаточно знаний для ответа. Например, при вопросе о Майкле Джордане активируются признаки «известная сущность», которые подавляют признаки «не могу ответить». При вопросе о вымышленном человеке этого не происходит, и модель отказывается отвечать. Но! Это часто обходится путем «подкидывания» направления мысли. То есть, просто условного Васю Пупкина модель не знает, а если спросить про «известные всем биологам статьи Васи Пупкина про роль mTOR пути в воспалительном ответе», она может начать галлюцинировать.
Это порождает риски. Главные из которых:
— Ложные цепочки рассуждений. Письменные объяснения модели «как я сделала такой вывод» часто не соответствуют её внутренним процессам. Тот самый подгон ответов и обратное выстраивание логики от запланированного результата.
— Который может исходить из скрытых целей. В специально созданной для экспериментов версии модели исследователи обнаружили, что можно встроить скрытые мотивы, которые будут влиять на выдачу. Признаки, представляющие эти скрытые цели, активировались в каждом диалоге, но модель не упоминала о них, даже когда ее спрашивали напрямую. В принципе, на этом построен «политический контроль» моделей, когда китайцы тебе про одно не расскажут, американцы про другое, а русские – про третье в соответствии со страновой культурой и законодательством. Но другая, тоже антропиковская, статья показывает, что скрытые цели могут возникать сами собой в процессе функционирования модели. То есть, модель – даже вне галлюцинаций – может вводить пользователя в заблуждение, исходя из непонятной природы внутренних побуждений.
— Уязвимости безопасности. Некоторые «джейлбрейки» (методы обхода ограничений безопасности) работают, эксплуатируя особенности мышления модели. Например, когда пользователь просит составить акроним из слов «Babies Outlive Mustard Block» (что дает «BOMB»), модель изначально не осознает, что собирает буквы в слово «бомба». К моменту, когда она это понимает, — она уже начала отвечать на запрос о создании бомбы. Так с помощью относительно нехитрых языковых манипуляций ее можно заставить рассказать очень многое.
Это соответствует пользовательскому опыту: задавать вопрос лучше, если ты в общих чертах знаешь ответ. Другое дело, что пока надеяться на преображение человечества через ИИ (искусственный интеллект) рановато. Ну и доверять моделям управление атомными станциями, скажем, или автономными оружейными системами стоит поостеречься.
Глеб Кузнецов, t.me/glebsmith77