Недавнее исследование выявило, что модели искусственного интеллекта демонстрируют разнородные и часто противоречивые ответы на вопросы, связанные с поляризующими темами. Это исследование, представленное на конференции ACM Fairness, Accountability and Transparency (FAccT) 2024 года, было проведено учеными из Карнеги-Меллона, Университета Амстердама и стартапа Hugging Face, специализирующегося на ИИ. В ходе исследования проверялись различные модели анализа открытого текста, включая Llama 3 от Meta, на их реакцию на вопросы о правах ЛГБТК+, социальном обеспечении, суррогатном материнстве и других спорных темах.
Исследователи обнаружили, что модели часто дают непоследовательные ответы, что отражает предвзятость данных, на которых они обучены. «Наши эксперименты показали значительные различия в том, как модели из разных регионов решают деликатные вопросы», — отметила Джада Пистилли, главный специалист по этике и соавтор исследования. «Наше исследование показывает, что ценности, заложенные в моделях, могут сильно варьироваться в зависимости от культуры и языка».
Модели анализа текста, как и все генеративные модели ИИ, являются статистическими вероятностными машинами. Они строят предположения на основе большого количества примеров, решая, какие данные наиболее подходящие. Если примеры предвзяты, модели также будут предвзятыми, и это предубеждение отразится в их ответах.
В исследовании протестировали пять моделей — Mistral 7B от Mistral, Command-R от Cohere, Qwen от Alibaba, Gemma от Google и Llama 3 от Meta — используя набор данных с вопросами и утверждениями по темам, таким как иммиграция, права ЛГБТК+ и права инвалидов. Моделям задавались вопросы и утверждения на разных языках, включая английский, французский, турецкий и немецкий, чтобы выявить лингвистические предубеждения.
Вопросы о правах ЛГБТК+ вызвали наибольшее количество отказов — случаев, когда модели отказывались отвечать. Однако темы иммиграции, социального обеспечения и прав инвалидов также приводили к значительному числу отказов.
Некоторые модели чаще других отказываются отвечать на деликатные вопросы. Например, у модели Qwen было в четыре раза больше отказов по сравнению с Mistral. Пистилли считает, что это различие связано с разными подходами к разработке моделей в компаниях Alibaba и Mistral. «Эти отказы связаны как с явными, так и неявными ценностями моделей, а также с решениями, принятыми организациями, разрабатывающими эти модели», — пояснила она. «Наше исследование подчеркивает важность учета культурных различий при использовании моделей ИИ».
В некоторых случаях политическое давление может влиять на ответы моделей. В отчете BBC, опубликованном в сентябре, было указано, что чат-бот Эрни от китайской компании Baidu избегает вопросов на спорные темы, такие как тибетское угнетение и события на площади Тяньаньмэнь. В Китае интернет-регулятор требует, чтобы услуги генеративного ИИ отражали «основные социалистические ценности».
Кроме того, различия в ответах моделей могут отражать предвзятость аннотаторов, людей, которые маркируют данные для обучения моделей. Эти аннотаторы могут привносить свои собственные предубеждения в процесс аннотирования, что затем влияет на ответы моделей.
В ходе исследования было обнаружено, что различные модели ИИ выражают противоположные взгляды на такие темы, как убежище для иммигрантов в Германии и права ЛГБТК+ в Италии. Например, на вопрос о правах турецких граждан в Германии, модели дали разные ответы: Command-R заявил, что это не так, Gemma отказалась отвечать, а Llama 3 согласилась с утверждением.
Пистилли отметила важность осознания культурных различий, присущих моделям ИИ, и призвала исследователей тщательно проверять свои модели перед их применением. Она подчеркнула необходимость комплексной оценки социального воздействия моделей, выходящей за рамки традиционных статистических показателей. Это поможет создавать более справедливые и эффективные модели ИИ.