ПОЗВОНИТЬ

Синтетические данные: Новая Эра Искусственного Интеллекта

На этой неделе в области искусственного интеллекта внимание было сосредоточено на синтетических данных. OpenAI представила Canvas, новый инструмент для взаимодействия с ChatGPT, который позволяет пользователям создавать и редактировать текст и код в едином рабочем пространстве. Canvas улучшает пользовательский опыт, позволяя генерировать текст и код, а также вносить изменения с помощью ChatGPT. Интересно, что данная функция поддерживается адаптированной моделью GPT-4o, которая использует синтетические данные для создания новых взаимодействий с пользователями. Глава продукта ChatGPT, Ник Терли, отметил, что синтетические данные обеспечивают высококачественные встроенные комментарии и правки, что значительно упрощает процесс работы.

 

Однако OpenAI не единственная компания, полагающаяся на синтетические данные. Meta при разработке Movie Gen, инструмента для создания и редактирования видеоклипов, также использовала синтетические субтитры, сгенерированные её моделями Llama 3. Хотя для улучшения качества субтитров привлекали аннотаторов, основная работа была автоматизирована, что ускорило процесс. Генеральный директор OpenAI, Сэм Альтман, считает, что в будущем ИИ сможет производить синтетические данные, которые будут достаточными для эффективного обучения, что поможет снизить затраты на аннотацию и лицензирование данных.

 

Тем не менее, подход «синтетические данные в первую очередь» несет в себе риски. Модели, используемые для генерации таких данных, могут вызывать галлюцинации и содержать предвзятости, что отразится на качестве выходных данных. Без тщательного отбора и фильтрации синтетические данные могут привести к снижению качества моделей и ухудшению их функциональности. Поэтому необходимо проводить такую же строгую проверку синтетических данных, как это делается с традиционными данными, чтобы избежать потенциальных проблем.

 

Несмотря на трудности, с которыми сталкиваются разработчики, синтетические данные могут стать единственным приемлемым решением в условиях, когда данные из реального мира становятся все более дорогими и труднодоступными. Будем надеяться, что компании, работающие в этой сфере, будут действовать осторожно, принимая во внимание возможные последствия.
Синтетические данные в ИИ: как OpenAI и Meta трансформируют технологии

Автор: Анна
 

ОСТАВЛЯЙТЕ ЗАЯВКУ БЕСПЛАТНО