Технологии

OpenAI расшифровала около миллиона часов видео с YouTube для обучения GPT-4

7 апреля 2024 13:08

Автор: Федор Кравцов

OpenAI расшифровала около миллиона часов видео с YouTube для обучения GPT-4

Ранее на этой неделе газета The Wall Street Journal сообщила, что компании, занимающиеся разработкой искусственного интеллекта, сталкиваются с проблемой сбора высококачественных данных для обучения. Сегодня The New York Times подробно рассказала о некоторых способах, которыми компании решают эту проблему. Неудивительно, что среди них есть действия, которые попадают в непрозрачную серую зону закона об авторских правах на ИИ.

Статья начинается с истории компании OpenAI, которая отчаянно нуждается в данных для обучения и разработала GPT-4 для решения этой проблемы, создав модель транскрипции речи Whisper для обучения самой продвинутой большой языковой модели, которую она использовала для расшифровки более миллиона часов видео с YouTube. По данным New York Times, компания знала о юридических проблемах, но посчитала это добросовестным использованием; президент OpenAI Грег Брокман лично участвовал в сборе использованных видео, сообщает Times.

По словам представителя OpenAI Линдси Хелд, компания собирает «уникальные» наборы данных для каждой модели, чтобы «понять мир» и сделать свои исследования конкурентоспособными на мировом уровне. Хельд добавила, что компания использует «множество источников, включая государственные и частные партнерства по сбору данных», и рассматривает возможность создания собственных сводных данных.

Согласно статье в The Times, компания исчерпала имеющиеся данные в 2021 году и начала расшифровывать видео с YouTube, подкасты и аудиокниги после того, как были использованы все другие источники. До этого момента компания обучала свои модели на таких данных, как компьютерный код с Github, база данных шахматных ходов и содержание школьных заданий с Quizlet.

Представитель Google Мэтт Брайант сообщил в электронном письме The Verge, что компания «видела неподтвержденные сообщения» о деятельности OpenAI. На этой неделе генеральный директор YouTube Нил Мохан сделал аналогичные заявления о возможности использования OpenAI на YouTube для обучения моделей создания видео Sora. По словам Брайанта, Google приняла «технические и юридические меры», чтобы предотвратить такое несанкционированное использование, «если для этого есть четкие юридические и технические основания».

Google также собирает транскрипты с YouTube, согласно источникам Times. По словам Брайанта, компания обучает моделей «на некоторых материалах YouTube по договоренности с создателями YouTube».

The Times пишет, что юридический отдел Google попросил команду по защите конфиденциальности компании изменить формулировку политики, чтобы расширить использование потребительских данных, например, офисных инструментов, таких как Google Docs. Сообщается, что новая политика была намеренно опубликована 1 июля, чтобы воспользоваться отвлекающим моментом, связанным с праздником Дня независимости.

Ранее стало известно, что в 2024 году появится новый механизм борьбы с атаками через QR-код. Подробнее об этом читайте в материале IT INFO MEDIA.

Loading...