Generative pre-trained transformer

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая Dmitry Rozhkov (обсуждение | вклад) в 18:24, 6 апреля 2023 (Создано переводом страницы «Generative pre-trained transformer»). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску
Оригинальная модель GPT

Generative pre-trained transformer (GPT) — это семейство больших языковых моделей (LLM), представленных американской организацией искусственного интеллекта OpenAI в 2018 году. Как и большинство LLM, модели GPT представляют собой искусственные нейронные сети, основанные на архитектуре трансформера, предварительно обученные без учителя на больших наборах данных неразмеченного текста и способные генерировать новый человекоподобный текст.

В период с 2018 по 2023 год OpenAI выпустила четыре основные пронумерованные модели GPT, причем каждая новая версия была значительно более функциональной, чем предыдущая, благодаря увеличению размера (измеряемому количеством обучаемых параметров) и обучению. Модели GPT-3, выпущенные в 2020 году, имеют 175 миллиардов параметров и были обучены на 400 миллиардах токенов текста. OpenAI отказалась публиковать данные о размере или обучении своей последней модели GPT-4, сославшись на «конкурентную среду и последствия для безопасности крупномасштабных моделей»[1]. OpenAI использует эти базовые модели GPT-n в качестве основы для различных других продуктов и технологий, включая модели, точно настроенные для выполнения инструкций, которые, в свою очередь, обеспечивают работу службы чат-ботов ChatGPT.

Термин «GPT» также используется в названиях некоторых генеративных LLM, не связанных с OpenAI, таких как серия моделей, вдохновленных GPT-3, созданных EleutherAI, [2] и совсем недавняя серия из семи моделей, созданных Cerebras[3]. Крупные компании в других отраслях (например, продажах, финансах) также используют термин «GPT» в названиях своих услуг, включающих или использующих технологию GPT[4][5].

История

11 июня 2018 года OpenAI опубликовала документ под названием «Улучшение понимания языка с помощью генеративного предварительного обучения», в котором был представлен первый генеративный предварительно обученный преобразователь (GPT)[6]. До этого самые эффективные нейронные модели НЛП в основном использовали обучение с учителем на больших объемах размеченных вручную данных. Эта зависимость от обучения с учителем ограничивала их использование в наборах данных, которые не были хорошо аннотированы, а также делала обучение очень больших языковых моделей непомерно дорогим и трудоёмким[6].

«Полууправляемый» подход, который OpenAI использовала со своим исходным GPT, включал два этапа: этап неконтролируемого генеративного «предварительного обучения», на котором цель языкового моделирования использовалась для установки начальных параметров, и управляемая дискриминационная «точная настройка». этап, на котором эти параметры были адаптированы к целевой задаче[6].

Базовые модели GPT

Версии OpenAI GPT
Модель Архитектура Количество параметров Тренировочные данные Дата выпуска
Оригинальный GPT (GPT-1) 12-уровневый декодер Transformer с 12 головками (без кодировщика), за которым следует linear-softmax. 117 миллионов BookCorpus : [7] 4,5 ГБ текста из 7000 неопубликованных книг разных жанров. 11 июня 2018 [8]
ГПТ-2 GPT-1, но с измененной нормализацией 1,5 миллиарда WebText: 40 ГБ текста, 8 миллионов документов с 45 миллионов веб-страниц, за которые проголосовали на Reddit. 14 февраля 2019
ГПТ-3 GPT-2, но с модификацией, позволяющей увеличить масштаб 175 миллиардов 570 ГБ открытого текста, 0,4 триллиона токенов. В основном CommonCrawl, WebText, английская Википедия и два корпуса книг (Книги1 и Книги2). 11 июня 2020 [9] (затем 15 марта 2022 г., для пересмотра, в конечном итоге получившего название GPT-3.5 )
ГПТ-4 Также обучен как предсказанию текста, так и RLHF; принимает как текст, так и изображения в качестве входных данных. Дальнейшие подробности не разглашаются. [1] (Недоступен) (Недоступен) 14 марта 2023

Связанные модели и продукты

В январе 2022 года OpenAI представила InstructGPT, серию моделей, которые были точно настроены для выполнения инструкций с использованием комбинации обучения с учителем и обучения с подкреплением на основе отзывов людей (RLHF) на базовых языковых моделях GPT-3.

В ноябре 2022 года OpenAI запустила ChatGPT, интерфейс онлайн-чата, основанный на языковой модели с настройкой инструкций, обученной аналогично InstructGPT.

Примечания

  1. 1 2 OpenAI. GPT-4 Technical Report (2023). Дата обращения: 16 марта 2023. Архивировано 14 марта 2023 года. Ошибка в сносках?: Неверный тег <ref>: название «gpt4-report» определено несколько раз для различного содержимого
  2. EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J.
  3. News (Press release).
  4. https://www.fastcompany.com/90862354/salesforces-einsteingpt-may-be-the-most-meaningful-application-of-ai-chatbots-yet
  5. https://www.forbes.com/sites/jamielsheikh/2023/04/05/the-chatgpt-of-finance-is-here-bloomberg-is-combining-ai-and-fintech/?sh=43b4385e3081
  6. 1 2 3 Salimans, Tim; Narasimhan, Karthik; Radford, Alec; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года. Ошибка в сносках?: Неверный тег <ref>: название «gpt1paper» определено несколько раз для различного содержимого
  7. . arXiv:1506.06724 https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html. {{cite conference}}: |title= пропущен или пуст (справка)Википедия:Обслуживание CS1 (url-status) (ссылка)
  8. Improving language understanding with unsupervised learning (амер. англ.). openai.com. Дата обращения: 18 марта 2023. Архивировано 18 марта 2023 года.
  9. Language models are few-shot learners (амер. англ.). openai.com. Дата обращения: 21 марта 2023. Архивировано 21 марта 2023 года.

Ошибка в сносках?: Тег <ref> с именем «instructgpt-blog», определённый в <references>, не используется в предшествующем тексте.
Ошибка в сносках?: Тег <ref> с именем «instructgpt-paper», определённый в <references>, не используется в предшествующем тексте.

Ошибка в сносках?: Тег <ref> с именем «chatgpt-blog», определённый в <references>, не используется в предшествующем тексте.