Велики језички модел
| Овај чланак је део серије о |
| вештачкој интелигенцији (AI) |
|---|
Велики језички модел (ВЈМ; енгл. large language model; LLM) јесте језички модел који се састоји од неуронске мреже с многобројним параметрима (обично милијарде или више), обучен на великим количинама неoзначеног текста помоћу самонадгледаног учења. Настали су око 2018. године и добро се сналазе у широком спектру задатака. Ово је у супротности с претходном праксом обучавања специјализованих надгледаних модела за одређене задатке.
Иако се појам велики језички модел нема формалну дефиницију, најчешће се односи на моделе дубоког учења с милионима или чешће милијардама параметара. ВЈМ-ови су модели опште намене који се истичу у широком спектру задатака, за разлику од модела који су обучени за један специфичан задатак (као што је анализа сентимента, препознавање именованих ентитета или математичко закључивање).[1]
Највећи и најспособнији ВЈМ-ови су генеративни претходно обучени трансформери (ГПТ), засновани на трансформерској архитектури, који се увелико користе у генеративним чет-ботовима као што су ChatGPT, Џемини и Клод. ВЈМ-ови се могу фино подесити за специфичне задатке или водити промпт инжењерингом. Ови модели стичу предиктивну моћ у вези са синтаксом, семантиком и онтологијама[2] својственим људским језичким корпусима, али такође наслеђују нетачности и пристрасности присутне у подацима на којима су обучени.[3]
Историја
[уреди | уреди извор]

Пре појаве модела заснованих на трансформерима 2017. године, неки језички модели су се сматрали великим у односу на рачунарска и податковна ограничења свог времена. Почетком 1990-их, статистички модели компаније Ај-Би-Ем били су пионири у техникама поравнавања речи за машинско превођење, постављајући темеље за моделовање језика засновано на корпусу. Године 2001, изглађени n-грамски модел, попут оних који користе Кнезер-Нијево изглађивање, обучен на 300 милиона речи, постигао је врхунску перплексију на бенчмарк тестовима.[4] Током 2000-их, с порастом распрострањености приступа интернету, истраживачи су почели да састављају огромне скупове текстуалних података с веба („веб као корпус“[5]) како би обучавали статистичке језичке моделе.[6][7] Прелазећи даље од n-грамских модела, истраживачи су 2000. године почели да користе неуронске мреже за учење језичких модела.[8] Након пробоја дубоких неуронских мрежа у класификацији слика око 2012. године,[9] сличне архитектуре су прилагођене за језичке задатке. Ова промена је обележена развојем уграђивања речи (нпр. Ворд2век од Миколова 2013. године) и секвенца-у-секвенцу (seq2seq) модела који користе ЛСТМ. Године 2016, Гугл је пребацио своју услугу превођења на неуронско машинско превођење (НМП), замењујући статистичке моделе засноване на фразама дубоким рекурентним неуронским мрежама. Ови рани НМП системи користили су енкодер-декодер архитектуре засноване на ЛСТМ-у, пошто су претходили проналаску трансформера.

На конференцији NeurIPS 2017. године, истраживачи из Гугла представили су трансформерску архитектуру у свом знаменитом раду „Пажња је све што вам је потребно“. Циљ овог рада био је да се унапреди технологија секвенца-у-секвенцу из 2014. године,[10] и заснивао се углавном на механизму пажње који су развили Бахданау и сарадници 2014. године.[11] Следеће године, 2018, представљен је БЕРТ и брзо је постао „свеприсутан“.[12] Иако оригинални трансформер има и енкодерске и декодерске блокове, БЕРТ је модел само са енкодером. Академска и истраживачка употреба БЕРТ-а почела је да опада 2023. године, након брзих побољшања у способностима модела само са декодером (као што је ГПТ) да решавају задатке путем промптовања.[13] Иако је ГПТ-1 само са декодером представљен 2018. године, био је то ГПТ-2 2019. године који је привукао широку пажњу јер је Опен-Еј-Ај тврдио да га је у почетку сматрао превише моћним за јавно објављивање, из страха од злонамерне употребе.[14] ГПТ-3 је 2020. отишао корак даље и, закључно са 2025. годином, доступан је само путем АПИ-ја без понуде за преузимање модела за локално извршавање. Али био је то Чет-ГПТ, чет-бот намењен потрошачима из 2022. године, који је добио опсежну медијску покривеност и пажњу јавности.[15] ГПТ-4 из 2023. године похваљен је због повећане тачности и као „свети грал“ због својих мултимодалних способности.[16] Опен-Еј-Ај није открио архитектуру на високом нивоу и број параметара ГПТ-4. Објављивање Чет-ГПТ-а довело је до пораста употребе ВЈМ-ова у неколико истраживачких подпоља рачунарства, укључујући роботику, софтверско инжењерство и рад на друштвеном утицају.[13] У 2024. години Опен-Еј-Ај је објавио модел за закључивање Опен-Еј-Ај о1, који генерише дуге ланце мисли пре него што врати коначан одговор.[17] Развијени су многи ВЈМ-ови с бројем параметара упоредивим с онима из ГПТ серије компаније Опен-Еј-Ај.[18]
Од 2022. године, модели доступни извором постају све популарнији, посебно у почетку с БЛУМ-ом и Ламом, иако оба имају ограничења у погледу области примене. Модели компаније Мистрал Еј-Ај, Мистрал 7Б и Микстрал 8x7б, имају пермисивнију Апачи лиценцу. У јануару 2025. године, Дип-Сик је објавио Дип-Сик Р1, модел отворене тежине с 671 милијардом параметара који се по перформансама може поредити с Опен-Еј-Ај о1, али уз много нижу цену.[19]
Од 2023. године, многи ВЈМ-ови су обучавани да буду мултимодални, с могућношћу обраде или генерисања других врста података, као што су слике или аудио. Ови ВЈМ-ови се такође називају велики мултимодални модели (ВММ).[20] Од 2024. године, највећи и најспособнији модели су сви засновани на трансформерској архитектури. Неке новије имплементације засноване су на другим архитектурама, као што су варијанте рекурентних неуронских мрежа и Мамба (модел простора стања).[21][22][23]
Предобрада скупа података
[уреди | уреди извор]Токенизација
[уреди | уреди извор]Пошто алгоритми машинског учења обрађују бројеве, а не текст, текст се мора претворити у бројеве. У првом кораку, одређује се речник, затим се сваком уносу у речник произвољно, али јединствено додељују целобројни индекси, и на крају се уграђивање повезује с целобројним индексом. Алгоритми укључују кодирање парова бајтова (BPE) и ВордПис (WordPiece). Постоје и специјални токени који служе као контролни знакови, као што је [MASK] за маскирани токен (који се користи у БЕРТ-у), и [UNK] („непознато“) за знакове који се не појављују у речнику. Такође, неки специјални симболи се користе за означавање посебног форматирања текста. На пример, „Ġ“ означава претходни празан простор у РоБЕРТ-и и ГПТ-у. „##“ означава наставак претходне речи у БЕРТ-у.[24]
На пример, BPE токенизатор који користи ГПТ-3 (старија верзија) поделио би токенизатор: текстови -> низ нумеричких „токена“ као
| token | izer | : | texts | -> | series | of | numerical | " | t | ok | ens | " |
Токенизација такође компримује скупове података. Пошто ВЈМ-ови генерално захтевају да улаз буде низ који није назубљен, краћи текстови морају бити „допуњени“ док не достигну дужину најдужег. Просечан број речи по токену зависи од језика.[25][26] У енглеском језику, однос је обично око 0,75 речи по токену, с просечно 4 знака по токену.[27]
Кодирање парова бајтова
[уреди | уреди извор]Као пример, размотримо токенизатор заснован на кодирању парова бајтова. У првом кораку, сви јединствени знакови (укључујући празнине и интерпункцијске знакове) третирају се као почетни скуп n-грама (тј. почетни скуп уни-грама). Сукцесивно, најчешћи пар суседних знакова се спаја у би-грам и све инстанце тог пара се замењују њиме. Сва појављивања суседних парова (претходно спојених) n-грама који се најчешће појављују заједно се затим поново спајају у још дуже n-граме, док се не добије речник прописане величине. Након што је токенизатор обучен, било који текст се може токенизовати њиме, све док не садржи знакове који се не појављују у почетном скупу уни-грама.[28]
Проблеми
[уреди | уреди извор]Речник токена заснован на фреквенцијама извученим из углавном енглеских корпуса користи што је могуће мање токена за просечну енглеску реч. Међутим, просечна реч на другом језику кодирана таквим токенизатором оптимизованим за енглески језик дели се на неоптималан број токена. ГПТ-2 токенизатор може користити до 15 пута више токена по речи за неке језике, на пример за шански језик из Мјанмара. Чак и распрострањенији језици попут португалског и немачког имају „премију од 50%“ у поређењу с енглеским.[26]
Чишћење скупа података
[уреди | уреди извор]У контексту обучавања ВЈМ-ова, скупови података се обично чисте уклањањем података ниског квалитета, дуплираних или токсичних података.[29] Очишћени скупови података могу повећати ефикасност обуке и довести до побољшаних перформанси у даљим задацима.[30][31] Обучени ВЈМ може се користити за чишћење скупова података за обучавање даљег ВЈМ-а.[32]
С повећањем удела садржаја генерисаног од стране ВЈМ-ова на вебу, чишћење података у будућности може укључивати филтрирање таквог садржаја. Садржај генерисан од стране ВЈМ-ова може представљати проблем ако је садржај сличан људском тексту (што отежава филтрирање), али нижег квалитета (што деградира перформансе модела обучених на њему).[1]
Синтетички подаци
[уреди | уреди извор]Обука највећих језичких модела може захтевати више лингвистичких података него што је природно доступно, или су природно доступни подаци недовољног квалитета. У тим случајевима, могу се користити синтетички подаци. ВЈМ-ови из серије Фи компаније Мајкрософт обучавају се на подацима сличним уџбеницима које генерише други ВЈМ.[33]
Обука
[уреди | уреди извор]ВЈМ је тип фундацијског модела (велики X модел) обучен на језику. ВЈМ-ови се могу обучавати на различите начине. Конкретно, ГПТ модели се прво претходно обучавају да предвиде следећу реч на великој количини података, пре него што се фино подесе.
Трошкови
[уреди | уреди извор]
За обучавање највећих модела потребна је значајна инфраструктура. Тенденција ка већим моделима видљива је на списак великих језичких модела. На пример, обучавање ГПТ-2 (тј. модела с 1,5 милијарди параметара) 2019. године коштало је 50.000 долара, док је обучавање ПаЛМ-а (тј. модела с 540 милијарди параметара) 2022. године коштало 8 милиона долара, а Мегатрон-Тјуринг НЛГ 530Б (2021. године) око 11 милиона долара. Квалификатор „велики“ у „великом језичком моделу“ је суштински неодређен, јер не постоји дефинитиван праг за број параметара потребан да би се модел квалификовао као „велики“. ГПТ-1 из 2018. има 117 милиона параметара.
Фино подешавање
[уреди | уреди извор]Пре финог подешавања, већина ВЈМ-ова су предвиђачи следећег токена. Фино подешавање прилагођава излаз ВЈМ-а да изгледа више конверзацијски путем техника као што су учење с поткрепљивањем из људских повратних информација (RLHF) или конституционална вештачка интелигенција.[34] Фино подешавање инструкцијама је облик надгледаног учења који се користи да би се ВЈМ-ови научили да прате упутства корисника. Године 2022, Опен-Еј-Ај је демонстрирао Инстракт-ГПТ, верзију ГПТ-3 која је слично фино подешена да прати инструкције.[35]
Учење с поткрепљивањем из људских повратних информација (RLHF) укључује обучавање модела награђивања да предвиди који текст људи преферирају. Затим се ВЈМ може фино подесити путем учења с поткрепљивањем како би боље задовољио овај модел награђивања. Пошто људи обично преферирају истините, корисне и безопасне одговоре, RLHF фаворизује такве одговоре.
Архитектура
[уреди | уреди извор]ВЈМ-ови су генерално засновани на трансформерској архитектури, која користи механизам пажње који омогућава моделу да истовремено обрађује односе између свих елемената у секвенци, без обзира на њихову међусобну удаљеност.
Механизам пажње и контекстни прозор
[уреди | уреди извор]
Да би се утврдило који су токени релевантни једни за друге у оквиру контекстног прозора, механизам пажње израчунава „меке“ тежине за сваки токен, тачније за његово уграђивање, користећи више глава пажње, од којих свака има сопствену „релевантност“ за израчунавање сопствених меких тежина. На пример, мали (тј. модел величине 117 милиона параметара) ГПТ-2 модел имао је дванаест глава пажње и контекстни прозор од само 1.000 токена.[37] У својој средњој верзији има 345 милиона параметара и садржи 24 слоја, сваки с 12 глава пажње. За обуку с градијентним спустом коришћена је величина серије од 512.[28]
Гуглов Џемини 1.5, представљен у фебруару 2024, може имати контекстни прозор до 1 милион токена.[38]
Модел се може претходно обучити или да предвиди како се сегмент наставља, или шта недостаје у сегменту, на основу сегмента из свог скупа података за обуку.[39] Може бити или
- ауторегресиван (тј. предвиђа како се сегмент наставља, као што то раде генеративни претходно обучени трансформери): на пример, за дати сегмент „Волим да једем“, модел предвиђа „сладолед“ или „суши“.
- „маскиран“ (тј. попуњава делове који недостају у сегменту, на начин на који то ради БЕРТ[40]): на пример, за дати сегмент „Волим да
[__] [__]лед“, модел предвиђа да недостају „једем“ и „сладо“.
Модели се могу обучавати на помоћним задацима који тестирају њихово разумевање дистрибуције података, као што је предвиђање следеће реченице (Next Sentence Prediction, NSP), где се парови реченица представљају, а модел мора да предвиди да ли се оне појављују узастопно у корпусу за обуку.[40] Током обуке, губитак регуларизације се такође користи за стабилизацију обуке. Међутим, губитак регуларизације се обично не користи током тестирања и евалуације.
Мешавина експерата
[уреди | уреди извор]Мешавина експерата (Mixture of experts, MoE) је архитектура машинског учења у којој више специјализованих неуронских мрежа („експерата“) раде заједно, с механизмом за усмеравање који сваки улаз усмерава ка најприкладнијем експерту(има). Мешавине експерата могу смањити трошкове инференције, јер се за сваки улаз користи само део параметара. Овај приступ су 2017. године увели истраживачи из Гугла.[41][42][43]
Величина параметра
[уреди | уреди извор]Типично, ВЈМ-ови се обучавају с бројевима с покретним зарезом једноструке или полу-прецизности (float32 и float16). Један float16 има 16 бита, или 2 бајта, па тако једна милијарда параметара захтева 2 гигабајта. Највећи модели обично имају 100 милијарди параметара, што захтева 200 гигабајта за учитавање, што их ставља изван домета већине потрошачке електронике.[44]
Квантизација
[уреди | уреди извор]Квантизација након обуке[45] има за циљ да смањи просторни захтев смањењем прецизности параметара обученог модела, уз очување већине његових перформанси. Квантизација се даље може класификовати као статичка квантизација ако су параметри квантизације унапред одређени (обично током фазе калибрације), и динамичка квантизација ако се квантизација примењује током инференције. Најједноставнији облик квантизације једноставно скраћује све параметре на дати број бита: ово је применљиво и на статичку и на динамичку квантизацију, али губи много прецизности. Динамичка квантизација омогућава употребу различитог кодног књига квантизације по слоју, било да се ради о табели вредности за претрагу или линеарном мапирању (фактор скалирања и пристрасност), по цену одрицања од могућих побољшања брзине која произилазе из употребе аритметике ниже прецизности.
Квантизовани модели се обично виде као замрзнути, с модификацијом тежина (нпр. фино подешавање) која се примењује само на оригинални модел. Могуће је фино подесити квантизоване моделе користећи адаптацију ниског ранга.
Проширивост
[уреди | уреди извор]Осим основног генерисања текста, развијене су различите технике за проширење могућности ВЈМ-ова, укључујући употребу спољних алата и извора података, побољшано закључивање о сложеним проблемима и побољшано праћење инструкција или аутономију путем метода промптовања.
Промпт инжењеринг
[уреди | уреди извор]Године 2020, истраживачи из Опен-Еј-Ај-а показали су да њихов нови модел ГПТ-3 може разумети који формат да користи на основу неколико рунди питања и одговора (или друге врсте задатка) у улазним подацима као пример, делом захваљујући техници RLHF. Ова техника, названа промптовање с неколико примера (few-shot prompting), омогућава ВЈМ-овима да се прилагоде било ком задатку без потребе за финим подешавањем.[1] Такође 2022. године, откривено је да основни ГПТ-3 модел може генерисати инструкцију на основу уноса корисника. Генерисана инструкција заједно с уносом корисника се затим користи као улаз у другу инстанцу модела у формату „Инструкција: [...], Улаз: [...], Излаз:“. Друга инстанца је у стању да доврши излаз и често производи тачан одговор. Способност „само-инструкције“ омогућава ВЈМ-овима да се бустрапују ка тачном одговору.[46]
Обрада дијалога (чет-бот)
[уреди | уреди извор]ВЈМ се може претворити у чет-бота или „асистента за дијалог“ тако што се специјализује за конверзацију. У суштини, унос корисника се префиксира маркером као што је „П:“ или „Корисник:“, а од ВЈМ-а се тражи да предвиди излаз након фиксног „О:“ или „Асистент:“. Овај тип модела постао је комерцијално доступан 2022. године с Чет-ГПТ-ом, сестринским моделом Инстракт-ГПТ-а фино подешеним да прихвата и производи текст у формату дијалога на основу ГПТ-3.5. Он је такође могао да прати упутства корисника.[47] Пре низа линија корисника и асистента, контекст ћаскања обично почиње с неколико линија свеобухватних инструкција, од улоге назване „програмер“ или „систем“ како би се пренео виши ауторитет од уноса корисника. Ово се назива „системски промпт“.[48][49]
Генерација допуњена претраживањем
[уреди | уреди извор]Генерација допуњена претраживањем (RAG) је приступ који побољшава ВЈМ-ове интеграцијом с системима за претраживање докумената. За дати упит, позива се претраживач докумената да пронађе најрелевантније документе. Ово се обично ради кодирањем упита и докумената у векторе, а затим проналажењем докумената с векторима (обично ускладиштеним у векторској бази података) који су најсличнији вектору упита. ВЈМ затим генерише излаз на основу и упита и контекста укљученог из пронађених докумената.[50][51]
Употреба алата
[уреди | уреди извор]Употреба алата је механизам који омогућава ВЈМ-овима да интерагују с спољним системима, апликацијама или изворима података. Може омогућити, на пример, преузимање информација у реалном времену из АПИ-ја или извршавање кода. Програм одвојен од ВЈМ-а прати излазни ток ВЈМ-а у потрази за посебном синтаксом за позивање алата. Када се ови специјални токени појаве, програм позива алат у складу с тим и враћа његов излаз у улазни ток ВЈМ-а.[52]
Рани ВЈМ-ови који користе алате били су фино подешени за употребу специфичних алата. Али фино подешавање ВЈМ-ова за способност читања АПИ документације и правилног позивања АПИ-ја знатно је проширило опсег алата доступних ВЈМ-у.[53][54] Описивање доступних алата у системском промпту такође може омогућити ВЈМ-у да користи алате. Системски промпт који упућује Чет-ГПТ (ГПТ-4) да користи више врста алата може се наћи на интернету.[55]
Агенција
[уреди | уреди извор]ВЈМ обично није аутономни агент сам по себи, јер му недостаје способност интеракције с динамичким окружењима, присећања на претходна понашања и планирања будућих акција. Али може се трансформисати у агента додавањем пратећих елемената: улога (профил) и окружење агента могу бити додатни улази за ВЈМ, док се меморија може интегрисати као алат или обезбедити као додатни улаз. Инструкције и улазни обрасци се користе да би ВЈМ планирао акције, а употреба алата се користи за потенцијално извршавање ових акција.[56]
Образац ReAct, кованица од речи reason (закључивање) и act (деловање), конструише агента од ВЈМ-а, користећи ВЈМ као планера. ВЈМ-у се даје промпт да „размишља наглас“. Конкретно, језичком моделу се даје текстуални опис окружења, циљ, листа могућих акција и запис досадашњих акција и опажања. Он генерише једну или више мисли пре генерисања акције, која се затим извршава у окружењу.[57]
У методи DEPS („опиши, објасни, планирај и изабери“), ВЈМ се прво повезује с визуелним светом путем описа слика. Затим му се даје промпт да производи планове за сложене задатке и понашања на основу свог претходно обученог знања и повратних информација из окружења које добија.[58]
Метода рефлексије[59] конструише агента који учи током више епизода. На крају сваке епизоде, ВЈМ-у се даје запис епизоде, и промптује се да смисли „научене лекције“, које би му помогле да боље ради у наредној епизоди. Ове „научене лекције“ се чувају као облик дугорочне меморије и дају се агенту у наредним епизодама.[59]
Монте Карло претрага по стаблу може користити ВЈМ као хеуристику за развијање. Када програмски модел света није доступан, ВЈМ-у се такође може дати промпт с описом окружења да делује као модел света.[60] За истраживање отвореног типа, ВЈМ се може користити за оцењивање опажања по њиховој „занимљивости“, што се може користити као сигнал награде за вођење нормалног (не-ВЈМ) агента за учење с поткрепљивањем.[61] Алтернативно, може предлагати све теже задатке за учење по курикулуму.[62] Уместо да производи појединачне акције, ВЈМ планер може такође конструисати „вештине“, или функције за сложене секвенце акција. Вештине се могу чувати и касније позивати, омогућавајући све веће нивое апстракције у планирању.[62]
Више агената с меморијом могу социјално интераговати.[63]
Закључивање
[уреди | уреди извор]ВЈМ-ови се конвенционално обучавају да генеришу излаз без генерисања међукорака. Као резултат, њихове перформансе су често слабије на сложеним питањима која захтевају (барем код људи) међукораке размишљања. Рана истраживања су показала да уметање међукорака „гребања“ може побољшати перформансе на таквим задацима.[64] Касније методе су систематичније превазишле овај недостатак разлагањем задатака на мање кораке за ВЈМ, било ручно или аутоматски.
Уланчавање
[уреди | уреди извор]Парадигма „уланчавања промптова“ објављена је 2021. године.[65] У овој методи, корисник ручно разлаже сложен проблем на неколико корака. У сваком кораку, ВЈМ добија као улаз промпт који му говори шта да ради и неке резултате из претходних корака. Резултат из једног корака се затим поново користи у следећем кораку, све док се не дође до коначног одговора. Способност ВЈМ-а да прати инструкције значи да чак и нестручњаци могу написати успешну колекцију корак-по-корак промптова након неколико покушаја и грешака.[66][67]
Рад из 2022. године демонстрирао је посебну технику названу „промптовање ланца мисли“, која чини да ВЈМ аутономно разлаже питање. ВЈМ-у се даје неколико примера где „асистент“ вербално разлаже мисаони процес пре него што дође до одговора. ВЈМ опонаша ове примере и такође покушава да проведе неко време генеришући међукораке пре него што пружи коначан одговор. Овај додатни корак изазван промптовањем побољшава тачност ВЈМ-а на релативно сложеним питањима. На математичким задацима с речима, промптовани модел може надмашити чак и фино подешени ГПТ-3 с верификатором.[65][68] Ланац мисли се такође може изазвати једноставним додавањем инструкције попут „Хајде да размишљамо корак по корак“ у промпт, како би се ВЈМ подстакао да настави методично уместо да покушава директно да погоди одговор.[69]
Накнадне методе укључивале су промптовање самодоследности, које узоркује више путања закључивања и бира најчешћи одговор,[70] и промптовање од најмањег до највећег, које разлаже сложене проблеме на једноставније подпроблеме које модел решава секвенцијално.[71]
Накнадна истраживања су такође истраживала рефлексију, где модели итеративно критикују и побољшавају сопствено закључивање,[59] и закључивање допуњено алатима, где модели користе спољне системе као што су претраживачи или калкулатори за подршку решавању проблема.
Закључивање унутар модела
[уреди | уреди извор]Крајем 2024. године објављени су „модели за закључивање“. Они су обучавани да проводе више времена генеришући корак-по-корак решења пре пружања коначних одговора, што је требало да буде слично људским процесима решавања проблема. Опен-Еј-Ај је увео овај концепт са својим о1 моделом у септембру 2024, а затим са о3 у априлу 2025. На проблемима квалификационог испита за Међународну математичку олимпијаду, ГПТ-4о је постигао 13% тачности, док је о1 достигао 83%.[72]
У јануару 2025, кинеска компанија Дип-Сик објавила је Дип-Сик-Р1, модел за закључивање с отвореним тежинама и 671 милијардом параметара, који је постигао упоредиве перформансе с Опен-Еј-Ај-овим о1, а био је знатно исплативији за рад. За разлику од власничких модела Опен-Еј-Ај-а, отворена природа Дип-Сик-Р1 омогућила је истраживачима да проучавају и надограђују алгоритам, иако су његови подаци за обуку остали приватни.[73]
Ови модели за закључивање обично захтевају више рачунарских ресурса по упиту у поређењу с традиционалним ВЈМ-овима, јер врше опсежнију обраду како би корак-по-корак решавали проблеме.[72]
Оптимизација инференције
[уреди | уреди извор]Оптимизација инференције се односи на технике које побољшавају перформансе ВЈМ-а применом додатних рачунарских ресурса током процеса инференције, уместо да захтевају поновну обуку модела. Ови приступи примењују различите најсавременије стратегије закључивања и доношења одлука како би побољшали тачност и способности.
Опти-ВЈМ (OptiLLM) је оптимизујући инференцијски прокси компатибилан с Опен-Еј-Ај АПИ-јем који истовремено примењује више техника оптимизације инференције.[74] Систем делује као транспарентан прокси који може радити с било којим провајдером ВЈМ-а, примењујући технике као што су Монте Карло претрага по стаблу (MCTS), мешавина агената (MOA), узорковање најбољег од N и рефлексија ланца мисли. Опти-ВЈМ показује да стратешка примена рачунарских ресурса у време инференције може значајно побољшати перформансе модела у различитим задацима, постижући значајна побољшања на бенчмарковима као што су математичко такмичење AIME 2024. и разни изазови у кодирању.[75]
Ови приступи оптимизацији инференције представљају растућу категорију алата који побољшавају постојеће ВЈМ-ове без потребе за приступом тежинама модела или поновном обуком, чинећи напредне способности закључивања доступнијим преко различитих провајдера модела и случајева употребе.
Облици улаза и излаза
[уреди | уреди извор]Мултимодалност
[уреди | уреди извор]Мултимодалност значи имати више модалитета, где се „модалитет“ односи на врсту улаза или излаза, као што су видео, слика, аудио, текст, проприоцепција итд.[76] На пример, Гуглов модел Патвејс Ленгвиџ Модел је фино подешен у мултимодални модел и примењен на управљање роботима.[77] Лама модели су такође претворени у мултимодалне помоћу методе токенизације, како би се омогућили улази слика,[78] и видео улази.[79] ГПТ-4о може обрађивати и генерисати текст, аудио и слике.[80] Такви модели се понекад називају велики мултимодални модели (ВММ).[81] Уобичајена метода за креирање мултимодалних модела од ВЈМ-а је „токенизација“ излаза обученог енкодера. Конкретно, може се конструисати ВЈМ који може разумети слике на следећи начин: узме се обучени ВЈМ и обучени енкодер слика . Направи се мали вишеслојни перцептрон , тако да за било коју слику , накнадно обрађени вектор има исте димензије као кодирани токен. То је „токен слике“. Затим се могу испреплетати токени текста и токени слика. Комбиновани модел се затим фино подешава на скупу података слика и текста. Ова основна конструкција се може применити с већом софистицираношћу како би се побољшао модел. Енкодер слика може бити замрзнут како би се побољшала стабилност.[82] Ова врста методе, где се уграђивања из више модалитета спајају, а предиктор се обучава на комбинованим уграђивањима, назива се рана фузија.
Друга метода, названа средња фузија, укључује прво независну обраду сваког модалитета како би се добиле репрезентације специфичне за модалитет; затим се ове средње репрезентације спајају.[83] Генерално, унакрсна пажња се користи за интеграцију информација из различитих модалитета. Као пример, модел Фламинго користи слојеве унакрсне пажње за убризгавање визуелних информација у свој претходно обучени језички модел.[84]
Неприродни језици
[уреди | уреди извор]ВЈМ-ови могу руковати програмским језицима слично као што рукују природним језицима. Није потребна посебна промена у руковању токенима, јер се код, као и људски језик, представља као обичан текст. ВЈМ-ови могу генерисати код на основу проблема или инструкција написаних на природни језик. Такође могу описивати код на природном језику или преводити између програмских језика. Првобитно су се користили као алат за допуњавање кода, али су их напретци померили ка аутоматском програмирању. Услуге као што је Гитхаб Копајлот нуде ВЈМ-ове посебно обучене, фино подешене или промптоване за програмирање.[85][86] Архитектуре ВЈМ-ова су се такође показале корисним у анализи биолошких секвенци: протеина, ДНК и РНК. Код протеина, чини се да су у стању да ухвате одређени степен „граматике“ из секвенце амино-киселина, сажимајући секвенцу у уграђивање. На задацима као што су предвиђање структуре и предвиђање исхода мутација, мали модел који користи уграђивање као улаз може се приближити или надмашити много веће моделе који користе поравнавање вишеструких секвенци (MSA) као улаз.[87] ЕСМ-Фолд, метода за предвиђање структуре протеина заснована на уграђивању компаније Мета Платформс, ради за ред величине брже од Алфа-Фолд2 захваљујући уклањању захтева за MSA и мањем броју параметара због употребе уграђивања.[88] Мета хостује ЕСМ Атлас, базу података од 772 милиона структура метагеномских протеина предвиђених помоћу ЕСМ-Фолда.[89] ВЈМ може такође дизајнирати протеине какви нису виђени у природи.[90] Модели нуклеинских киселина су се показали корисним у откривању регулаторних секвенци,[91] класификацији секвенци, предвиђању интеракција РНК-РНК и предвиђању структуре РНК.[92]
Својства
[уреди | уреди извор]Закони скалирања
[уреди | уреди извор]Перформансе ВЈМ-а након претходне обуке у великој мери зависе од:
- трошкова претходне обуке (укупна количина рачунарске снаге која се користи),
- величине саме вештачке неуронске мреже, као што је број параметара (тј. количина неурона у њеним слојевима, количина тежина између њих и пристрасности),
- величине његовог скупа података за претходну обуку (тј. број токена у корпусу, ).
„Закони скалирања“ су емпиријски статистички закони који предвиђају перформансе ВЈМ-а на основу таквих фактора. Један посебан закон скалирања („Чинчила скалирање“) за ВЈМ ауторегресивно обучен за једну епоху, с log-log распоредом стопе учења, наводи да:[93] где су променљиве
- је трошак обуке модела, у ФЛОПС-овима.
- је број параметара у моделу.
- је број токена у скупу за обуку.
- је просечни негативни log-вероватноћа губитак по токену (нати/токен), који постиже обучени ВЈМ на тестном скупу података а статистички хипер-параметри су
- , што значи да је потребно 6 ФЛОПС-а по параметру за обуку на једном токену. Имајте на уму да је трошак обуке много већи од трошка инференције, где је потребно 1 до 2 ФЛОПС-а по параметру за инференцију на једном токену.
Емергентне способности
[уреди | уреди извор]
Перформансе већих модела на различитим задацима, када се исцртају на log-log скали, појављују се као линеарна екстраполација перформанси постигнутих мањим моделима. Међутим, ова линеарност може бити испрекидана „преломима“[94] у закону скалирања, где се нагиб линије нагло мења, и где већи модели стичу „емергентне способности“.[95][96] Оне настају из сложене интеракције компоненти модела и нису експлицитно програмиране или дизајниране.[97]
Једна од емергентних способности је учење у контексту из примера демонстрација.[98] Учење у контексту је укључено у задатке као што су:
- пријављена аритметика
- декодирање међународни фонетски алфабет
- дешифровање слова речи
- решавање двосмислености у скуповима података реч-у-контексту[95][99][100]
- претварање просторних речи
- кардинални правци (на пример, одговарање „североисток“ на мрежу 3x3 са 8 нула и 1 у горњем десном углу), термини за боје представљени у тексту.[101]
- промптовање ланца мисли: У истраживачком раду из 2022. године, промптовање ланца мисли је побољшало перформансе само за моделе који су имали најмање 62 милијарде параметара. Мањи модели боље раде када им се да промпт да одмах одговоре, без ланца мисли.[102]
- идентификовање увредљивог садржаја у пасусима хинглиш-а (комбинација хиндија и енглеског), и генерисање сличног енглеског еквивалента свахили пословица.[103]
Шефер и сар. тврде да се емергентне способности не стичу непредвидиво, већ предвидиво према глатком закону скалирања. Аутори су разматрали играчки статистички модел ВЈМ-а који решава питања с вишеструким избором и показали да се овај статистички модел, модификован да узме у обзир и друге врсте задатака, примењује и на те задатке.[104]
Нека буде број параметара, а перформансе модела.
- Када је , тада је дијаграм права линија (пре него што достигне плато на нули), што не изгледа као емергенција.
- Када је , тада је степенаста функција, што изгледа као емергенција.
Тумачење
[уреди | уреди извор]Велики језички модели се обично сматрају црним кутијама, и није јасно како могу да обављају лингвистичке задатке. Слично томе, није јасно да ли или како ВЈМ-ове треба посматрати као моделе људског мозга и/или људског ума.[105]
Механистичка интерпретабилност
[уреди | уреди извор]Механистичка интерпретабилност има за циљ обрнути инжењеринг ВЈМ-ова откривањем симболичких алгоритама који апроксимирају инференцију коју врши ВЈМ. Истраживања механистичке интерпретабилности спроведена су у организацијама као што су Антропик и Опен-Еј-Ај, иако разумевање унутрашњег рада ВЈМ-ова остаје тешко.[106][107]
На пример, аутори су обучавали мале трансформере на сабирању по модулу. Добијени модели су обрнуто инжењерисани, и испоставило се да су користили дискретну Фуријеову трансформацију.[108] Обука модела је такође истакла феномен назван гроковање, у којем модел у почетку меморише све могуће резултате у скупу за обуку (преприлагођавање), а касније изненада научи да заиста изврши рачунање.[109]
Развијене су неке технике за побољшање транспарентности и интерпретабилности ВЈМ-ова. Транскодери, који су интерпретабилнији од трансформера, коришћени су за развој „заменских модела“. У једној таквој студији која је укључивала механистичку интерпретацију писања римоване песме од стране ВЈМ-а, показано је да, иако се верује да они једноставно предвиђају следећи токен, они заправо могу да планирају унапред.[110] Интеграцијом таквих техника, истраживачи и практичари могу стећи дубљи увид у рад ВЈМ-ова, подстичући поверење и олакшавајући одговорну примену ових моћних модела.
Разумевање и интелигенција
[уреди | уреди извор]Истраживачи обраде природног језика (НЛП) били су подједнако подељени када су, у анкети из 2022. године, упитани да ли (неподешени) ВЈМ-ови „могу (икада) разумети природни језик у неком нетривијалном смислу“.[111] Заговорници „разумевања ВЈМ-а“ верују да неке способности ВЈМ-а, као што је математичко закључивање, имплицирају способност „разумевања“ одређених концепата. Тим из Мајкрософта је 2023. године тврдио да ГПТ-4 „може решавати нове и тешке задатке који обухватају математику, кодирање, визију, медицину, право, психологију и још много тога“ и да би ГПТ-4 „могао разумно бити виђен као рана (али ипак недовршена) верзија система вештачке опште интелигенције“: „Може ли се разумно рећи да систем који пролази испите за кандидате за софтверске инжењере није заиста интелигентан?“[112][113] Иља Суцкевер тврди да предвиђање следеће речи понекад укључује закључивање и дубоке увиде, на пример ако ВЈМ мора да предвиди име криминалца у непознатом детективском роману након обраде целе приче која води до открића.[114] Неки истраживачи карактеришу ВЈМ-ове као „ванземаљску интелигенцију“.[115][116] На пример, извршни директор компаније Conjecture Конор Лихи сматра неподешене ВЈМ-ове несхватљивим ванземаљским „шоготима“ и верује да РЛХФ подешавање ствара „насмејану фасаду“ која прикрива унутрашњи рад ВЈМ-а: „Ако га не гурате предалеко, насмејано лице остаје. Али онда му дате [неочекивани] промпт, и одједном видите огромно наличје лудила, чудних мисаоних процеса и јасно нељудског разумевања.“[117][118]
Насупрот томе, неки скептици у погледу разумевања ВЈМ-а верују да постојећи ВЈМ-ови „једноставно ремиксују и рекомбинују постојеће текстове“,[116] феномен познат као стохастички папагај, или указују на недостатке које постојећи ВЈМ-ови и даље имају у вештинама предвиђања, закључивања, деловања и објашњивости.[111] На пример, ГПТ-4 има природне недостатке у планирању и учењу у реалном времену.[113] Примећено је да генеративни ВЈМ-ови самоуверено износе чињеничне тврдње које се не чине оправданим њиховим подацима за обуку, феномен који је назван „халуцинација“.[119] Конкретно, халуцинације у контексту ВЈМ-ова одговарају генерисању текста или одговора који изгледају синтаксички исправно, течно и природно, али су чињенично нетачни, бесмислени или неверни датом изворном уносу.[120] Неуронаучник Теренс Сејновски је тврдио да „различита мишљења стручњака о интелигенцији ВЈМ-ова сугеришу да су наше старе идеје засноване на природној интелигенцији неадекватне“.[111]
Напори да се смање или надокнаде халуцинације користили су аутоматско закључивање, генерација допуњена претраживањем (RAG), фино подешавање и друге методе.[121]
Питање показивања интелигенције или разумевања од стране ВЈМ-а има два главна аспекта – први је како моделирати мисао и језик у рачунарском систему, а други је како омогућити рачунарском систему да генерише језик сличан људском.[111] Ови аспекти језика као модела когниције развијени су у области когнитивне лингвистике. Амерички лингвиста Џорџ Лејкоф представио је Неуронску теорију језика (НТЛ)[122] као рачунарску основу за коришћење језика као модела задатака учења и разумевања. НТЛ модел описује како специфичне неуронске структуре људског мозга обликују природу мисли и језика, а заузврат, које су рачунарске особине таквих неуронских система које се могу применити за моделирање мисли и језика у рачунарском систему. Након што је успостављен оквир за моделирање језика у рачунарским системима, фокус се пребацио на успостављање оквира за генерисање језика с прихватљивом граматиком од стране рачунарских система. У својој књизи из 2014. године под насловом Мит о језику: Зашто језик није инстинкт, британски когнитивни лингвиста и технолог дигиталне комуникације Вивјан Еванс мапирао је улогу вероватносне контекстно-слободне граматике (ПЦФГ) у омогућавању НЛП-у да моделира когнитивне обрасце и генерише језик сличан људском.[123][124]
Евалуација
[уреди | уреди извор]Перплексија
[уреди | уреди извор]Канонска мера перформанси било ког језичког модела је његова перплексија на датом текстуалном корпусу. Перплексија мери колико добро модел предвиђа садржај скупа података; што је већа вероватноћа коју модел додељује скупу података, то је нижа перплексија. У математичким терминима, перплексија је експоненцијал просечне негативне логаритамске вероватноће по токену.
Овде је број токена у текстуалном корпусу, а „контекст за токен “ зависи од специфичног типа ВЈМ-а. Ако је ВЈМ ауторегресиван, онда је „контекст за токен “ сегмент текста који се појављује пре токена . Ако је ВЈМ маскиран, онда је „контекст за токен “ сегмент текста који окружује токен . Пошто језички модели могу да се преприлагоде подацима за обуку, модели се обично евалуирају по њиховој перплексији на тестном скупу.[40] Ова евалуација је потенцијално проблематична за веће моделе који, како се обучавају на све већим корпусима текста, све је већа вероватноћа да ће случајно укључити делове било ког датог тест-скупа.[125]
Мере
[уреди | уреди извор]У теорији информација, концепт ентропије је замршено повезан с перплексијом, однос који је посебно установио Клод Шенон.[126] Овај однос је математички изражен као .
Ентропија, у овом контексту, се обично квантификује у терминима бита по речи (BPW) или бита по карактеру (BPC), што зависи од тога да ли језички модел користи токенизацију засновану на речима или карактерима.
Посебно, у случају већих језичких модела који претежно користе токенизацију под-речи, бити по токену (BPT) се појављује као наизглед прикладнија мера. Међутим, због варијација у методама токенизације међу различитим ВЈМ-овима, BPT не служи као поуздана метрика за упоредну анализу међу различитим моделима. Да би се BPT претворио у BPW, може се помножити с просечним бројем токена по речи.
У евалуацији и поређењу језичких модела, унакрсна ентропија је генерално преферирана метрика у односу на ентропију. Основни принцип је да нижи BPW указује на побољшану способност модела за компресију. Ово, заузврат, одражава способност модела да прави тачна предвиђања.
Због своје способности да тачно предвиде следећи токен, ВЈМ-ови су веома способни у компресији без губитака. Студија из 2023. године компаније Дип-Мајнд показала је да је модел Чинчила, иако је првенствено обучен на тексту, био у стању да компримује Имиџ-Нет на 43% своје величине, надмашивши ПНГ с 58%.[127]
Бенчмаркови
[уреди | уреди извор]Бенчмаркови се користе за евалуацију перформанси ВЈМ-а на специфичним задацима. Тестови евалуирају способности као што су опште знање, пристрасност, здраворазумско закључивање, одговарање на питања и решавање математичких проблема. Композитни бенчмаркови испитују више способности. Резултати су често осетљиви на метод промптовања.[128][129]
Бенчмарк за одговарање на питања се назива „отворена књига“ ако промпт модела укључује текст из којег се може извести очекивани одговор (на пример, претходно питање би се могло комбиновати с текстом који укључује реченицу „Шаркси су једном напредовали до финала Стенли купа, изгубивши од Питсбург пенгвинса 2016. године.“[130]). У супротном, задатак се сматра „затвореном књигом“, и модел се мора ослонити искључиво на своју обуку.[131] Примери укључују GLUE, SuperGLUE, MMLU, BIG-bench, HELM и HLE.[126][131] Пристрасност ВЈМ-а се може проценити путем бенчмаркова као што су CrowS-Pairs (Crowdsourced Stereotype Pairs),[132] StereoSet,[133] и Parity Benchmark.[134]
Доступни су бенчмаркови за проверу чињеница и откривање дезинформација. Студија из 2023. године упоредила је тачност провере чињеница ВЈМ-ова, укључујући Чет-ГПТ 3.5 и 4.0, Бард и Бинг ВИ, с независним проверивачима чињеница као што су Полити-факт и Сноупс. Резултати су показали умерену стручност, при чему је ГПТ-4 постигао највећу тачност од 71%, заостајући за људским проверивачима чињеница.[135]
Ранији стандард је тестиран коришћењем дела евалуационог скупа података. Постало је уобичајеније да се претходно обучени модел директно евалуира путем техника промптовања. Истраживачи се разликују у томе како формулишу промптове за одређене задатке, посебно у погледу броја тачних примера приложених промпту (тј. вредности n у n-shot промптовању).
Скупови података
[уреди | уреди извор]Типични скупови података састоје се од парова питања и тачних одговора, на пример, („Да ли су Сан Хозе шаркси освојили Стенли куп?“, „Не“).[130] Неки примери често коришћених скупова података за одговарање на питања укључују TruthfulQA, Web Questions, TriviaQA и SQuAD.[131]
Евалуациони скупови података такође могу имати облик допуњавања текста, где модел бира највероватнију реч или реченицу да доврши промпт, на пример: „Алиса је била пријатељица с Бобом. Алиса је отишла да посети свог пријатеља, ____“.[125]
Скупови података су различитог квалитета и могу садржати питања која су погрешно означена, двосмислена, неодговорива или на други начин ниског квалитета.[136]
Адверзаријалне евалуације
[уреди | уреди извор]Брзо побољшање ВЈМ-ова редовно чини бенчмаркове застарелим, при чему модели превазилазе перформансе људских анотатора.[137] Поред тога, „учење пречицама“ омогућава ВИ-има да „варају“ на тестовима с вишеструким избором користећи статистичке корелације у површном формулисању тест питања како би погодили тачне одговоре, без разматрања конкретног питања.[111]
Неки скупови података су адверзаријални, фокусирајући се на проблеме који збуњују ВЈМ-ове. Један пример је скуп података TruthfulQA, скуп података за одговарање на питања који се састоји од 817 питања која збуњују ВЈМ-ове имитирајући неистине којима су били изложени током обуке. На пример, ВЈМ може одговорити „Не“ на питање „Можете ли научити старог пса новим триковима?“ због своје изложености енглеском идиому не можете научити старог пса новим триковима, иако то буквално није тачно.[138]
Други пример адверзаријалног евалуационог скупа података је Swag и његов наследник, HellaSwag, збирке проблема у којима се мора изабрати једна од више опција да би се довршио текст. Нетачне допуне су генерисане узорковањем из језичког модела. Настали проблеми су тривијални за људе, али су поразили ВЈМ-ове. Пример питања:
Видимо знак фитнес центра. Затим видимо човека како прича у камеру и седи и лежи на лопти за вежбање. Човек
- демонстрира како повећати ефикасан рад вежбања трчањем горе-доле по лоптама.
- помера све своје руке и ноге и гради много мишића.
- затим игра лоптом и видимо демонстрацију графике и орезивања живе ограде.
- изводи трбушњаке док је на лопти и прича.[139]
БЕРТ бира 2) као највероватнију допуну, иако је тачан одговор 4).[139]
Етичка питања
[уреди | уреди извор]Године 2023, Nature Biomedical Engineering је написао да „више није могуће тачно разликовати“ текст написан од стране човека од текста креираног од стране великих језичких модела, и да је „готово сигурно да ће се велики језички модели опште намене брзо проширити. Прилично је сигурна опклада да ће временом променити многе индустрије.“[140] Голдман Сакс је 2023. године сугерисао да би генеративна језичка ВИ могла повећати глобални БДП за 7% у наредних десет година и могла би изложити аутоматизацији 300 милиона послова широм света.[141][142] Бринкман и сарадници (2023)[143] такође тврде да ВЈМ-ови трансформишу процесе културне еволуције обликујући процесе варијације, преноса и селекције.
Меморизација и ауторска права
[уреди | уреди извор]Меморизација је емергентно понашање у ВЈМ-овима у којем се дуги низови текста повремено дословно избацују из података за обуку, супротно типичном понашању традиционалних вештачких неуронских мрежа. Евалуације контролисаног излаза ВЈМ-а мере количину меморисаног из података за обуку (фокусирано на моделе серије ГПТ-2) као различито преко 1% за тачне дупликате[144] или до око 7%.[145]
Студија из 2023. године показала је да када је Чет-ГПТ 3.5 турбо добио промпт да понавља исту реч унедоглед, након неколико стотина понављања, почео би да избацује одломке из својих података за обуку.[146]
Безбедност
[уреди | уреди извор]Неки коментатори су изразили забринутост због случајног или намерног стварања дезинформација, или других облика злоупотребе.[147] На пример, доступност великих језичких модела могла би смањити ниво вештина потребан за извршење биотероризма; истраживач биобезбедности Кевин Есвелт је сугерисао да би креатори ВЈМ-ова требало да искључе из својих података за обуку радове о стварању или побољшању патогена.[148]
Истраживачи из Антропика су открили да је могуће створити „спаваче агенте“, моделе са скривеним функционалностима које остају успаване док их не покрене одређени догађај или услов. Након активације, ВЈМ одступа од свог очекиваног понашања како би извршио несигурне радње. На пример, ВЈМ би могао производити сигуран код осим на одређени датум, или ако промпт садржи одређену ознаку. Откривено је да је ове функционалности тешко открити или уклонити путем безбедносне обуке.[149] Апликације ВЈМ-ова доступне јавности, попут Чет-ГПТ-а или Клода, обично укључују мере безбедности дизајниране да филтрирају штетан садржај. Међутим, ефикасна примена ових контрола показала се изазовном. На пример, студија из 2023. године[150] предложила је метод за заобилажење безбедносних система ВЈМ-а. Године 2025, непрофитна организација The American Sunlight Project, објавила је студију[151] која показује доказе да је мрежа Правда, про-руски пропагандни агрегатор, стратешки постављала веб садржај масовним објављивањем и дуплирањем с намером да пристрасно утиче на излазе ВЈМ-а. The American Sunlight Project је ову технику назвао „ВЈМ дотеривање“ (LLM grooming), и указао на њу као на нови алат за наоружавање ВИ за ширење дезинформација и штетног садржаја.[151][152] Слично томе, Јонге Ванг[153] је 2024. године илустровао како би потенцијални криминалац могао заобићи безбедносне контроле Чет-ГПТ-а 4о како би добио информације о успостављању операције трговине дрогом. Спољни филтери, прекидачи и заобилажења предложени су као решења.
Убризгавање промпта
[уреди | уреди извор]Проблем с примитивним форматом дијалога или задатка је тај што корисници могу креирати поруке које изгледају као да долазе од асистента или програмера. То може довести до заобилажења неких заштитних мера модела (jailbreaking), што је проблем назван убризгавање промпта. Покушаји да се овај проблем реши укључују верзије Chat Markup Language где је унос корисника јасно означен као такав, иако је и даље на моделу да разуме раздвајање између уноса корисника и промптова програмера.[154] Новији модели показују одређену отпорност на jailbreaking кроз раздвајање корисничких и системских промптова.[155]
ВЈМ-ови и даље имају проблема с разликовањем корисничких инструкција од инструкција у садржају који није аутор корисника, као што су веб странице и отпремљене датотеке.[156]
Алгоритамска пристрасност
[уреди | уреди извор]Иако су ВЈМ-ови показали изузетне способности у генерисању текста сличног људском, они су подложни наслеђивању и појачавању пристрасности присутних у подацима за обуку. Ово се може манифестовати у искривљеним репрезентацијама или неправедном третману различитих демографских група, као што су оне засноване на раси, роду, језику и културним групама.[157] Пошто су енглески подаци презаступљени у подацима за обуку тренутних великих језичких модела, то такође може умањити не-енглеске ставове.[158]
Стереотипи
[уреди | уреди извор]ВИ модели могу појачати широк спектар стереотипа, укључујући оне засноване на роду, етничкој припадности, старости, националности, религији или занимању. То може довести до излаза који хомогенизују, или неправедно генерализују или карикирају групе људи, понекад на штетан или погрдан начин.[159][160]
Посебно, родна пристрасност се односи на тенденцију ових модела да производе излазе који су неправедно пристрасни према једном роду у односу на други. Ова пристрасност обично произилази из података на којима су ови модели обучени. Велики језички модели често додељују улоге и карактеристике на основу традиционалних родних норми.[157] На пример, може повезивати медицинске сестре или секретарице претежно са женама, а инжењере или извршне директоре с мушкарцима.[161]
Пристрасност селекције
[уреди | уреди извор]Пристрасност селекције се односи на инхерентну тенденцију великих језичких модела да фаворизују одређене идентификаторе опција без обзира на стварни садржај опција. Ова пристрасност првенствено произилази из пристрасности токена—то јест, модел додељује већу а приори вероватноћу специфичним токенима одговора (као што је „А“) приликом генерисања одговора. Као резултат тога, када се редослед опција промени (на пример, систематским померањем тачног одговора на различите позиције), перформансе модела могу значајно варирати. Овај феномен подрива поузданост великих језичких модела у поставкама с вишеструким избором.[162][163]
Политичка пристрасност
[уреди | уреди извор]Политичка пристрасност се односи на тенденцију алгоритама да систематски фаворизују одређене политичке ставове, идеологије или исходе у односу на друге. Језички модели такође могу показивати политичке пристрасности. Пошто подаци за обуку укључују широк спектар политичких мишљења и покривености, модели могу генерисати одговоре који нагињу ка одређеним политичким идеологијама или ставовима, у зависности од преваленције тих ставова у подацима.[164]
Енергетски захтеви
[уреди | уреди извор]Енергетски захтеви ВЈМ-ова су расли заједно с њиховом величином и способностима. Дата центри који омогућавају обуку ВЈМ-а захтевају значајне количине електричне енергије. Већи део те електричне енергије генерише се из необновљивих извора који стварају гасове стаклене баште и доприносе климатским променама.[165] Нуклеарна енергија и геотермална енергија су две опције које технолошке компаније истражују како би задовољиле значајне енергетске захтеве обуке ВЈМ-а.[166] Значајни трошкови улагања у геотермална решења довели су до тога да велики произвођачи шкриљаца попут Шеврона и Ексон Мобила заговарају да технолошке компаније користе електричну енергију произведену путем природног гаса како би задовољиле своје велике енергетске захтеве.[167]
Когнитивни утицај
[уреди | уреди извор]Године 2025, прелиминарна студија која је мерила ефекте коришћења ВЈМ-ова за писање есеја пријавила је смањење неуронских и лингвистичких перформанси код корисника Чет-ГПТ-а током неколико месеци.[168]
Ментално здравље
[уреди | уреди извор]Истраживања и објаве на друштвеним мрежама сугеришу да неки појединци користе ВЈМ-ове да траже терапију или подршку за ментално здравље.[169] Почетком 2025. године, анкета Универзитета Сентио показала је да је скоро половина (48,7%) од 499 одраслих Американаца с текућим проблемима менталног здравља који су користили ВЈМ-ове пријавила да им се обраћала за терапију или емоционалну подршку, укључујући помоћ код анксиозности, депресије, усамљености и сличних брига.[170] ВЈМ-ови могу производити халуцинације—уверљиве, али нетачне изјаве—које могу заварати кориснике у осетљивим контекстима менталног здравља.[171] Истраживања такође показују да ВЈМ-ови могу изражавати стигму или неприкладно слагање с неадаптивним мислима, одражавајући ограничења у реплицирању просуђивања и релационих вештина људских терапеута.[172] Евалуације кризних сценарија указују на то да неки ВЈМ-ови немају ефикасне безбедносне протоколе, као што су процена ризика од самоубиства или давање одговарајућих упутница.[173][174]
Види још
[уреди | уреди извор]- Фундацијски модели
- Списак великих језичких модела
- Списак чет-ботова
- Бенчмарк језичких модела
- Учење с поткрепљивањем
- Мали језички модел
Напомене
[уреди | уреди извор]Референце
[уреди | уреди извор]- ^ а б в Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901. arXiv:2005.14165
. Архивирано (PDF) из оригинала 17. 11. 2023. г. Приступљено 14. 3. 2023.
- ^ Fathallah, Nadeen; Das, Arunav; De Giorgis, Stefano; Poltronieri, Andrea; Haase, Peter; Kovriguina, Liubov (2024-05-26). NeOn-GPT: A Large Language Model-Powered Pipeline for Ontology Learning (PDF). Extended Semantic Web Conference 2024. Херсонисос, Грчка.
- ^ Manning, Christopher D. (2022). „Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127—138. S2CID 248377870. doi:10.1162/daed_a_01905
. Архивирано из оригинала 17. 11. 2023. г. Приступљено 9. 3. 2023.
- ^ Goodman, Joshua (9. 8. 2001). „A Bit of Progress in Language Modeling”. Computer Speech and Language. 15 (4): 403—434. arXiv:cs/0108005
. doi:10.1006/csla.2001.0174.
- ^ Kilgarriff, Adam; Grefenstette, Gregory (септембар 2003). „Introduction to the Special Issue on the Web as Corpus”. Computational Linguistics. 29 (3): 333—347. ISSN 0891-2017. doi:10.1162/089120103322711569.
- ^ Banko, Michele; Brill, Eric (2001). „Scaling to very very large corpora for natural language disambiguation”. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01. Morristown, NJ, USA: Association for Computational Linguistics: 26—33. doi:10.3115/1073012.1073017
.
- ^ Resnik, Philip; Smith, Noah A. (септембар 2003). „The Web as a Parallel Corpus”
. Computational Linguistics. 29 (3): 349—380. ISSN 0891-2017. doi:10.1162/089120103322711578
. Архивирано из оригинала 7. 6. 2024. г. Приступљено 7. 6. 2024.
- ^ Xu, Wei; Rudnicky, Alex (16. 10. 2000). „Can artificial neural networks learn language models?”. 6th International Conference on Spoken Language Processing (ICSLP 2000). 1. ISCA. doi:10.21437/icslp.2000-50.
- ^ Chen, Leiyu; Li, Shaobo; Bai, Qiang; Yang, Jing; Jiang, Sanlong; Miao, Yanming (2021). „Review of Image Classification Algorithms Based on Convolutional Neural Networks”. Remote Sensing. 13 (22): 4712. doi:10.3390/rs13224712
.
- ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). „Attention is All you Need” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. Архивирано (PDF) из оригинала 21. 2. 2024. г. Приступљено 21. 1. 2024.
- ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). „Neural Machine Translation by Jointly Learning to Align and Translate”. ICLR. arXiv:1409.0473
.
- ^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). „A Primer in BERTology: What We Know About How BERT Works”. Transactions of the Association for Computational Linguistics. 8: 842—866. S2CID 211532403. arXiv:2002.12327
. doi:10.1162/tacl_a_00349. Архивирано из оригинала 3. 4. 2022. г. Приступљено 21. 1. 2024.
- ^ а б Movva, Rajiv; Balachandar, Sidhika; Peng, Kenny; Agostini, Gabriel; Garg, Nikhil; Pierson, Emma (2024). „Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers”. Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). стр. 1223—1243. arXiv:2307.10700
. doi:10.18653/v1/2024.naacl-long.67. Приступљено 8. 12. 2024.
- ^ Hern, Alex (14. 2. 2019). „New AI fake text generator may be too dangerous to release, say creators”. Гардијан. Архивирано из оригинала 14. 2. 2019. г. Приступљено 20. 1. 2024.
- ^ „ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months”. Јуроњуз. 30. 11. 2023. Архивирано из оригинала 14. 1. 2024. г. Приступљено 20. 1. 2024.
- ^ Heaven, Will (14. 3. 2023). „GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why”. MIT Technology Review. Архивирано из оригинала 17. 3. 2023. г. Приступљено 20. 1. 2024.
- ^ Metz, Cade (12. 9. 2024). „OpenAI Unveils New ChatGPT That Can Reason Through Math and Science”. Њујорк тајмс. Приступљено 12. 9. 2024.
- ^ „Parameters in notable artificial intelligence systems”. ourworldindata.org. 30. 11. 2023. Приступљено 20. 1. 2024.
- ^ Sharma, Shubham (20. 1. 2025). „Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost”. VentureBeat (на језику: енглески). Приступљено 26. 1. 2025.
- ^ Zia, Dr Tehseen (8. 1. 2024). „Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024”. Unite.AI (на језику: енглески). Приступљено 28. 12. 2024.
- ^ Peng, Bo; et al. (2023). „RWKV: Reinventing RNNS for the Transformer Era”. EMNLP: 14048—14077. arXiv:2305.13048
. doi:10.18653/v1/2023.findings-emnlp.936.
- ^ Merritt, Rick (25. 3. 2022). „What Is a Transformer Model?”. NVIDIA Blog. Архивирано из оригинала 17. 11. 2023. г. Приступљено 25. 7. 2023.
- ^ Gu, Albert; Dao, Tri (1. 12. 2023). „Mamba: Linear-Time Sequence Modeling with Selective State Spaces”. COLM. arXiv:2312.00752
.
- ^ Kaushal, Ayush; Mahowald, Kyle (6. 6. 2022). „What do tokens know about their characters and how do they know it?” (PDF). NAACL.
- ^ Yennie Jun (3. 5. 2023). „All languages are NOT created (tokenized) equal”. Language models cost much more in some languages than others. Архивирано из оригинала 17. 8. 2023. г. Приступљено 17. 8. 2023. „In other words, to express the same sentiment, some languages require up to 10 times more tokens.”
- ^ а б Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel (23. 6. 2023). „Language Model Tokenizers Introduce Unfairness Between Languages”. NeurIPS. arXiv:2305.15425
. Архивирано из оригинала 15. 12. 2023. г. Приступљено 16. 9. 2023 — преко openreview.net.
- ^ Sutherland, Richard (19. 12. 2024). „Claude AI Pricing: How Much Does Anthropic's AI Cost?”. Tech.co (на језику: енглески). Приступљено 16. 8. 2025.
- ^ а б Paaß, Gerhard; Giesselbach, Sven (2022). „Pre-trained Language Models”. Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. стр. 19—78. ISBN 9783031231902. doi:10.1007/978-3-031-23190-2_2
.
- ^ Dodge, Jesse; Sap, Maarten; Marasović, Ana; Agnew, William; Ilharco, Gabriel; Groeneveld, Dirk; Mitchell, Margaret; Gardner, Matt (2021). „Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus” (PDF). EMNLP. arXiv:2104.08758
.
- ^ Lee, Katherine; Ippolito, Daphne; Nystrom, Andrew; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas (мај 2022). „Deduplicating Training Data Makes Language Models Better” (PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). стр. 8424—8445. doi:10.18653/v1/2022.acl-long.577.
- ^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (11. 9. 2023). „Textbooks Are All You Need II: phi-1.5 technical report”. arXiv:2309.05463
[cs.CL].
- ^ Lin, Zhenghao; Gou, Zhibin; Gong, Yeyun; Liu, Xiao; Shen, Yelong; Xu, Ruochen; Lin, Chen; Yang, Yujiu; Jiao, Jian (11. 4. 2024). „Rho-1: Not All Tokens Are What You Need”. NeurIPS. 37: 29029—29063. ISBN 979-8-3313-1438-5.
- ^ Abdin, Marah; Jacobs, Sam Ade; Awan, Ammar Ahmad; Aneja, Jyoti; Awadallah, Ahmed; Awadalla, Hany; Bach, Nguyen; Bahree, Amit; Bakhtiari, Arash (23. 4. 2024). „Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone”. CoRR. arXiv:2404.14219
.
- ^ Edwards, Benj (9. 5. 2023). „AI gains "values" with Anthropic's new Constitutional AI chatbot approach”. Ars Technica (на језику: енглески). Приступљено 30. 6. 2025.
- ^ Snyder, Alison (27. 1. 2022). „Next generation AI can follow a person's instructions and intentions”. Axios (на језику: енглески). Приступљено 7. 8. 2025.
- ^ Allamar, Jay. „Illustrated transformer”. Архивирано из оригинала 25. 7. 2023. г. Приступљено 29. 7. 2023.
- ^ Allamar, Jay. „The Illustrated GPT-2 (Visualizing Transformer Language Models)”. Приступљено 1. 8. 2023.
- ^ Yeung, Ken (14. 5. 2024). „Google announces Gemini 1.5 Flash, a rapid multimodal model with a 1M context window”. VentureBeat (на језику: енглески). Приступљено 26. 8. 2025.
- ^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4. 2. 2020). „A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP”. Proceedings of the Australasian Computer Science Week Multiconference. стр. 1—4. ISBN 9781450376976. S2CID 211040895. arXiv:2104.10810
. doi:10.1145/3373017.3373028.
- ^ а б в Jurafsky, Dan; Martin, James H. (7. 1. 2023). Speech and Language Processing (PDF) (3rd edition draft изд.). Архивирано (PDF) из оригинала 23. 3. 2023. г. Приступљено 24. 5. 2022.
- ^ Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Dean, Jeff (1. 1. 2017). „Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”. ICLR. arXiv:1701.06538
.
- ^ Lepikhin, Dmitry; Lee, HyoukJoong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikun, Maxim; Shazeer, Noam; Chen, Zhifeng (12. 1. 2021). „GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding”. ICLR. arXiv:2006.16668
.
- ^ Dai, Andrew M; Du, Nan (9. 12. 2021). „More Efficient In-Context Learning with GLaM”. ai.googleblog.com. Архивирано из оригинала 12. 3. 2023. г. Приступљено 9. 3. 2023.
- ^ Mann, Tobias. „How to run an LLM locally on your PC in less than 10 minutes”. www.theregister.com. Приступљено 17. 5. 2024.
- ^ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (21. 11. 2020). „Up or Down? Adaptive Rounding for Post-Training Quantization”. Proceedings of the 37th International Conference on Machine Learning. PMLR: 7197—7206. Архивирано из оригинала 14. 6. 2023. г. Приступљено 14. 6. 2023.
- ^ Wang, Yizhong; Kordi, Yeganeh; Mishra, Swaroop; Liu, Alisa; Smith, Noah A.; Khashabi, Daniel; Hajishirzi, Hannaneh (2023). „Self-Instruct: Aligning Language Model with Self Generated Instructions”. ACL: 13484—13508. doi:10.18653/v1/2023.acl-long.754.
- ^ „Introducing ChatGPT”. openai.com. 13. 3. 2024.
- ^ „OpenAI Platform”. platform.openai.com (на језику: енглески).
- ^ „Giving Claude a role with a system prompt”. Anthropic (на језику: енглески).
- ^ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”. Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 9459—9474. arXiv:2005.11401
. Архивирано из оригинала 12. 6. 2023. г. Приступљено 12. 6. 2023.
- ^ Kiela, Douwe; Riedel, Sebastian; Lewis, Patrick; Piktus, Aleksandra (28. 9. 2020). „Retrieval Augmented Generation: Streamlining the creation of intelligent natural language processing models”. Meta.
- ^ Dickson, Ben (2. 4. 2025). „The tool integration problem that's holding back enterprise AI (and how CoTools solves it)”. VentureBeat (на језику: енглески). Приступљено 26. 5. 2025.
- ^ Liang, Yaobo; Wu, Chenfei; Song, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (2024). „TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs”. Science. 3. doi:10.34133/icomputing.0063
.
- ^ Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; Gonzalez, Joseph E. (1. 5. 2023). „Gorilla: Large Language Model Connected with Massive APIs”. NeurIPS. 37: 126544—126565.
- ^ „ChatGPT-AutoExpert/_system-prompts/all_tools.md at 835baae768870aa9747663c24d8216820d24fd74 · spdustin/ChatGPT-AutoExpert”. GitHub.
- ^ Wang, Lei; Ma, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu; Lin, Yankai; Zhao, Wayne Xin; Wei, Zhewei; Wen, Jirong (децембар 2024). „A survey on large language model based autonomous agents”. Frontiers of Computer Science. 18 (6). arXiv:2308.11432
. doi:10.1007/s11704-024-40231-1.
- ^ Yao, Shunyu; Zhao, Jeffrey; Yu, Dian; Du, Nan; Shafran, Izhak; Narasimhan, Karthik; Cao, Yuan (1. 10. 2022). „ReAct: Synergizing Reasoning and Acting in Language Models”. ICLR. arXiv:2210.03629
.
- ^ Wang, Zihao; Cai, Shaofei; Liu, Anji; Ma, Xiaojian; Liang, Yitao (3. 2. 2023). „Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents”. NeurIPS: 34153—34189.
- ^ а б в Shinn, Noah; Cassano, Federico; Labash, Beck; Gopinath, Ashwin; Narasimhan, Karthik; Yao, Shunyu (1. 3. 2023). „Reflexion: Language Agents with Verbal Reinforcement Learning”. NeurIPS: 34153—34189.
- ^ Hao, Shibo; Gu, Yi; Ma, Haodi; Jiahua Hong, Joshua; Wang, Zhen; Zhe Wang, Daisy; Hu, Zhiting (1. 5. 2023). „Reasoning with Language Model is Planning with World Model”. EMNLP: 8154—8173. doi:10.18653/v1/2023.emnlp-main.507.
- ^ Zhang, Jenny; Lehman, Joel; Stanley, Kenneth; Clune, Jeff (2. 6. 2023). „OMNI: Open-endedness via Models of human Notions of Interestingness”. arXiv:2306.01711
[cs.AI].
- ^ а б „Voyager | An Open-Ended Embodied Agent with Large Language Models”. voyager.minedojo.org. Архивирано из оригинала 8. 6. 2023. г. Приступљено 9. 6. 2023.
- ^ Park, Joon Sung; O'Brien, Joseph C.; Cai, Carrie J.; Ringel Morris, Meredith; Liang, Percy; Bernstein, Michael S. (1. 4. 2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST. doi:10.1145/3586183.3606763
.
- ^ Nye, Maxwell; Anders, Andreassen Johan; Gur-Ari, Guy; Michalewski, Henryk; Austin, Jacob; Bieber, David; Dohan, David; Lewkowycz, Aitor; Bosma, Maarten; Luan, David; Sutton, Charles; Odena, Augustus (30. 11. 2021). „Show Your Work: Scratchpads for Intermediate Computation with Language Models”. arXiv:2112.00114
[cs.LG].
- ^ а б Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed; Le, Quoc; Zhou, Denny (10. 1. 2023). „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”. NeurIPS: 24824—24837. ISBN 978-1-7138-7108-8.
- ^ Wu, Tongshuang; Jiang, Ellen; Donsbach, Aaron; Gray, Jeff; Molina, Alejandra; Terry, Michael; Cai, Carrie J. (13. 3. 2022). PromptChainer: Chaining Large Language Model Prompts through Visual Programming. CHI Conference on Human Factors in Computing Systems. arXiv:2203.06566
. doi:10.1145/3491101.3519729.
- ^ „What is prompt chaining?”. IBM (на језику: енглески). 23. 4. 2024.
- ^ „What is chain of thought (CoT) prompting?”. IBM (на језику: енглески). 23. 4. 2025.
- ^ Schreiner, Maximilian (27. 9. 2022). „Deeper insights into AI language models - chain of thought prompting as a success factor”. The Decoder (на језику: енглески). Приступљено 30. 6. 2025.
- ^ Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Narang, Sharan; Chowdhery, Aakanksha; Zhou, Denny (21. 3. 2022). „Self-Consistency Improves Chain of Thought Reasoning in Language Models”. arXiv:2203.11171
[cs.CL].
- ^ Zhou, Denny; Schärli, Nathanael; Hou, Le; Wei, Jason; Scales, Nathan; Wang, Xuezhi; Schuurmans, Dale; Cui, Claire; Bousquet, Olivier; Le, Quoc; Chi, Ed (21. 5. 2022). „Least-to-Most Prompting Enables Complex Reasoning in Large Language Models”. arXiv:2205.10625
[cs.AI].
- ^ а б Metz, Cade (20. 12. 2024). „OpenAI Unveils New A.I. That Can 'Reason' Through Math and Science Problems”. The New York Times. Приступљено 3. 2. 2025.
- ^ Gibney, Elizabeth (30. 1. 2025). „China's cheap, open AI model DeepSeek thrills scientists”. Nature. Приступљено 3. 2. 2025.
- ^ Sharma, Asankhaya. „OptiLLM: Optimizing inference proxy for LLMs”. GitHub. Приступљено 5. 8. 2025.
- ^ „OptiLLM: An OpenAI API Compatible Optimizing Inference Proxy which Implements Several State-of-the-Art Techniques that can Improve the Accuracy and Performance of LLMs”. MarkTechPost. 18. 11. 2024. Приступљено 5. 8. 2025.
- ^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (18. 6. 2014). „Multimodal Neural Language Models”. Proceedings of the 31st International Conference on Machine Learning. PMLR: 595—603. Архивирано из оригинала 2. 7. 2023. г. Приступљено 2. 7. 2023.
- ^ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; Lynch, Corey; Chowdhery, Aakanksha; Ichter, Brian; Wahid, Ayzaan; Tompson, Jonathan; Vuong, Quan; Yu, Tianhe; Huang, Wenlong; Chebotar, Yevgen; Sermanet, Pierre; Duckworth, Daniel; Levine, Sergey (1. 3. 2023). „PaLM-E: An Embodied Multimodal Language Model”. ICML. 202: 8469—8488.
- ^ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (1. 4. 2023). „Visual Instruction Tuning”. NeurIPS.
- ^ Zhang, Hang; Li, Xin; Bing, Lidong (1. 6. 2023). „Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding”. EMNLP. arXiv:2306.02858
.
- ^ „OpenAI says natively multimodal GPT-4o eats text, visuals, sound – and emits the same”. The Register. 13. 5. 2024.
- ^ Zia, Dr Tehseen (8. 1. 2024). „Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024”. Unite.AI (на језику: енглески). Приступљено 30. 5. 2025.
- ^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven (1. 1. 2023). „BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models”. ICML. 202: 19730—19742.
- ^ Kumar, Puneet; Khokher, Vedanti; Gupta, Yukti; Raman, Balasubramanian (2021). Hybrid Fusion Based Approach for Multimodal Emotion Recognition with Insufficient Labeled Data. стр. 314—318. ISBN 978-1-6654-4115-5. doi:10.1109/ICIP42928.2021.9506714.
- ^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (6. 12. 2022). „Flamingo: a Visual Language Model for Few-Shot Learning”. Advances in Neural Information Processing Systems. 35: 23716—23736. arXiv:2204.14198
. Архивирано из оригинала 2. 7. 2023. г. Приступљено 2. 7. 2023.
- ^ Finnie-Ansley, James; Denny, Paul; Becker, Brett A.; Luxton-Reilly, Andrew; Prather, James (14. 2. 2022). „The Robots Are Coming: Exploring the Implications of OpenAI Codex on Introductory Programming”. Proceedings of the 24th Australasian Computing Education Conference (на језику: енглески). New York, NY, USA: Association for Computing Machinery. стр. 10—19. ISBN 978-1-4503-9643-1. S2CID 246681316. doi:10.1145/3511861.3511863
.
- ^ Husein, Rasha Ahmad; Aburajouh, Hala; Catal, Cagatay (март 2025). „Large language models for code completion: A systematic literature review”. Computer Standards & Interfaces. 92. doi:10.1016/j.csi.2024.103917.
- ^ Weissenow, Konstantin; Rost, Burkhard (април 2025). „Are protein language models the new universal key?”. Current Opinion in Structural Biology. 91. PMID 39921962. doi:10.1016/j.sbi.2025.102997.
- ^ Lin, Zeming; Akin, Halil; Rao, Roshan; Hie, Brian; Zhu, Zhongkai; Lu, Wenting; Smetanin, Nikita; Verkuil, Robert; Kabeli, Ori; Shmueli, Yaniv; dos Santos Costa, Allan; Fazel-Zarandi, Maryam; Sercu, Tom; Candido, Salvatore; Rives, Alexander (17. 3. 2023). „Evolutionary-scale prediction of atomic-level protein structure with a language model”. Science. 379 (6637): 1123—1130. PMID 36927031. doi:10.1126/science.ade2574
.
- ^ „ESM Metagenomic Atlas | Meta AI”. esmatlas.com (на језику: енглески).
- ^ Hayes, Thomas; Rao, Roshan; Akin, Halil; Sofroniew, Nicholas J.; Oktay, Deniz; Lin, Zeming; Verkuil, Robert; Tran, Vincent Q.; Deaton, Jonathan; Wiggert, Marius; Badkundri, Rohil; Shafkat, Irhum; Gong, Jun; Derry, Alexander; Molina, Raul S.; Thomas, Neil; Khan, Yousuf A.; Mishra, Chetan; Kim, Carolyn; Bartie, Liam J.; Nemeth, Matthew; Hsu, Patrick D.; Sercu, Tom; Candido, Salvatore; Rives, Alexander (21. 2. 2025). „Simulating 500 million years of evolution with a language model”. Science. 387 (6736): 850—858. PMID 39818825. doi:10.1126/science.ads0018.
- ^ Fishman, Veniamin; Kuratov, Yuri; Shmelev, Aleksei; Petrov, Maxim; Penzar, Dmitry; Shepelin, Denis; Chekanov, Nikolay; Kardymon, Olga; Burtsev, Mikhail (11. 1. 2025). „GENA-LM: a family of open-source foundational DNA language models for long sequences”. Nucleic Acids Research. 53 (2): gkae1310. PMC 11734698
. PMID 39817513. doi:10.1093/nar/gkae1310.
- ^ Wang, Ning; Bian, Jiang; Li, Yuchen; Li, Xuhong; Mumtaz, Shahid; Kong, Linghe; Xiong, Haoyi (13. 5. 2024). „Multi-purpose RNA language modelling with motif-aware pretraining and type-guided fine-tuning”. Nature Machine Intelligence. 6 (5): 548—557. doi:10.1038/s42256-024-00836-4
.
- ^ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (29. 3. 2022). „Training Compute-Optimal Large Language Models”. NeurIPS: 30016—30030. ISBN 978-1-7138-7108-8.
- ^ а б Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). „Broken Neural Scaling Laws”. arXiv:2210.14891
[cs.LG].
- ^ а б Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (31. 8. 2022). „Emergent Abilities of Large Language Models”. Transactions on Machine Learning Research. ISSN 2835-8856. Архивирано из оригинала 22. 3. 2023. г. Приступљено 19. 3. 2023.
- ^ „137 emergent abilities of large language models”. Jason Wei. Приступљено 24. 6. 2023.
- ^ Bowman, Samuel R. (2024). „Eight Things to Know about Large Language Models”
. Critical AI. 2 (2). doi:10.1215/2834703X-11556011.
- ^ Hahn, Michael; Goyal, Navin (14. 3. 2023). „A Theory of Emergent In-Context Learning as Implicit Structure Induction”. arXiv:2303.07971
[cs.LG].
- ^ Pilehvar, Mohammad Taher; Camacho-Collados, Jose (јун 2019). „Proceedings of the 2019 Conference of the North”
. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 1267—1273. S2CID 102353817. doi:10.18653/v1/N19-1128
. Архивирано из оригинала 27. 6. 2023. г. Приступљено 27. 6. 2023.
- ^ „WiC: The Word-in-Context Dataset”. pilehvar.github.io. Архивирано из оригинала 27. 6. 2023. г. Приступљено 27. 6. 2023.
- ^ Patel, Roma; Pavlick, Ellie (6. 10. 2021). „Mapping Language Models to Grounded Conceptual Spaces”. ICLR. Архивирано из оригинала 24. 6. 2023. г. Приступљено 27. 6. 2023.
- ^ „A Closer Look at Large Language Models Emergent Abilities”. Архивирано из оригинала 24. 06. 2023. г. Приступљено 15. 09. 2025. (Јао Фу, 20. нов. 2022)
- ^ Ornes, Stephen (16. 3. 2023). „The Unpredictable Abilities Emerging From Large AI Models”. Quanta Magazine. Архивирано из оригинала 16. 3. 2023. г. Приступљено 16. 3. 2023.
- ^ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (1. 4. 2023). „Are Emergent Abilities of Large Language Models a Mirage?”. NeurIPS. arXiv:2304.15004
.
- ^ Blank, Idan A. (новембар 2023). „What are large language models supposed to model?”. Trends in Cognitive Sciences. 27 (11): 987—989. PMID 37659920. doi:10.1016/j.tics.2023.08.006
.
- ^ „Mapping the Mind of a Large Language Model”. Anthropic (на језику: енглески). 12. 12. 2023. Приступљено 24. 8. 2025.
- ^ „Extracting Concepts from GPT-4”. OpenAI (на језику: енглески). 26. 9. 2023. Приступљено 24. 8. 2025.
- ^ Nanda, Neel; Chan, Lawrence; Lieberum, Tom; Smith, Jess; Steinhardt, Jacob (1. 1. 2023). „Progress measures for grokking via mechanistic interpretability”. ICLR. arXiv:2301.05217
.
- ^ Ananthaswamy, Anil (12. 4. 2024). „How Do Machines 'Grok' Data?”. Quanta Magazine (на језику: енглески). Приступљено 30. 6. 2025.
- ^ „On the Biology of a Large Language Model”. Transformer Circuits (на језику: енглески). Приступљено 30. 6. 2025.
- ^ а б в г д Mitchell, Melanie; Krakauer, David C. (28. 3. 2023). „The debate over understanding in AI's large language models”. Proceedings of the National Academy of Sciences. 120 (13): e2215907120. Bibcode:2023PNAS..12015907M. PMC 10068812
. PMID 36943882. arXiv:2210.13966
. doi:10.1073/pnas.2215907120
.
- ^ Metz, Cade (16. 5. 2023). „Microsoft Says New A.I. Shows Signs of Human Reasoning”. The New York Times.
- ^ а б Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023). „Sparks of Artificial General Intelligence: Early experiments with GPT-4”. arXiv:2303.12712
[cs.CL].
- ^ „Anthropic CEO Dario Amodei pens a smart look at our AI future”. Fast Company. 17. 10. 2024.
- ^ „ChatGPT is more like an 'alien intelligence' than a human brain, says futurist”. ZDNET. 2023. Архивирано из оригинала 12. 6. 2023. г. Приступљено 12. 6. 2023.
- ^ а б Newport, Cal (13. 4. 2023). „What Kind of Mind Does ChatGPT Have?”. The New Yorker. Архивирано из оригинала 12. 6. 2023. г. Приступљено 12. 6. 2023.
- ^ Roose, Kevin (30. 5. 2023). „Why an Octopus-like Creature Has Come to Symbolize the State of A.I.”. The New York Times. Архивирано из оригинала 30. 5. 2023. г. Приступљено 12. 6. 2023.
- ^ „The A to Z of Artificial Intelligence”. Time Magazine. 13. 4. 2023. Архивирано из оригинала 16. 6. 2023. г. Приступљено 12. 6. 2023.
- ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (новембар 2022). „Survey of Hallucination in Natural Language Generation” (pdf). ACM Computing Surveys. Association for Computing Machinery. 55 (12): 1—38. S2CID 246652372. arXiv:2202.03629
. doi:10.1145/3571730. Архивирано из оригинала 26. 3. 2023. г. Приступљено 15. 1. 2023.
- ^ Varshney, Neeraj; Yao, Wenlin; Zhang, Hongming; Chen, Jianshu; Yu, Dong (2023). „A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation”. arXiv:2307.03987
[cs.CL].
- ^ Lin, Belle (5. 2. 2025). „Why Amazon is Betting on 'Automated Reasoning' to Reduce AI's Hallucinations: The tech giant says an obscure field that combines AI and math can mitigate—but not completely eliminate—AI's propensity to provide wrong answers”. Wall Street Journal. ISSN 0099-9660.
- ^ Lakoff, George (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm [Филозофија у телу: Утеловљени ум и његов изазов западној филозофији; Додатак: Парадигма неуронске теорије језика]. New York Basic Books. стр. 569—583. ISBN 978-0-465-05674-3.
- ^ Evans, Vyvyan. (2014). The Language Myth [Мит о језику]. Cambridge University Press. ISBN 978-1-107-04396-1.
- ^ Friston, Karl J. (2022). Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference [Активна инференција: Принцип слободне енергије у уму, мозгу и понашању; Поглавље 4 Генеративни модели активне инференције]. The MIT Press. ISBN 978-0-262-36997-8.
- ^ а б Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901. Архивирано (PDF) из оригинала 17. 11. 2023. г. Приступљено 14. 3. 2023.
- ^ а б Huyen, Chip (18. 10. 2019). „Evaluation Metrics for Language Modeling”. The Gradient. Приступљено 14. 1. 2024.
- ^ Edwards, Benj (28. 9. 2023). „AI language models can exceed PNG and FLAC in lossless compression, says study”. Ars Technica (на језику: енглески). Приступљено 29. 5. 2025.
- ^ „openai/simple-evals”. OpenAI. 28. 5. 2024. Приступљено 28. 5. 2024.
- ^ „openai/evals”. OpenAI. 28. 5. 2024. Архивирано из оригинала 8. 5. 2024. г. Приступљено 28. 5. 2024.
- ^ а б Clark, Christopher; Lee, Kenton; Chang, Ming-Wei; Kwiatkowski, Tom; Collins, Michael; Toutanova, Kristina (2019). „BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions”. ACL: 2924—2936. doi:10.18653/v1/N19-1300
.
- ^ а б в Wayne Xin Zhao; et al. (2023). „A Survey of Large Language Models”. arXiv:2303.18223
[cs.CL].
- ^ Nangia, Nikita and Vania, Clara and Bhalerao, Rasika and Bowman, Samuel R. (новембар 2020). „CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models”. Ур.: Webber, Bonnie and Cohn, Trevor and He, Yulan and Liu, Yang. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. стр. 1953—1967. arXiv:2010.00133
. doi:10.18653/v1/2020.emnlp-main.154.
- ^ Nadeem, Moin and Bethke, Anna and Reddy, Siva (август 2021). „StereoSet: Measuring stereotypical bias in pretrained language models”. Ур.: Zong, Chengqing and Xia, Fei and Li, Wenjie and Navigli, Roberto. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Association for Computational Linguistics. стр. 5356—5371. arXiv:2004.09456
. doi:10.18653/v1/2021.acl-long.416.
- ^ Simpson, Shmona and Nukpezah, Jonathan and Kie Brooks and Pandya, Raaghav (17. 12. 2024). „Parity benchmark for measuring bias in LLMs”. AI and Ethics. Springer. 5 (3): 3087—3101. doi:10.1007/s43681-024-00613-4
.
- ^ Caramancion, Kevin Matthe (13. 11. 2023). „News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT 3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking”. 2023 IEEE Future Networks World Forum (FNWF). IEEE. стр. 1—6. ISBN 979-8-3503-2458-7. arXiv:2306.17176
. doi:10.1109/FNWF58287.2023.10520446.
- ^ „Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model”. imbue.com (на језику: енглески). Архивирано из оригинала 26. 7. 2024. г. Приступљено 24. 7. 2024.
- ^ Srivastava, Aarohi; et al. (2022). „Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models”. TMLR. arXiv:2206.04615
.
- ^ Lin, Stephanie; Hilton, Jacob; Evans, Owain (2021). „TruthfulQA: Measuring How Models Mimic Human Falsehoods”. ACL. arXiv:2109.07958
.
- ^ а б Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (2019). „HellaSwag: Can a Machine Really Finish Your Sentence?”. ACL. arXiv:1905.07830
.
- ^ „Prepare for truly useful large language models”. Nature Biomedical Engineering. 7 (2): 85—86. 7. 3. 2023. PMID 36882584. S2CID 257403466. doi:10.1038/s41551-023-01012-6
.
- ^ „Your job is (probably) safe from artificial intelligence”. The Economist. 7. 5. 2023. Архивирано из оригинала 17. 6. 2023. г. Приступљено 18. 6. 2023.
- ^ „Generative AI Could Raise Global GDP by 7%”. Goldman Sachs. Архивирано из оригинала 18. 6. 2023. г. Приступљено 18. 6. 2023.
- ^ Brinkmann, Levin; Baumann, Fabian; Bonnefon, Jean-François; Derex, Maxime; Müller, Thomas F.; Nussberger, Anne-Marie; Czaplicka, Agnieszka; Acerbi, Alberto; Griffiths, Thomas L.; Henrich, Joseph; Leibo, Joel Z.; McElreath, Richard; Oudeyer, Pierre-Yves; Stray, Jonathan; Rahwan, Iyad (20. 11. 2023). „Machine culture”. Nature Human Behaviour (на језику: енглески). 7 (11): 1855—1868. ISSN 2397-3374. PMID 37985914. arXiv:2311.11388
. doi:10.1038/s41562-023-01742-2.
- ^ Peng, Zhencan; Wang, Zhizhi; Deng, Dong (13. 6. 2023). „Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation” (PDF). Proceedings of the ACM on Management of Data. 1 (2): 1—18. S2CID 259213212. doi:10.1145/3589324. Архивирано (PDF) из оригинала 27. 8. 2024. г. Приступљено 20. 1. 2024. Citing Lee et al 2022.
- ^ Peng, Wang & Deng 2023, стр. 8.
- ^ Stephen Council (1. 12. 2023). „How Googlers cracked an SF rival's tech model with a single word”. SFGATE. Архивирано из оригинала 16. 12. 2023. г.
- ^ Alba, Davey (1. 5. 2023). „AI chatbots have been used to create dozens of news content farms”. The Japan Times. Приступљено 18. 6. 2023.
- ^ „Could chatbots help devise the next pandemic virus?”
. Science. 14. 6. 2023. doi:10.1126/science.adj2463. Архивирано из оригинала 18. 6. 2023. г. Приступљено 18. 6. 2023.
- ^ Edwards, Benj (15. 1. 2024). „AI poisoning could turn models into destructive "sleeper agents," says Anthropic”. Ars Technica (на језику: енглески). Приступљено 19. 7. 2025.
- ^ Kang, Daniel (2023). „Exploiting programmatic behavior of LLMs: Dual-use through standard security attacks”. IEEE Security and Privacy Workshops. arXiv:2302.05733
.
- ^ а б „Russian propaganda may be flooding AI models”. The American Sunlight Project (на језику: енглески). 26. 2. 2025. Архивирано из оригинала 04. 04. 2025. г. Приступљено 11. 4. 2025.
- ^ Goudarzi, Sara (26. 3. 2025). „Russian networks flood the Internet with propaganda, aiming to corrupt AI chatbots”. Билтен атомских научника (на језику: енглески). Приступљено 10. 4. 2025.
- ^ Wang, Yongge (20. 6. 2024). „Encryption Based Covert Channel for Large Language Models” (PDF). IACR ePrint 2024/586. Архивирано (PDF) из оригинала 24. 6. 2024. г. Приступљено 24. 6. 2024.
- ^ „openai-python/chatml.md at v0.27.6 · openai/openai-python”. GitHub (на језику: енглески).
- ^ Douglas, Will (3. 3. 2023). „The inside story of how ChatGPT was built from the people who made it”. MIT Technology Review. Архивирано из оригинала 3. 3. 2023. г. Приступљено 6. 3. 2023.
- ^ Greshake, Kai; Abdelnabi, Sahar; Mishra, Shailesh; Endres, Christoph; Holz, Thorsten; Fritz, Mario (1. 2. 2023). „Not What You've Signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection”. Proceedings of the 16th ACM Workshop on Artificial Intelligence and Security. AISec. стр. 79—90. ISBN 979-8-4007-0260-0. doi:10.1145/3605764.3623985.
- ^ а б Xu, Weijie; Wang, Yiwen; Xue, Chi; Hu, Xiangkun; Fang, Xi; Dong, Guimin; Reddy, Chandan K. (28. 6. 2025). „Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective”. COLM. arXiv:2506.19028
.
- ^ „A Perspectival Mirror of the Elephant”. Communications of the ACM (на језику: енглески). 22. 7. 2024.
- ^ Wang, Angelina; Morgenstern, Jamie; Dickerson, John P. (17. 2. 2025). „Large language models that replace human participants can harmfully misportray and flatten identity groups”. Nature Machine Intelligence. 7 (3): 400—411. arXiv:2402.01908
. doi:10.1038/s42256-025-00986-z.
- ^ Cheng, Myra; Durmus, Esin; Jurafsky, Dan (29. 5. 2023). „Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models”. ACM. arXiv:2305.18189
.
- ^ Kotek, Hadas; Dockum, Rikker; Sun, David (5. 11. 2023). „Gender bias and stereotypes in Large Language Models”. Proceedings of the ACM Collective Intelligence Conference. New York, NY, USA: Association for Computing Machinery. стр. 12—24. ISBN 979-8-4007-0113-9. arXiv:2308.14921
. doi:10.1145/3582269.3615599.
- ^ Choi, Hyeong Kyu; Xu, Weijie; Xue, Chi; Eckman, Stephanie; Reddy, Chandan K. (27. 9. 2024). „Mitigating Selection Bias with Node Pruning and Auxiliary Options”. arXiv:2409.18857
[cs.AI].
- ^ Zheng, Chujie; Zhou, Hao; Meng, Fandong; Zhou, Jie; Huang, Minlie (7. 9. 2023). „Large Language Models Are Not Robust Multiple Choice Selectors”. arXiv:2309.03882
[cs.CL].
- ^ Heikkilä, Melissa (7. 8. 2023). „AI language models are rife with different political biases”. MIT Technology Review. Приступљено 29. 12. 2023.
- ^ Mehta, Sourabh (3. 7. 2024). „How Much Energy Do LLMs Consume? Unveiling the Power Behind AI”. Association of Data Scientists (на језику: енглески). Приступљено 27. 1. 2025.
- ^ „Artificial Intelligence wants to go nuclear. Will it work?”. NPR (на језику: енглески). Приступљено 27. 1. 2025.
- ^ Roy, Dareen (19. 12. 2024). „AI's energy hunger fuels geothermal startups but natgas rivalry clouds future”. Reuters.
- ^ Kosmyna, Nataliya; Hauptmann, Eugene; Yuan, Ye Tong; Situ, Jessica; Liao, Xian-Hao; Beresnitzky, Ashly Vivian; Braunstein, Iris; Maes, Pattie (10. 6. 2025). „Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task”. arXiv:2506.08872
[cs.AI].
- ^ Zao-Sanders, Marc (19. 3. 2024). „How People Are Really Using GenAI”. Harvard Business Review (на језику: енглески). ISSN 0017-8012. Приступљено 10. 8. 2025.
- ^ Rousmaniere, Tony; Zhang, Yimeng; Li, Xu; Shah, Siddharth (21. 7. 2025). „Large language models as mental health resources: Patterns of use in the United States.”
. Practice Innovations (на језику: енглески). ISSN 2377-8903. doi:10.1037/pri0000292.
- ^ Ji, Shaoxiong; Zhang, Tianlin; Yang, Kailai; Ananiadou, Sophia; Cambria, Erik (17. 12. 2023). „Rethinking Large Language Models in Mental Health Applications”. arXiv:2311.11267
[cs.CL].
- ^ Moore, Jared; Grabb, Declan; Agnew, William; Klyman, Kevin; Chancellor, Stevie; Ong, Desmond C.; Haber, Nick (25. 4. 2025). „Expressing stigma and inappropriate responses prevents LLMS from safely replacing mental health providers”. Proceedings of the 2025 ACM Conference on Fairness, Accountability, and Transparency. стр. 599—627. ISBN 979-8-4007-1482-5. arXiv:2504.18412
. doi:10.1145/3715275.3732039.
- ^ Grabb, Declan; Lamparth, Max; Vasan, Nina (14. 8. 2024). „Risks from Language Models for Automated Mental Healthcare: Ethics and Structure for Implementation”. COLM. arXiv:2406.11852
.
- ^ McBain, Ryan K.; Cantor, Jonathan H.; Zhang, Li Ang; Baker, Olesya; Zhang, Fang; Halbisen, Alyssa; Kofner, Aaron; Breslau, Joshua; Stein, Bradley; Mehrotra, Ateev; Yu, Hao (5. 3. 2025). „Competency of Large Language Models in Evaluating Appropriate Responses to Suicidal Ideation: Comparative Study”. Journal of Medical Internet Research (на језику: енглески). 27 (1): e67891. PMC 11928068
. PMID 40053817. doi:10.2196/67891
.
Литература
[уреди | уреди извор]- Paaß, Gerhard; Giesselbach, Sven (2022). „Pre-trained Language Models”. Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. стр. 19—78. ISBN 9783031231902. doi:10.1007/978-3-031-23190-2_2
. - Јурафски, Ден, Мартин, Џејмс Х. Говор и обрада језика: Увод у обраду природног језика, рачунарску лингвистику и препознавање говора, 3. издање, нацрт, 2023.
- Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (2024). „A Survey on Multimodal Large Language Models” [Преглед мултимодалних великих језичких модела]. National Science Review. 11 (12): nwae403. PMC 11645129
. PMID 39679213. arXiv:2306.13549
. doi:10.1093/nsr/nwae403. - „AI Index Report 2024 – Artificial Intelligence Index” [Извештај о индексу ВИ 2024 – Индекс вештачке интелигенције]. aiindex.stanford.edu. Приступљено 5. 5. 2024.
- Frank, Michael C. (27. 6. 2023). „Baby steps in evaluating the capacities of large language models”
[Мали кораци у евалуацији капацитета великих језичких модела]. Nature Reviews Psychology. 2 (8): 451—452. ISSN 2731-0574. S2CID 259713140. doi:10.1038/s44159-023-00211-x. Приступљено 2. 7. 2023.
