Lielie valodu modeļi: izskaidrojot vienkāršāk

Pēdējās dienās vai pat jau nedēļās, man ir nepieciešams paskaidrot, kas tad ir ChatGPT , LLM (Large language models jeb latviski “lielie valodu modeļi“) un LoRA. Pagaidām labāko analoģiju, ko esmu izdomājis ir šāda:

LLM jeb lielie valodu modeļi ir kā autobusi, bet mazie “līdzekļi” palīdz to vadīt, piemēram, “stūrēt” virzienu.
Rolands Umbrovskis

Vismaz šajā brīdī, kā es to saprotu. Ņemot vērā cik ātri šie modeļi attīstās – katru nedēļu vairāki jauni rīki. Es pat necentos meklēt risinājumu kādai lēnam GPT programmai, jo zināju, ka tuvākajās 2 nedēļās būs uzlabojums, ja ne pašā rīkā tad jauns būs tā vietā. Un bija, vairāk – “Privāts GPT “čatojot” ar taviem dokumentiem“.

LLM (Large Language Models) - lielie valodu modeļi — LLM (Large Language Models) – lielie valodu modeļi

Kādēļ lieli valodu modeļi (LLM) kā “autobuss”?

LLM latviski atšifrējas kā lieli valodu modeļi, kas var sastāvēt no dažādiem datu avotiem (pasažieriem). “Autobusi” ir LIELI. Un tos ir ilgi jāveido, kas nav arī tas lētākais prieks.

Katrs “pasažieris” ir ar savu vēsturi, vecumu un nodarbošanos (vai bez tās?). Ja ļautu katram no “pasažieriem” izteikties, kopējās zināšanas un kompetences būtu lielākas kā katram individuāli.

Savukārt, lai šos visus pasažierus savāktu vienkopus, ir nepieciešams laiks un vairākas “pieturas” (jaunu datu pievienošana). Jo vairāk “pasažieru” jo lielākas zināšanas, kompetences un skatu punkti (vektori) var tikt pievienoti. Lai nodrošinātu labāku zināšanu bāzi, nepieciešams maršrutu izbraukāt vairākas reizes (ēras (angliski epochs)), vienlaicīgi mēs vēlamies, lai kopējās zināšanas būtu pārbaudītas (trenēšana un testēšana), katrā maršrutā.

Un tā vairākas reizes, līdz nonākam pie kopsaucēja ar pēc iespējas mazāku kļūdu. Saprotams, ka “autobuss” nebrauc bez maksas. Ir uzturēšanas izmaksas, algas, utt (GPU videokartes, elektrība,…).

Mazākie palīglīdzekļi

Mazie palīglīdzekļi, palīdz šo “autobusu” vadīt, piemēram stūre (LoRA – Low-Rank Adaptation) ietekmē virzienu, kurā vēlamies doties un varam kontrolēt lielo transportlīdzekli. Katrs no mazākajiem “modeļiem” atbild par kādu noteiktu funkcionalitāti, piemēram, ātrumu, krāsu, logu un durvju daudzumu vai var apkopot vairākus kopējā funkcionālā “mini funkcijā”.

Vislabāk palīglīdzekļus var redzēt ģeneratīvajos attēlos, kuri fokusējas uz kādu noteiktu attēla detaļu – matu krāsu, ādas porainību vai mākslas stilu.

Mazie “modeļi” ir arī daudz vienkāršāki izveidošanā un nav nepieciešams tika daudz datu vai iterācijas trenēšanā. Tas būtu kā viens no “pasažieriem” specializējas tikai uz specifisku ķirurģijas veidu.

Ir arī labāks skaidrojums…

… bet es pagaidām, kamēr vēl apgūstu šīs lietas, esmu atradis, ka šis vislabāk palīdz izskaidrot kā veidots ChatGPT, Stabile Diffusion, Midjourney… vai kāds cits ģeneratīvais “rīks”.

Par visiem GPT mazliet vēlāk. Arī par Stabile Diffusion. Un kā šos rīkus apvienojot, var izveidot arī kaut ko izklaidei (vai biznesam), piemēram, SocialPile.