Dirbtinio intelekto istorija prasidėjo 1956 m. Dartmuto konferencijoje, kurioje John McCarthy, Marvin Minsky ir kiti mokslininkai pirmą kartą įvardijo „Artificial Intelligence“ kaip atskirą mokslo kryptį. Tuo metu vyravo optimizmas – manyta, kad žmogų pranoksiantis intelektas gali atsirasti per kelis dešimtmečius.
1960–1970 m. dominavo simbolinis DI. Sistema, žinanti taisykles, turėjo spręsti logines užduotis. Sukurti pirmieji ekspertų modeliai, tokie kaip „MYCIN“ medicinoje. Tačiau šis požiūris sustojo ties realaus pasaulio sudėtingumu – taisyklių kiekis augo greičiau nei jas buvo įmanoma suvaldyti.
1980–1990 m. DI patyrė vadinamąsias „žiemas“. Rezultatai neatitiko anksčiau keltų lūkesčių, todėl finansavimas mažėjo, o kompiuterių galia buvo per silpna sudėtingiems modeliams. Vis dėlto būtent šiuo laikotarpiu tvirtėjo neuroninių tinklų teoriniai pagrindai – idėjos, kurios vėliau tapo šiuolaikinio gilaus mokymosi branduoliu.
2000–2012 m. įvyko lūžis: atsirado galingesni procesoriai, didžiuliai duomenų rinkiniai ir praktinė motyvacija. Kompiuterinė rega, kalbos atpažinimas ir mašininis vertimas pradėjo sparčiai gerėti. Lemiamas šuolis įvyko 2012 m., kai „AlexNet“ giliai neuroniniai tinklai pribloškė pasaulį, laimėję „ImageNet“ konkursą.
2017 m. pristatytas „Transformer“ architektūrinis modelis pakeitė viską. Jis tapo pamatu šiandienos didiesiems kalbos modeliams. 2018–2020 m. pasaulį pasiekė BERT, GPT-2, GPT-3 ir kitos sistemos, parodžiusios, kad kalbą galima apdoroti ne tik kaip tekstą, bet ir kaip žinių struktūrą.
Nuo 2022 m. prasidėjo generatyvinio DI era. GPT-4, Claude, LLaMA, Midjourney, Stable Diffusion ir kiti modeliai įgalino tekstų kūrimą, vaizdus, video, kodą, muziką ir autonomines agentų sistemas. DI tapo ne eksperimentu, o kasdienio darbo įrankiu, keičiančiu ekonomiką, kūrybą ir programavimą.
Šiandien DI evoliucija vyksta rekordiniu greičiu. Modeliai tampa ne tik didesni, bet ir gilesni – jie analizuoja, planuoja, kuria daugiažingsnį mąstymą ir gali atlikti sudėtingus procesus be žmogaus įsikišimo. Gilus tinklas pats „sukuria“ vidines taisykles apie pasaulį – ne rankomis užrašytas, bet išmoktas. Tai ir yra esminė šiuolaikinio DI revoliucijos priežastis. Tai jau nebe tik technologija, o naujos skaitmeninės civilizacijos pamatas, kurio vystymą mes matome realiu laiku.
❶ GPT-5 – tai naujausias OpenAI modelis, greičiausiai turi vieną stipriausių bendrų generavimo / samprotavimo galimybių. Jo multimodalumas ir tobulas užduočių išmanymas daro jį labai pajėgiu;
❷ Gemini 2.5 Pro – labai galingas “thinking” modelis, su ilgų kontekstų palaikymu ir gera kodavimo + STEM užduočių parama. Google turi didelį duomenų / infrastruktūros pranašumą. Pro versija – pakankamai rimta;
❸ Claude 4 – Anthropic garsėja atsakingu požiūriu į AI, ir Claude modeliai yra labai patikimi generuojant tekstus, samprotaujant, sprendžiant sudėtingas kalbines užduotis. Claude 4 Opus – vienas geriausių “visapusiškų” variantų;
❹ DeepSeek V3/R1 – agresyviai geras konkurentas, ypač kainos/našumo srityje. Jų „reasoning“ (samprotavimo) modelis, panašus savo ambicija į OpenAI O-series;
❺ Grok – smagus, naudingas, bet ne “frontier” lygio;
❻ LLaMA 4 – MoE architektūra sukuria didelį našumą – gali apdoroti labai ilgus kontekstus todėl “aktyvi” parametrų dalis padaro jį efektyvesnį. Tai labai stiprus modelis “open / research” kontekste;
❼ Qwen 3 (Alibaba) – labai perspektyvus modelių šeimos atstovas, ypač dėl kalbų palaikymo ir didelių kontekstų. Tačiau gali būti, kad tam tikrose benchmark užduotyse jis vis dar atsilieka už top “thinking” modelių;
❽ Mistral Large – tinkamas kainos / kokybės santykis, atviras modelis. Puikus pasirinkimas, jei nori gero generavimo ir samprotavimo, bet nenori investuoti į labai brangias “flagman” LLM;
❾ Gemma – atviri ir lengvesni modeliai – labai naudingi eksperimentams, lokalizuotam naudojimui, bet bendro sudėtingumo užduotims jie gali nepasiekti tokio lygio, kaip labai dideli / komerciniai “thinking” LLM.
❶ GPT-5 – lyderis be ceremonijų. Tai modelis, kuris jau rimtai geba daugpakopį mąstymą;
❷ Claude 4 – labai stiprus logikas. Mąsto kaip tas tylus, bet itin protingas kolega biure;
❸ DeepSeek V3/R1 – galingas, bet chaotiškas matematikas - turi žvėrišką analitinę galią;
❹ Grok 3 – greitas, aiškus, bet paviršutiniškesnis. Gerai išlaiko stilistiką, moka padaryti tvarkingą išvadą;
❺ Llama 3.1/4 – aiški logika, bet ne aukščiausia klasė. Vertinant vidutinio sudėtingumo problemas mąsto tvarkingai, gerai sekasi tekstinė analizė;
❻ Perplexity – paieškų modelis, ne mąstymo. Puikus informacijos radime, bet ne tikrame samprotavime;
❼ Gemini 1.5/2.0 – teoriškai stiprus, praktiškai užspringsta. Konteksto praradimai, perdėtas moralizavimas;
❽ Pi – empatiškas, bet ne mąstytojas. Tai pokalbiams skirtas modelis, ne analizei. Loginė galia ribota, tinka tik paprastoms temoms.
❶ OpenAI GPT-5.1/GPT-5 - šiuo metu tai pats stipriausias tekstų kūrėjas. Laiko stilių, logiką, ritmą, toną, gali rašyti nuo reklamos iki novelės be didelių nukrypimų. Stabiliausias ir universaliausias;
❷ Anthropic Claude 3.5/3.7 Sonnet - nuostabus rašymo „skonis“. Itin elegantiškas, švelnus, tinka ilgiems tekstams, literatūrai, subtiliems paaiškinimams. Kartais per daug „politiškai sterilus“, bet vis tiek labai aukštai;
❸ Google Gemini 2.0/2.0 Flash - labai gerai laiko struktūrą, greitas, stiprus faktinis pagrindas. Kūrybinėje rašymo dalyje šiek tiek „metališkas“, bet galingas ir universalus;
❹ Meta Llama 3.1 (8–70B) - puikus atviro kodo modelis. Kartais trūksta niuanso, bet itin lankstus, greitas ir gerai derinamas. Tekstų kokybė beveik lygi komerciniams monstrams;
❺ Perplexity (su R1 + Llama/GPT pagrindu) - labai geras kaip rašantis paieškos variklis. Tobulas faktinis tikslumas, švarus tonas, bet ne toks kūrybiškai lankstus;
❻ DeepSeek V3/V2.5 - stebėtinai gerai tvarko struktūrą ir aiškumą. Kūrinio stilistika – vidutinė, bet praktiškumui puikus modelis;
❼ Grok 3 - stilingas, šiek tiek ciniškas ir aštrus. Tinka humoro turiniui, bet rimtų tekstų kokybė prastesnė už aukščiau esančių;
❽ Mistral Large - tvarkingas, bet sausas. Tinka dokumentacijai, mažiau – kūrybai ar subtiliems tonams.
Santrauka: Socialinio bendravimo, kūrybinio mąstymo ir psichologinių funkcijų modeliai
❶ GPT-5 šiuo metu pats natūraliausias pokalbių modelis. Puikiai išlaiko toną, atpažįsta emocinius niuansus, geba kurti ilgalaikį pasakojimą ir nekrenta į dirbtinį moralizavimą. Jaučiasi arčiausiai tikro žmogaus dialogo;
❷ Anthropic Claude 3.7/4 (kai išeis) - ramus, empatiškas, labai logiškas. Jo stiprybė - toninė kultūra: nenuvertina pašnekovo, neperšoka į dirbtinį „self-help“, bet išlaiko žmogišką šilumą. Puikus psichologinėms temoms ir ilgoms diskusijoms;
❸ Pi (Inflection-2) - labiausiai „žmogiškas“ iš visų. Emociškai švelnus, orientuotas į palaikymą, puikus asmeniniams pokalbiams. Loginė galia ribota, bet emocinis sluoksnis — išskirtinis;
❹ Google Gemini 2.0 - pokalbiuose labai gyvas ir kūrybiškas, lengvai kuria idėjas. Vis dar linkęs į perdėtą moralinį filtravimą, bet smagus kaip kūrybinis partneris;
❺ LLaMA 3.1/4 (Meta) - aiškus, tiesmukas, be dramų. Empatijos nei per daug, nei per mažai - toks „geras biuro kolega“. Kūrybiškai lankstus, bet ne emocijų meistras;
❻ Mistral Large - pakankamai šiltas ir aiškus. Tinka struktūruotiems pokalbiams, bet emocinis niuansas ribotas. Socialiniam bendravimui tinkamas, bet nėra pirmos lentynos lyga;
❼ Grok 3 - charakteris smagus, bet ne visiems priimtinas. Savaip draugiškas, kartais ciniškas, dažnai juokingas. Socialinei sąveikai tinka tik tada, kai norisi lengvo chaoso;
❽ DeepSeek R1 - socialinis bendravimas jam - kaip baletas tankui. Fantastiškas analitikas, bet su emocijomis elgiasi stačiai ir kartais net nejaukiai. Socialiai naudoti galima, bet ne psichologiniams niuansams.
❶ Perplexity (reikšmingai pirmas). Šiuo metu absoliutus karalius paieškos nišoje. Derina labai gerą interneto indeksą, aktualių duomenų paiešką ir greitą analizę. Klaidų lygis mažas, citatos realios, pateikimas tvarkingas. Dažniausiai aplenkia tiek Google, tiek Bing paieškos kokybės prasme, ypač nišinėse temose;
❷ Google Search + Gemini integracija. Google vis dar turi didžiausią indeksą ir giliausią interneto „atmintį“. Silpnoji vieta – kartais per daug reklamos ir per agresyvus DI apvalkalas (SGE). Bet technologiškai – labai stiprus. Tik ne toks „švarus“, kaip Perplexity;
❸ Bing Copilot Search (su GPT-4.1/GPT-5). Kai veikia su naujesniais OpenAI modeliais – tikrai solidus. Problema ta, kad Bing indeksas silpnesnis nei Google, o atsakymai būna banguoti. Visgi geriau nei dauguma kitų;
❹ DuckDuckGo AI (atsargus, bet patikimas). Naudoja pašalinių modelių mišinius, turi silpnesnį indeksą, bet visada remiasi tikrais šaltiniais ir labai gerai saugo privatumą. Jėga konservatyviems naudotojams;
❺ Brave Search AI. Turi savo indeksą (reta šiais laikais), bet dar nėra tokio tikslumo kaip Perplexity ar Google. DI sluoksnis neretai padrikas, bet projektas ambicingas;
❻ xAI Grok Search. Šiandienos realybėje – per silpnas indeksas ir per daug „pateikiamo charakterio“, per mažai faktų. Jie stengiasi atrodyti „Google killer“, bet realybėje dar nepakilusios raketos prototipas.
Santrauka: Programavimo ir techninių užduočių modeliai
❶ GPT-5.1/GPT-5 - šiuo metu aiškiai pirmauja. Tvirtas konteksto supratimas, gebėjimas išlaikyti architektūras, generuoti stabilius projektus, taisyti ilgų failų klaidas, daryti refaktoringą, aiškiai paaiškinti sistemų elgesį. Tai ne šiek tiek geriau už kitus – tai dviem klasėm aukščiau;
❷ Anthropic Claude 3.7 (Opus / Sonnet kartos). Nepaprastai stiprus logikoje, klaidų diagnostikoje ir dokumentacijos supratime. Kartais net pranoksta GPT analitinėje pusėje, bet vis dar silpniau tvarko didžiųjų projektų struktūrą ir kartais „bijosi“ rizikingesnio kodo;
❸ LLaMA 3.1/3.2 (70B ir 400B). Ypač stiprus techniniuose aprašymuose, aiškiuose algoritmuose, serverių administravimo užduotyse, API schemose. Stabilus, ekonomiškas, bet vis dar nepasiekia pirmų dviejų sisteminės „intuicijos“;
❹ xAI Grok (reali 2.x karta). Gana stiprus debug'e ir techniniuose paaiškinimuose, bet vis dar toli iki GPT ar Claude. Turi polinki į humorą ten, kur jo nereikia ir nėra visiškai stabilus sudėtinguose kodų refaktoravimuose;
❺ Google Gemini (1.5/2). Geri sugebėjimai generuoti paprastą kodą, bet vis dar per dažnai paslysta struktūriniuose projektuose, CLI, serverių, Linux, tinklų ar žemų lygių užduotyse. Įtraukiamas į sąrašą dėl plataus naudojimo, o ne dėl „pirmųjų eilių“;
❻ Mistral Codestral patikimas refaktoringe ir konteksto išlaikyme;
❼ DeepSeek-Coder tikras darbo arklys – orientuotas į realų programavimą;
❽ GitHub Copilot – greitas kodo rašymo partneris, kuris kartais atsiremia į tikrai aukštos klasės modelius.
Santrauka: Verslo automatizavimo, produktyvumo ir autonominių agentų modeliai
❶ OpenAI GPT-5.1/GPT-5 (Agent Toolkit, Function Calling, Orchestrator). Šie modeliai šiuo metu yra faktinis pramoninis standartas, kada kalbama apie: darbo eigos orkestravimą, ilgo konteksto užduotis, agentų tinklų koordinavimą, automatizuotą duomenų tvarkymą, dokumentų apdorojimą, el. laiškų procesus. Jie paprasčiausiai stabiliausiai „prisiriša“ prie funkcijų, API, integracijų, ir retai „iškrenta iš rolės“;
❷ Anthropic Claude 3.7 (Sonnet/Opus klasė). Claude vis dar karaliauja ten, kur reikia patikimos analitikos be psichozinių pašalpų ir labai švaraus, neperkrauto stiliaus. Verslo agentuose Claude dažniausiai naudojamas: dokumentų interpretavimui, saugios autonomijos scenarijams (compliance!), įmonių vidiniams asistentams. Agentams kartais trūksta agresyvesnės integracijų logikos, bet stabilumas – aukščiausio lygio;
❸ Google Gemini 2 (1.5 Pro/Flash 2 dideli kontekstai). Gemini turi vieną stiprybę: monstriškai ilgus kontekstus ir itin tikslius „tool use“. Dėl to jis plačiai naudojamas: duomenų sintezės automatizavimui, ataskaitų generavimui, sudėtingoms skaičiuojančioms agentūroms. Silpnesnė vieta – elgsena kartais būna nenuosekli esant labai painiai logikai;
❹ Microsoft Copilot Stack (Orchestrator + mažieji modeliai). Tai nėra vienas modelis – tai visos sistemos ekonomika: geriausia integracija su Office, OneDrive, SharePoint, Teams, Outlook, užduočių automatizavimas per Power Automate. Modelių žvalgyba čia antros eilės problema – laimi ekosistema. Verslams tai dažnai būna tikriausias „plug and live“;
❺ xAI Grok 2.x (Agentinė versija). Grok 2 pasistiebė būtent agentų srityje. Labai tinkamas: greitam realaus laiko monitoringui, scenarijų vykdymui su mažai „saloninio filtravimo“, atviro kodo agentų tinklams. Vis dar nėra taip rafinuotas kaip GPT ar Claude, bet puikiai veikia, kai svarbu greitis, o ne mandagūs atsakymai;
❻ Mistral Large/Mistral 8×22B (komercinis agentinis naudojimas). Mistral šiame segmente yra „protingas pragmatikas“: geras kainos–kokybės santykis, labai tinkamas įmonėms, kurios diegia savo serveriuose, stabilus duomenų apdorojimo agentuose, Codestral elementų naudojimas padeda su integracinėmis funkcijomis. Stiprus, bet vis dar labiau „užkulisinis“ žaidėjas;
❼ Meta LLaMA 3.1/3.2 (70B–405B) – savhostinami agentai. Puikus pasirinkimas įmonėms, kurios laiko viską vietoje. Stiprybės: sava kontrolė, nebrangūs serveriai, geri agentų „tool-use“. Silpnybė – vartotojai dažnai kapanojasi su konfigūracija ir integracijomis.
Santrauka: Grafikos, dizaino, projektavimo ir vizualizacijų kūrimo modeliai
❶ OpenAI Sora (vaizdo + 3D + aukštos klasės vizualizacijos). Tai šiuo metu visos rinkos viršūnė pagal vaizdo kokybę, fizikos simuliaciją, siužetų valdymą, 3D suvokimą ir realistišką judesį. Kol kas nepataisomai pirmoje vietoje;
❷ Midjourney (V6/V7 karta). Fotorealizmas, meninis stilius ir absoliutus estetinis „skonis“. Vis dar nepralenkiamas meninėje grafikoje, plakatuose, UI idėjose, iliustracijose;
❸ Stable Diffusion 3.5 / SD XL 2 (lokalus ir atvirojo kodo lyderis). Gerai priimamas įmonėse, kur reikia vietinio generavimo, patentuotų grafikų, konfidencialumo. Lankstus ir modifikuojamas. Šiek tiek silpnesnis meninėje kokybėje už Midjourney, bet galingesnis integracijose;
❹ Adobe Firefly 3/4. Spalvų tikslumas, komercinės licencijos, teisinis saugumas. Idealus Photoshop ir Illustrator projektams, kur svarbu išlaikyti originalų stilių, tekstūriškumą, tipografiją;
❺ Ideogram 2.0 (tekstas + grafika). Šiuo metu geriausias modelis pasaulyje, kai reikia DI sugeneruoti tvarkingą, profesionaliai sukomponuotą tekstą paveiksluose (logotipai, vizualiniai šūkiai, reklaminės kampanijos);
❻ Runway Gen-3 (vaizdo generavimas kūrėjams). Labai stiprus kine, klipuose, judesio sekuose. Nors vaizdo kokybė geresnė nei senųjų modelių, nuo Sora vis dar atsilieka;
❼ Leonardo AI - geras universalus įrankis, ypač žaidimų tekstūroms, 3D konceptams ir stilių transformavimui. Stiprus dėl patogios aplinkos, bet pagal kokybę nusileidžia Midjourney/SD;
❽ DALL·E 4. Fotorealizmas puikus, bet mažiau lankstus už Midjourney, mažiau konfigūruojamas už SD, mažiau stabilus už Firefly. Vis dar stiprus įrankis, bet nebėra rinkos lyderis.
❶ Suno AI – šiuo metu karalius pagal komercinės kokybės muziką. Labai švarus miksas, aiškus vokalinis modelis, geras žanrų laikymas. Kartais „per daug tobula“, bet praktiškai nepakeičiamas;
❷ Udio – natūralesni vokalai, dažnai šiltesnis ir organiškesnis garsas nei Suno. Kartais mažiau stabilus dėl struktūros, bet kur emocija svarbesnė nei techninis sterilumas – jis laimi;
❸ Stable Audio – itin švarus instrumentinių kūrinių generavimas. Puikus pasirinkimas ambiento, erdvės, garso takelių fonui. Vokalų srityje vis dar silpnas;
❹ Meta AudioCraft – stiprus ritminiuose ir elektroniniuose žanruose, įdomios tekstūros. Mažiau tinkamas tradicinei pop ar rock muzikai;
❺ Riffusion 2 – eksperimentinis, su unikaliu generavimo principu. Geras idėjoms ar efektams, bet ne pilnai susuktuems kūriniams;
❻ Google MusicLM/MusicFX DJ – pažangus struktūros suvokimas, bet nepasivijo rinkos garso kokybės. Puikus akademiniam naudojimui, bet ne komerciniams takeliams;
❼ Mubert – geras fono muzikai ir ilgas trukmės generacijai, tačiau ne toks kūrybiškai lankstus. Skirtas daugiau streameriams ir fonams.