Už ste niekedy sedeli a škrabali sa na hlave, akoby... odkiaľ sa toto vlastne berie ? Myslím, že umelá inteligencia sa neprehrabuje v zaprášených knižniciach ani nepozerá krátke videá na YouTube. Napriek tomu nejako nachádza odpovede na všetko – od trikov s lasagňami až po fyziku čiernych dier – akoby mala vo vnútri nejakú bezednú kartotéku. Realita je zvláštnejšia a možno zaujímavejšia, než by ste si mysleli. Poďme si to trochu rozobrať (a áno, možno po ceste vyvrátime aj pár mýtov).
Je to čarodejníctvo? 🌐
Nie je to čarovanie, hoci sa to niekedy tak zdá. To, čo sa deje „pod kapotou“, je v podstate predikcia vzorov . Modely veľkých jazykov (LLM) neukladajú fakty tak, ako sa váš mozog drží receptu na koláčiky vašej starej mamy; namiesto toho sú trénované na hádanie ďalšieho slova (tokenu) na základe toho, čo bolo predtým [2]. V praxi to znamená, že sa chytajú vzťahov: ktoré slová spolu súvisia, ako vety zvyčajne nadobúdajú tvar, ako sa celé myšlienky budujú ako lešenie. Preto výstup znie správne, aj keď – úprimne povedané – ide o štatistické napodobeniny, nie o porozumenie [4].
Čo teda vlastne robí informácie generované umelou inteligenciou užitočnými ? Niekoľko vecí:
-
Diverzita údajov – čerpanie z nespočetných zdrojov, nie z jedného úzkeho prúdu.
-
Aktualizácie - bez obnovovacích cyklov rýchlo zastará.
-
Filtrovanie – ideálne zachytávanie odpadu skôr, ako sa dostane dovnútra (hoci, povedzme si úprimne, tá sieť má diery).
-
Krížová kontrola – opieranie sa o autoritatívne zdroje (napríklad NASA, WHO, veľké univerzity), čo je nevyhnutnosťou vo väčšine príručiek o riadení umelej inteligencie [3].
Napriek tomu si niekedy sebavedomo vymýšľa. Tie takzvané halucinácie ? V podstate vybrúsené nezmysly prednesené s vážnou tvárou [2][3].
Články, ktoré by ste si mohli prečítať po tomto:
🔗 Dokáže umelá inteligencia predpovedať čísla v lotérii
Prieskum mýtov a faktov o predpovediach lotérií s umelou inteligenciou.
🔗 Čo znamená holistický prístup k umelej inteligencii
Pochopenie umelej inteligencie s vyváženými perspektívami etiky a vplyvu.
🔗 Čo hovorí Biblia o umelej inteligencii
Skúmanie biblických pohľadov na technológiu a stvorenie človeka.
Rýchle porovnanie: Odkiaľ AI čerpá 📊
Nie každý zdroj je rovnaký, ale každý zohráva svoju úlohu. Tu je krátky prehľad.
| Typ zdroja | Kto to používa (AI) | Cena/hodnota | Prečo to funguje (alebo nie...) |
|---|---|---|---|
| Knihy a články | Veľké jazykové modely | Na nezaplatenie (takmer) | Husté, štruktúrované vedomosti – jednoducho rýchlo starnú. |
| Webové stránky a blogy | Takmer všetky umelé inteligencie | Zadarmo (s hlukom) | Divoká odroda; zmes brilantnosti a absolútneho odpadu. |
| Akademické práce | Umelé inteligencie zamerané na výskum | Niekedy platené | Prísnosť + dôveryhodnosť, ale zahalené v ťažkom žargóne. |
| Používateľské údaje | Personalizované umelé inteligencie | Veľmi citlivý/á ⚠️ | Elegantné krajčírske práce, ale množstvo problémov so súkromím. |
| Web v reálnom čase | AI prepojené s vyhľadávaním | Zadarmo (ak je online) | Udržiava informácie aktuálne; nevýhodou je riziko šírenia klebiet. |
Vesmír tréningových dát 🌌
Toto je fáza „učenia sa v detstve“. Predstavte si, že dieťaťu dáte naraz milióny verejne dostupné údaje, licencované zdroje a text vygenerovaný školiteľom [2].
Vrstvené navrchu: vybrané ľudské príklady – dobré odpovede, zlé odpovede, postrčenie správnym smerom – ešte predtým, ako sa posilňovanie vôbec začne [1].
Výhrada transparentnosti: spoločnosti nezverejňujú všetky podrobnosti. Niektoré ochranné prvky sú utajenie (duševné vlastníctvo, bezpečnostné obavy), takže získate len čiastočný pohľad do skutočného procesu [2].
Vyhľadávanie v reálnom čase: Extra poleva 🍒
Niektoré modely teraz dokážu nahliadnuť mimo svojej tréningovej bubliny. Ide o generovanie rozšíreným vyhľadávaním (RAG) – v podstate ide o vyťahovanie častí z indexu alebo úložiska dokumentov a ich následné vkladanie do odpovede [5]. Ideálne pre rýchlo sa meniace veci, ako sú titulky správ alebo ceny akcií.
Problém? Internet je v rovnakom zmysle geniálny aj nefunkčný. Ak sú filtre alebo kontroly pôvodu slabé, riskujete, že sa späť vkradnú nežiaduce dáta – presne pred čím varujú rámce pre riadenie rizika [3].
Bežné riešenie: spoločnosti prepájajú modely s vlastnými internými databázami, takže odpovede citujú aktuálnu personálnu politiku alebo aktualizovanú produktovú dokumentáciu namiesto toho, aby sa im vyhýbali. Zamyslite sa nad tým: menej momentov „oh-oh“, viac dôveryhodných odpovedí.
Jemné ladenie: Leštiaci krok umelej inteligencie 🧪
Surové predtrénované modely sú nemotorné. Preto sa dolaďujú :
-
Učiť ich byť nápomocnými, neškodnými a čestnými (prostredníctvom posilňovacieho učenia z ľudskej spätnej väzby, RLHF) [1].
-
Brúsenie nebezpečných alebo toxických hrán (zarovnanie) [1].
-
Úprava tónu – či už priateľského, formálneho alebo hravo sarkastického.
Nejde ani tak o leštenie diamantu, ako skôr o vyvolanie štatistickej lavíny, aby sa človek správal skôr ako partner v konverzácii.
Hrbole a neúspechy 🚧
Netvárme sa, že je to bezchybné:
-
Halucinácie - jasné odpovede, ktoré sú úplne nesprávne [2][3].
-
Skreslenie – odzrkadľuje vzory zabudované do údajov; ak sa nekontroluje, môže ich dokonca zosilniť [3][4].
-
Žiadna skúsenosť z prvej ruky – môže hovoriť o receptoch na polievky, ale nikdy žiadnu neochutnal [4].
-
Prílišná sebadôvera – text plynie, akoby vedel, aj keď to tak nie je. Rámce riadenia rizika zdôrazňujú označovanie predpokladov [3].
Prečo sa cítim ako vedieť 🧠
Nemá žiadne presvedčenia, žiadnu pamäť v ľudskom zmysle a už vôbec žiadne ja. No keďže vety spája hladko, váš mozog to číta, akoby tomu rozumel . To, čo sa deje, je len masívna predikcia ďalšieho žetónu : spracováva bilióny pravdepodobností v zlomku sekundy [2].
Pocit „inteligencie“ je emergentné správanie – výskumníci ho s trochou irónie nazývajú „stochastického papagája“ [4].
Analógia pre deti 🎨
Predstavte si papagája, ktorý prečítal každú knihu v knižnici. Príbehom síce nerozumie , ale dokáže ich premiešať do niečoho, čo sa mu zdá múdre. Niekedy je to trefa, niekedy je to nezmysel – ale s dostatkom talentu nie vždy spoznáte rozdiel.
Zhrnutie: Odkiaľ pochádzajú informácie o umelej inteligencii 📌
Jednoducho povedané:
-
Rozsiahle tréningové dáta (verejné + licencované + generované trénermi) [2].
-
Jemné doladenie s ľudskou spätnou väzbou na formovanie tónu/správania [1].
-
Vyhľadávacie systémy pripojené k živým dátovým prúdom [5].
Umelá inteligencia nič „nevie“ – predpovedá text . To je jej superschopnosť aj Achillova päta. V konečnom dôsledku? Vždy si dôležité informácie overte v dôveryhodnom zdroji [3].
Referencie
-
Ouyang, L. a kol. (2022). Trénovanie jazykových modelov na dodržiavanie pokynov s ľudskou spätnou väzbou (InstructGPT) . arXiv .
-
OpenAI (2023). Technická správa GPT-4 – zmes licencovaných, verejných a človekom vytvorených údajov; cieľ a obmedzenia predikcie ďalšieho tokenu. arXiv .
-
NIST (2023). Rámec riadenia rizík umelej inteligencie (AI RMF 1.0) – pôvod, dôveryhodnosť a kontroly rizík. PDF .
-
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O nebezpečenstvách stochastických papagájov: Môžu byť jazykové modely príliš veľké? PDF .
-
Lewis, P. a kol. (2020). Generovanie rozšíreného vyhľadávania pre znalostne intenzívne NLP . arXiv .