Odkiaľ AI získava svoje informácie?

Už ste niekedy sedeli a škrabali sa na hlave, akoby... odkiaľ sa toto vlastne berie? Myslím, že umelá inteligencia sa neprehrabuje v zaprášených knižniciach ani nepozerá krátke videá na YouTube. Napriek tomu nejako nachádza odpovede na všetko – od trikov s lasagňami až po fyziku čiernych dier – akoby mala vo vnútri nejakú bezednú kartotéku. Realita je zvláštnejšia a možno zaujímavejšia, než by ste si mysleli. Poďme si to trochu rozobrať (a áno, možno po ceste vyvrátime aj pár mýtov).

Je to čarodejníctvo? 🌐

Nie je to čarovanie, hoci sa to niekedy tak zdá. To, čo sa deje „pod kapotou“, je v podstate predikcia vzorov. Modely veľkých jazykov (LLM) neukladajú fakty tak, ako sa váš mozog drží receptu na koláčiky vašej starej mamy; namiesto toho sú trénované na hádanie ďalšieho slova (tokenu) na základe toho, čo bolo predtým [2]. V praxi to znamená, že sa chytajú vzťahov: ktoré slová spolu súvisia, ako vety zvyčajne nadobúdajú tvar, ako sa celé myšlienky budujú ako lešenie. Preto výstup znie správne, aj keď – úprimne povedané – ide o štatistické napodobeniny, nie o porozumenie [4].

Čo teda vlastne robí informácie generované umelou inteligenciou užitočnými? Niekoľko vecí:

Diverzita údajov – čerpanie z nespočetných zdrojov, nie z jedného úzkeho prúdu.
Aktualizácie - bez obnovovacích cyklov rýchlo zastará.
Filtrovanie – ideálne zachytávanie odpadu skôr, ako sa dostane dovnútra (hoci, povedzme si úprimne, tá sieť má diery).
Krížová kontrola – opieranie sa o autoritatívne zdroje (napríklad NASA, WHO, veľké univerzity), čo je nevyhnutnosťou vo väčšine príručiek o riadení umelej inteligencie [3].

Napriek tomu si niekedy sebavedomo vymýšľa. Tie takzvané halucinácie? V podstate vybrúsené nezmysly prednesené s vážnou tvárou [2][3].

Články, ktoré by ste si mohli prečítať po tomto:

🔗 Dokáže umelá inteligencia predpovedať čísla v lotérii
Prieskum mýtov a faktov o predpovediach lotérií s umelou inteligenciou.

🔗 Čo znamená holistický prístup k umelej inteligencii
Pochopenie umelej inteligencie s vyváženými perspektívami etiky a vplyvu.

🔗 Čo hovorí Biblia o umelej inteligencii
Skúmanie biblických pohľadov na technológiu a stvorenie človeka.

Rýchle porovnanie: Odkiaľ AI čerpá 📊

Nie každý zdroj je rovnaký, ale každý zohráva svoju úlohu. Tu je krátky prehľad.

Typ zdroja	Kto to používa (AI)	Cena/hodnota	Prečo to funguje (alebo nie...)
Knihy a články	Veľké jazykové modely	Na nezaplatenie (takmer)	Husté, štruktúrované vedomosti – jednoducho rýchlo starnú.
Webové stránky a blogy	Takmer všetky umelé inteligencie	Zadarmo (s hlukom)	Divoká odroda; zmes brilantnosti a absolútneho odpadu.
Akademické práce	Umelé inteligencie zamerané na výskum	Niekedy platené	Prísnosť + dôveryhodnosť, ale zahalené v ťažkom žargóne.
Používateľské údaje	Personalizované umelé inteligencie	Veľmi citlivý/á ⚠️	Elegantné krajčírske práce, ale množstvo problémov so súkromím.
Web v reálnom čase	AI prepojené s vyhľadávaním	Zadarmo (ak je online)	Udržiava informácie aktuálne; nevýhodou je riziko šírenia klebiet.

Vesmír tréningových dát 🌌

Toto je fáza „učenia sa v detstve“. Predstavte si, že dieťaťu dáte naraz milióny rozprávkových kníh, výstrižkov z novín a „králičích noier“ z Wikipédie. Takto vyzerá predtréning. V reálnom svete poskytovatelia zhromažďujú verejne dostupné údaje, licencované zdroje a text vygenerovaný školiteľom [2].

Vrstvené navrchu: vybrané ľudské príklady – dobré odpovede, zlé odpovede, postrčenie správnym smerom – ešte predtým, ako sa posilňovanie vôbec začne [1].

Výhrada transparentnosti: spoločnosti nezverejňujú všetky podrobnosti. Niektoré ochranné prvky sú utajenie (duševné vlastníctvo, bezpečnostné obavy), takže získate len čiastočný pohľad do skutočného procesu [2].

Vyhľadávanie v reálnom čase: Extra poleva 🍒

Niektoré modely teraz dokážu nahliadnuť mimo svojej tréningovej bubliny. Ide o generovanie rozšíreným vyhľadávaním (RAG) –v podstate ide o vyťahovanie častí z indexu alebo úložiska dokumentov a ich následné vkladanie do odpovede [5]. Ideálne pre rýchlo sa meniace veci, ako sú titulky správ alebo ceny akcií.

Problém? Internet je v rovnakom zmysle geniálny aj nefunkčný. Ak sú filtre alebo kontroly pôvodu slabé, riskujete, že sa späť vkradnú nežiaduce dáta – presne pred čím varujú rámce pre riadenie rizika [3].

Bežné riešenie: spoločnosti prepájajú modely s vlastnými internými databázami, takže odpovede citujú aktuálnu personálnu politiku alebo aktualizovanú produktovú dokumentáciu namiesto toho, aby sa im vyhýbali. Zamyslite sa nad tým: menej momentov „oh-oh“, viac dôveryhodných odpovedí.

Jemné ladenie: Leštiaci krok umelej inteligencie 🧪

Surové predtrénované modely sú nemotorné. Preto sa dolaďujú:

Učiť ich byť nápomocnými, neškodnými a čestnými (prostredníctvom posilňovacieho učenia z ľudskej spätnej väzby, RLHF) [1].
Brúsenie nebezpečných alebo toxických hrán (zarovnanie) [1].
Úprava tónu – či už priateľského, formálneho alebo hravo sarkastického.

Nejde ani tak o leštenie diamantu, ako skôr o vyvolanie štatistickej lavíny, aby sa človek správal skôr ako partner v konverzácii.

Hrbole a neúspechy 🚧

Netvárme sa, že je to bezchybné:

Halucinácie - jasné odpovede, ktoré sú úplne nesprávne [2][3].
Skreslenie – odzrkadľuje vzory zabudované do údajov; ak sa nekontroluje, môže ich dokonca zosilniť [3][4].
Žiadna skúsenosť z prvej ruky – môže hovoriť o receptoch na polievky, ale nikdy žiadnu neochutnal [4].
Prílišná sebadôvera – text plynie, akoby vedel, aj keď to tak nie je. Rámce riadenia rizika zdôrazňujú označovanie predpokladov [3].

Prečo sa cítim ako vedieť 🧠

Nemá žiadne presvedčenia, žiadnu pamäť v ľudskom zmysle a už vôbec žiadne ja. No keďže vety spája hladko, váš mozog to číta, akoby tomu rozumel. To, čo sa deje, je len masívna predikcia ďalšieho žetónu: spracováva bilióny pravdepodobností v zlomku sekundy [2].

Pocit „inteligencie“ je emergentné správanie – výskumníci ho s trochou irónie nazývajú „stochastického papagája“ [4].

Analógia pre deti 🎨

Predstavte si papagája, ktorý prečítal každú knihu v knižnici. Príbehom síce nerozumie , ale dokáže ich premiešať do niečoho, čo sa mu zdá múdre. Niekedy je to trefa, niekedy je to nezmysel – ale s dostatkom talentu nie vždy spoznáte rozdiel.

Zhrnutie: Odkiaľ pochádzajú informácie o umelej inteligencii 📌

Jednoducho povedané:

Rozsiahle tréningové dáta (verejné + licencované + generované trénermi) [2].
Jemné doladenie s ľudskou spätnou väzbou na formovanie tónu/správania [1].
Vyhľadávacie systémy pripojené k živým dátovým prúdom [5].

Umelá inteligencia nič „nevie“ – predpovedá text. To je jej superschopnosť aj Achillova päta. V konečnom dôsledku? Vždy si dôležité informácie overte v dôveryhodnom zdroji [3].

Referencie

Ouyang, L. a kol. (2022). Trénovanie jazykových modelov na dodržiavanie pokynov s ľudskou spätnou väzbou (InstructGPT). arXiv.
OpenAI (2023). Technická správa GPT-4 – zmes licencovaných, verejných a človekom vytvorených údajov; cieľ a obmedzenia predikcie ďalšieho tokenu. arXiv.
NIST (2023). Rámec riadenia rizík umelej inteligencie (AI RMF 1.0) – pôvod, dôveryhodnosť a kontroly rizík. PDF.
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O nebezpečenstvách stochastických papagájov: Môžu byť jazykové modely príliš veľké? PDF.
Lewis, P. a kol. (2020). Generovanie rozšíreného vyhľadávania pre znalostne intenzívne NLP. arXiv.

Nájdite najnovšiu umelú inteligenciu v oficiálnom obchode s asistentmi umelej inteligencie

O nás

Späť na blog