odkiaľ AI berie informácie

Odkiaľ AI získava svoje informácie?

Už ste niekedy sedeli a škrabali sa na hlave, akoby... odkiaľ sa toto vlastne berie ? Myslím, že umelá inteligencia sa neprehrabuje v zaprášených knižniciach ani nepozerá krátke videá na YouTube. Napriek tomu nejako nachádza odpovede na všetko – od trikov s lasagňami až po fyziku čiernych dier – akoby mala vo vnútri nejakú bezednú kartotéku. Realita je zvláštnejšia a možno zaujímavejšia, než by ste si mysleli. Poďme si to trochu rozobrať (a áno, možno po ceste vyvrátime aj pár mýtov).


Je to čarodejníctvo? 🌐

Nie je to čarovanie, hoci sa to niekedy tak zdá. To, čo sa deje „pod kapotou“, je v podstate predikcia vzorov . Modely veľkých jazykov (LLM) neukladajú fakty tak, ako sa váš mozog drží receptu na koláčiky vašej starej mamy; namiesto toho sú trénované na hádanie ďalšieho slova (tokenu) na základe toho, čo bolo predtým [2]. V praxi to znamená, že sa chytajú vzťahov: ktoré slová spolu súvisia, ako vety zvyčajne nadobúdajú tvar, ako sa celé myšlienky budujú ako lešenie. Preto výstup znie správne, aj keď – úprimne povedané – ide o štatistické napodobeniny, nie o porozumenie [4].

Čo teda vlastne robí informácie generované umelou inteligenciou užitočnými ? Niekoľko vecí:

  • Diverzita údajov – čerpanie z nespočetných zdrojov, nie z jedného úzkeho prúdu.

  • Aktualizácie - bez obnovovacích cyklov rýchlo zastará.

  • Filtrovanie – ideálne zachytávanie odpadu skôr, ako sa dostane dovnútra (hoci, povedzme si úprimne, tá sieť má diery).

  • Krížová kontrola – opieranie sa o autoritatívne zdroje (napríklad NASA, WHO, veľké univerzity), čo je nevyhnutnosťou vo väčšine príručiek o riadení umelej inteligencie [3].

Napriek tomu si niekedy sebavedomo vymýšľa. Tie takzvané halucinácie ? V podstate vybrúsené nezmysly prednesené s vážnou tvárou [2][3].

Články, ktoré by ste si mohli prečítať po tomto:

🔗 Dokáže umelá inteligencia predpovedať čísla v lotérii
Prieskum mýtov a faktov o predpovediach lotérií s umelou inteligenciou.

🔗 Čo znamená holistický prístup k umelej inteligencii
Pochopenie umelej inteligencie s vyváženými perspektívami etiky a vplyvu.

🔗 Čo hovorí Biblia o umelej inteligencii
Skúmanie biblických pohľadov na technológiu a stvorenie človeka.


Rýchle porovnanie: Odkiaľ AI čerpá 📊

Nie každý zdroj je rovnaký, ale každý zohráva svoju úlohu. Tu je krátky prehľad.

Typ zdroja Kto to používa (AI) Cena/hodnota Prečo to funguje (alebo nie...)
Knihy a články Veľké jazykové modely Na nezaplatenie (takmer) Husté, štruktúrované vedomosti – jednoducho rýchlo starnú.
Webové stránky a blogy Takmer všetky umelé inteligencie Zadarmo (s hlukom) Divoká odroda; zmes brilantnosti a absolútneho odpadu.
Akademické práce Umelé inteligencie zamerané na výskum Niekedy platené Prísnosť + dôveryhodnosť, ale zahalené v ťažkom žargóne.
Používateľské údaje Personalizované umelé inteligencie Veľmi citlivý/á ⚠️ Elegantné krajčírske práce, ale množstvo problémov so súkromím.
Web v reálnom čase AI prepojené s vyhľadávaním Zadarmo (ak je online) Udržiava informácie aktuálne; nevýhodou je riziko šírenia klebiet.

Vesmír tréningových dát 🌌

Toto je fáza „učenia sa v detstve“. Predstavte si, že dieťaťu dáte naraz milióny verejne dostupné údaje, licencované zdroje a text vygenerovaný školiteľom [2].

Vrstvené navrchu: vybrané ľudské príklady – dobré odpovede, zlé odpovede, postrčenie správnym smerom – ešte predtým, ako sa posilňovanie vôbec začne [1].

Výhrada transparentnosti: spoločnosti nezverejňujú všetky podrobnosti. Niektoré ochranné prvky sú utajenie (duševné vlastníctvo, bezpečnostné obavy), takže získate len čiastočný pohľad do skutočného procesu [2].


Vyhľadávanie v reálnom čase: Extra poleva 🍒

Niektoré modely teraz dokážu nahliadnuť mimo svojej tréningovej bubliny. Ide o generovanie rozšíreným vyhľadávaním (RAG) – v podstate ide o vyťahovanie častí z indexu alebo úložiska dokumentov a ich následné vkladanie do odpovede [5]. Ideálne pre rýchlo sa meniace veci, ako sú titulky správ alebo ceny akcií.

Problém? Internet je v rovnakom zmysle geniálny aj nefunkčný. Ak sú filtre alebo kontroly pôvodu slabé, riskujete, že sa späť vkradnú nežiaduce dáta – presne pred čím varujú rámce pre riadenie rizika [3].

Bežné riešenie: spoločnosti prepájajú modely s vlastnými internými databázami, takže odpovede citujú aktuálnu personálnu politiku alebo aktualizovanú produktovú dokumentáciu namiesto toho, aby sa im vyhýbali. Zamyslite sa nad tým: menej momentov „oh-oh“, viac dôveryhodných odpovedí.


Jemné ladenie: Leštiaci krok umelej inteligencie 🧪

Surové predtrénované modely sú nemotorné. Preto sa dolaďujú :

  • Učiť ich byť nápomocnými, neškodnými a čestnými (prostredníctvom posilňovacieho učenia z ľudskej spätnej väzby, RLHF) [1].

  • Brúsenie nebezpečných alebo toxických hrán (zarovnanie) [1].

  • Úprava tónu – či už priateľského, formálneho alebo hravo sarkastického.

Nejde ani tak o leštenie diamantu, ako skôr o vyvolanie štatistickej lavíny, aby sa človek správal skôr ako partner v konverzácii.


Hrbole a neúspechy 🚧

Netvárme sa, že je to bezchybné:

  • Halucinácie - jasné odpovede, ktoré sú úplne nesprávne [2][3].

  • Skreslenie – odzrkadľuje vzory zabudované do údajov; ak sa nekontroluje, môže ich dokonca zosilniť [3][4].

  • Žiadna skúsenosť z prvej ruky – môže hovoriť o receptoch na polievky, ale nikdy žiadnu neochutnal [4].

  • Prílišná sebadôvera – text plynie, akoby vedel, aj keď to tak nie je. Rámce riadenia rizika zdôrazňujú označovanie predpokladov [3].


Prečo sa cítim ako vedieť 🧠

Nemá žiadne presvedčenia, žiadnu pamäť v ľudskom zmysle a už vôbec žiadne ja. No keďže vety spája hladko, váš mozog to číta, akoby tomu rozumel . To, čo sa deje, je len masívna predikcia ďalšieho žetónu : spracováva bilióny pravdepodobností v zlomku sekundy [2].

Pocit „inteligencie“ je emergentné správanie – výskumníci ho s trochou irónie nazývajú „stochastického papagája“ [4].


Analógia pre deti 🎨

Predstavte si papagája, ktorý prečítal každú knihu v knižnici. Príbehom síce nerozumie , ale dokáže ich premiešať do niečoho, čo sa mu zdá múdre. Niekedy je to trefa, niekedy je to nezmysel – ale s dostatkom talentu nie vždy spoznáte rozdiel.


Zhrnutie: Odkiaľ pochádzajú informácie o umelej inteligencii 📌

Jednoducho povedané:

  • Rozsiahle tréningové dáta (verejné + licencované + generované trénermi) [2].

  • Jemné doladenie s ľudskou spätnou väzbou na formovanie tónu/správania [1].

  • Vyhľadávacie systémy pripojené k živým dátovým prúdom [5].

Umelá inteligencia nič „nevie“ – predpovedá text . To je jej superschopnosť aj Achillova päta. V konečnom dôsledku? Vždy si dôležité informácie overte v dôveryhodnom zdroji [3].


Referencie

  1. Ouyang, L. a kol. (2022). Trénovanie jazykových modelov na dodržiavanie pokynov s ľudskou spätnou väzbou (InstructGPT) . arXiv .

  2. OpenAI (2023). Technická správa GPT-4 – zmes licencovaných, verejných a človekom vytvorených údajov; cieľ a obmedzenia predikcie ďalšieho tokenu. arXiv .

  3. NIST (2023). Rámec riadenia rizík umelej inteligencie (AI RMF 1.0) – pôvod, dôveryhodnosť a kontroly rizík. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O nebezpečenstvách stochastických papagájov: Môžu byť jazykové modely príliš veľké? PDF .

  5. Lewis, P. a kol. (2020). Generovanie rozšíreného vyhľadávania pre znalostne intenzívne NLP . arXiv .


Nájdite najnovšiu umelú inteligenciu v oficiálnom obchode s asistentmi umelej inteligencie

O nás

Späť na blog