Ako nasadiť modely umelej inteligencie

Ako nasadiť modely umelej inteligencie

Stručná odpoveď: Nasadenie modelu umelej inteligencie znamená výber vzoru poskytovania (v reálnom čase, dávkovo, streamovaním alebo na okraji) a následné zabezpečenie reprodukovateľnosti, pozorovateľnosti, bezpečnosti a reverzibility celej cesty. Keď všetko verziujete a porovnávate latenciu p95/p99 na produkčných dátach, vyhnete sa väčšine zlyhaní typu „funguje na mojom notebooku“.

Kľúčové poznatky:

Vzory nasadenia: Predtým, ako sa rozhodnete pre nástroje, vyberte si nasadenie v reálnom čase, dávkové nasadenie, streamovanie alebo nasadenie na okraji siete.

Reprodukovateľnosť: Verzia modelu, funkcií, kódu a prostredia sa upravuje tak, aby sa predišlo odchýlkam.

Pozorovateľnosť: Nepretržite monitorujte chvosty latencie, chyby, saturáciu a rozdelenie údajov alebo výstupov.

Bezpečné zavádzanie: Používajte kanárikové, modrozelené alebo tieňové testovanie s automatickými prahmi vrátenia zmien.

Bezpečnosť a súkromie: Aplikujte autorizáciu, limity rýchlosti a správu tajomstiev a minimalizujte osobné údaje v protokoloch.

Ako nasadiť modely umelej inteligencie? Infografika

Články, ktoré by ste si mohli prečítať po tomto: 

🔗 Ako merať výkonnosť umelej inteligencie
Naučte sa metriky, benchmarky a reálne kontroly pre spoľahlivé výsledky umelej inteligencie.

🔗 Ako automatizovať úlohy pomocou umelej inteligencie
Premeňte opakujúcu sa prácu na pracovné postupy pomocou výziev, nástrojov a integrácií.

🔗 Ako testovať modely umelej inteligencie
Navrhnite hodnotenia, súbory údajov a bodovanie na objektívne porovnanie modelov.

🔗 Ako hovoriť s umelou inteligenciou
Pýtajte sa lepšie otázky, uveďte kontext a rýchlo získajte jasnejšie odpovede.


1) Čo v skutočnosti znamená „nasadenie“ (a prečo to nie je len API) 🧩

Keď ľudia hovoria „nasadiť model“, môžu tým myslieť čokoľvek z tohto:

Takže nasadenie je menej „sprístupnenie modelu“ a skôr:

Je to trochu ako otvoriť reštauráciu. Varenie skvelého jedla je dôležité, to je isté. Stále však potrebujete budovu, personál, chladenie, jedálne lístky, dodávateľský reťazec a spôsob, ako zvládnuť zhon okolo večere bez toho, aby ste plakali v mraziacom boxe. Nie je to dokonalá metafora... ale chápete. 🍝


2) Čo robí dobrú verziu publikácie „Ako nasadiť modely umelej inteligencie“ ✅

„Dobré nasadenie“ je nudné v tom najlepšom zmysle slova. Pod tlakom sa správa predvídateľne a keď sa tak nedeje, môžete to rýchlo diagnostikovať.

Takto zvyčajne vyzerá „dobré“:

  • Reprodukovateľné zostavenia
    Rovnaký kód + rovnaké závislosti = rovnaké správanie. Žiadne strašidelné pocity typu „funguje to na mojom notebooku“ 👻 ( Docker: Čo je to kontajner? )

  • Jasná zmluva o rozhraní.
    Vstupy, výstupy, schémy a okrajové prípady sú definované. Žiadne prekvapujúce typy o 2:00 ráno. ( OpenAPI: Čo je OpenAPI?, JSON Schéma )

  • Výkon, ktorý zodpovedá realite
    Latencia a priepustnosť merané na hardvéri podobnom produkčnému a s realistickými užitočnými zaťaženiami.

  • Monitorovanie pomocou zubov
    Metriky, protokoly, stopy a kontroly driftu, ktoré spúšťajú akciu (nielen dashboardy, ktoré nikto neotvorí). ( Kniha SRE: Monitorovanie distribuovaných systémov )

  • Stratégia bezpečného zavádzania
    Kanársky alebo modrozelený systém, jednoduché vrátenie zmien, verziovanie, ktoré nevyžaduje modlitbu. ( Vydanie Kanársky systém , modrozelené nasadenie )

  • Povedomie o nákladoch
    „Rýchlo“ je skvelé, kým účet nevyzerá ako telefónne číslo 📞💸

  • Bezpečnosť a súkromie zabudované v
    správe tajomstiev, kontrole prístupu, spracovaní osobných údajov a auditovateľnosti. ( Kubernetes Secrets , NIST SP 800-122 )

Ak to dokážete robiť dôsledne, už ste pred väčšinou tímov. Buďme úprimní.


3) Vyberte si správny vzor nasadenia (predtým, ako si vyberiete nástroje) 🧠

Inferencia API v reálnom čase ⚡

Najlepšie, keď:

  • používatelia potrebujú okamžité výsledky (odporúčania, kontroly podvodov, chat, personalizácia)

  • rozhodnutia sa musia uskutočniť počas žiadosti

Pozor:

Dávkové bodovanie 📦

Najlepšie, keď:

  • predpovede sa môžu oneskoriť (hodnotenie rizika cez noc, predikcia odchodu zákazníkov, obohatenie ETL) ( dávková transformácia Amazon SageMaker )

  • chcete nákladovú efektívnosť a jednoduchšiu prevádzku

Pozor:

  • aktuálnosť údajov a dopĺňanie údajov

  • udržiavanie logiky funkcií v súlade s tréningom

Streamovanie inferencie 🌊

Najlepšie, keď:

  • udalosti spracovávate priebežne (IoT, clickstreamy, monitorovacie systémy)

  • chcete rozhodnutia takmer v reálnom čase bez striktného systému požiadaviek a odpovedí

Pozor:

Nasadenie na okraji siete 📱

Najlepšie, keď:

Pozor:

Najprv si vyber vzor a potom zásobník. Inak skončíš tak, že štvorcový model bude nútený fungovať v okrúhlom režime. Alebo niečo podobné. 😬


4) Zabalenie modelu tak, aby prežil kontakt s výrobou 📦🧯

Tu väčšina „jednoduchých nasadení“ potichu zaniká.

Verzia všetkého (áno, všetkého)

  • Modelový artefakt (váhy, graf, tokenizátor, mapy označení)

  • Logika prvkov (transformácie, normalizácia, enkodéry)

  • Inferenčný kód (pred/po spracovaní)

  • Prostredie (Python, CUDA, systémové knižnice)

Jednoduchý prístup, ktorý funguje:

  • zaobchádzať s modelom ako s artefaktom vydania

  • uložte ho so značkou verzie

  • vyžadujú súbor metadát v podobe karty modelu: schéma, metriky, poznámky k snímkam tréningových údajov, známe obmedzenia ( karty modelu pre reportovanie modelu )

Nádoby pomáhajú, ale neuctievajte ich 🐳

Kontajnery sú skvelé, pretože:

Ale stále to musíte zvládnuť:

Štandardizujte rozhranie

Včas sa rozhodnite pre formát vstupu/výstupu:

  • JSON pre jednoduchosť (pomalší, ale priateľský) ( JSON Schema )

  • Protobuf pre výkon ( prehľad Protocol Buffers )

  • užitočné zaťaženie súborov pre obrázky/zvuk (plus metadáta)

A prosím, overte vstupy. Neplatné vstupy sú hlavnou príčinou tiketov typu „prečo vracia nezmyselné správy“. ( OpenAPI: Čo je OpenAPI?, JSON Schema )


5) Možnosti poskytovania – od „jednoduchého API“ až po plnohodnotné modelové servery 🧰

Existujú dve bežné trasy:

Možnosť A: Aplikačný server + inferenčný kód (prístup v štýle FastAPI) 🧪

Napíšete API, ktoré načíta model a vráti predpovede. ( FastAPI )

Výhody:

  • ľahko prispôsobiteľné

  • skvelé pre jednoduchšie modely alebo produkty v ranom štádiu vývoja

  • jednoduchá autorizácia, smerovanie a integrácia

Nevýhody:

  • vlastné ladenie výkonu (dávkovanie, vláknovanie, využitie GPU)

  • znova vynájdeš kolesá, možno spočiatku zle

Možnosť B: Modelový server (prístup v štýle TorchServe / Triton) 🏎️

Špecializované servery, ktoré obsluhujú:

Výhody:

  • lepšie výkonnostné vzorce hneď po vybalení

  • jasnejšie oddelenie medzi obsluhou a obchodnou logikou

Nevýhody:

  • dodatočná prevádzková zložitosť

  • konfigurácia sa môže zdať... zložitá, ako nastavovanie teploty sprchy

Hybridný vzor je veľmi bežný:


6) Porovnávacia tabuľka - populárne spôsoby nasadenia (s úprimnými vibráciami) 📊😌

Nižšie je uvedený praktický prehľad možností, ktoré ľudia skutočne používajú pri zisťovaní, ako nasadiť modely umelej inteligencie .

Nástroj / Prístup Publikum Cena Prečo to funguje
Docker + FastAPI (alebo podobné) Malé tímy, startupy Voľne Jednoduché, flexibilné, rýchle na dodanie – každý problém so škálovaním však „pocítite“ ( Docker , FastAPI )
Kubernetes (urob si sám) Tímy platformy Infrazávislý Ovládanie + škálovateľnosť… tiež veľa gombíkov, niektoré z nich prekliate ( Kubernetes HPA )
Platforma spravovaného ML (cloudová služba ML) Tímy, ktoré chcú menej operácií Plaťte podľa spotreby Vstavané pracovné postupy nasadenia, monitorovacie hooky - niekedy drahé pre trvalo zapnuté koncové body ( nasadenie Vertex AI , inferencia SageMaker v reálnom čase )
Bezserverové funkcie (pre ľahkú inferenciu) Aplikácie riadené udalosťami Platba za použitie Skvelé do hustej premávky - ale studené štarty a veľkosť modelu vám môžu pokaziť deň 😬 ( studené štarty AWS Lambda )
Inferenčný server NVIDIA Triton Tímy zamerané na výkon Bezplatný softvér, náklady na infraštruktúru Vynikajúce využitie GPU, dávkovanie, multimodel - konfigurácia si vyžaduje trpezlivosť ( Triton: Dynamické dávkovanie )
TorchServe Tímy zamerané na PyTorch Voľný softvér Slušné predvolené vzory poskytovania - pre vysoké škálovanie môže byť potrebné doladenie ( dokumentácia TorchServe )
BentoML (balenie + servírovanie) Inžinieri strojového učenia Bezplatné jadro, doplnky sa líšia Hladké balenie, príjemný zážitok pre vývojárov - stále potrebujete možnosti infraštruktúry ( balenie BentoML pre nasadenie )
Ray Serve Ľudia zaoberajúci sa distribuovanými systémami Infrazávislý Horizontálne škálovateľné, vhodné pre projektové postupy - pre malé projekty sa zdá byť „veľké“ ( dokumentácia Ray Serve )

Poznámka k stolu: „Zadarmo“ je terminológia zo skutočného života. Pretože to nikdy nie je zadarmo. Vždy sa niekde niečo zaplatí, aj keby to bol váš spánok. 😴


7) Výkon a škálovanie - latencia, priepustnosť a pravda 🏁

Ladenie výkonu je miesto, kde sa nasadenie stáva remeslom. Cieľom nie je „rýchle“. Cieľom je konzistentne dostatočne rýchle .

Kľúčové metriky, na ktorých záleží

Bežné páky na ťahanie

  • Dávkovanie
    Kombinovanie požiadaviek pre maximalizáciu využitia GPU. Skvelé pre priepustnosť, ale ak to preženiete, môže to znížiť latenciu. ( Triton: Dynamické dávkovanie )

  • Kvantizácia
    Nižšia presnosť (ako INT8) môže urýchliť inferenciu a znížiť pamäť. Môže mierne znížiť presnosť. Niekedy prekvapivo nie. ( Kvantizácia po trénovaní )

  • Kompilácia/optimalizácia
    exportu ONNX, optimalizátory grafov, toky podobné TensorRT. Výkonné, ale ladenie môže byť pikantné 🌶️ ( ONNX , optimalizácie modelu ONNX Runtime )

  • Ukladanie do vyrovnávacej pamäte
    Ak sa vstupy opakujú (alebo môžete ukladať do vyrovnávacej pamäte vložené prvky), môžete veľa ušetriť.

  • Automatické
    škálovanie Škálovanie podľa využitia CPU/GPU, hĺbky frontu alebo rýchlosti požiadaviek. Hĺbka frontu je podhodnotená. ( Kubernetes HPA )

Zvláštny, ale pravdivý tip: merajte s veľkosťami užitočných zaťažení podobnými produkčným. Malé testovacie užitočné zaťaženia vám klamú. Zdvorilo sa usmejú a potom vás zradia.


8) Monitorovanie a pozorovateľnosť - nelietajte naslepo 👀📈

Monitorovanie modelu nie je len monitorovanie prevádzkyschopnosti. Chcete vedieť, či:

Čo monitorovať (minimálna životaschopná sada)

Stav služby

Správanie modelu

  • rozdelenie vstupných prvkov (základné štatistiky)

  • normy vkladania (pre modely vkladania)

  • rozdelenie výstupov (dôvera, zloženie tried, rozsahy skóre)

  • detekcia anomálií na vstupoch (garbage in, garbage out)

Posun údajov a posun konceptov

Zaznamenávanie, ale nie prístup „zaznamenávať všetko navždy“ 🪵

Záznam:

Buďte opatrní so súkromím. Nechcete, aby sa vaše protokoly stali zdrojom úniku údajov. ( NIST SP 800-122 )


9) Stratégie CI/CD a rollout – s modelmi zaobchádzajte ako so skutočnými vydaniami 🧱🚦

Ak chcete spoľahlivé nasadenie, vybudujte si kanál. Aj jednoduchý.

Pevný tok

  • Jednotkové testy pre predspracovanie a následné spracovanie

  • Integračný test so známou „zlatou množinou“ vstupov a výstupov

  • Základná línia záťažového testu (aj odľahčeného)

  • Zostavenie artefaktu (kontajner + model) ( osvedčené postupy zostavovania v Dockeri )

  • Nasadiť do pracovného prostredia

  • Vypustenie Canary pre malú časť dopravy ( Vypustenie Canary )

  • Postupne zvyšujte

  • Automatické vrátenie zmien pri dosiahnutí kľúčových prahových hodnôt ( modro-zelené nasadenie )

Vzory rozvinutia, ktoré vám zachránia zdravý rozum

  • Canary : najskôr vydanie pre 1 – 5 % návštevnosti ( Canary Release )

  • Modrozelená : spustite novú verziu popri starej, prepnite ju, keď je pripravená ( modrozelené nasadenie )

  • Tieňové testovanie : posielajte skutočnú návštevnosť do nového modelu, ale nepoužívajte výsledky (skvelé na vyhodnotenie) ( Microsoft: Tieňové testovanie )

A verzie koncových bodov alebo trasy upravte podľa verzie modelu. Budúcnosť vám poďakuje. Súčasnosť vám tiež poďakuje, ale potichu.


10) Bezpečnosť, súkromie a „prosím, nezverejňujte informácie“ 🔐🙃

Ochranka má tendenciu prísť neskoro, ako nepozvaný hosť. Lepšie je pozvať ju včas.

Praktický kontrolný zoznam

  • Autentifikácia a autorizácia (kto môže volať model?)

  • Obmedzenie rýchlosti (ochrana pred zneužitím a náhodnými búrkami) ( obmedzenie API Gateway )

  • Správa tajomstiev (žiadne kľúče v kóde, žiadne kľúče ani v konfiguračných súboroch…) ( AWS Secrets Manager , Kubernetes Secrets )

  • Sieťové ovládacie prvky (súkromné ​​podsiete, pravidlá prepojenia medzi službami)

  • Záznamy auditu (najmä pre citlivé predpovede)

  • Minimalizácia dát (ukladajte len to, čo musíte) ( NIST SP 800-122 )

Ak sa model dotýka osobných údajov:

  • identifikátory redigovania alebo hašovania

  • vyhnúť sa zaznamenávaniu surových údajov ( NIST SP 800-122 )

  • definovať pravidlá uchovávania

  • tok údajov dokumentov (nudný, ale ochranný)

Taktiež, prompt injection a zneužívanie výstupu môžu byť dôležité pre generatívne modely. Pridajte: ( OWASP Top 10 pre aplikácie LLM , OWASP: Prompt Injection )

  • pravidlá čistenia vstupov

  • filtrovanie výstupu tam, kde je to vhodné

  • ochranné zábradlia pre volanie nástrojov alebo akcie databázy

Žiadny systém nie je dokonalý, ale môžete ho urobiť menej krehkým.


11) Bežné nástrahy (tiež známe ako tie obvyklé pasce) 🪤

Tu sú klasiky:

Ak toto čítate a myslíte si „áno, robíme dva takéto“, vitaj v klube. Klub má občerstvenie a mierny stres. 🍪


12) Zhrnutie - Ako nasadiť modely umelej inteligencie bez toho, aby ste stratili rozum 😄✅

Nasadenie je moment, kedy sa umelá inteligencia stáva skutočným produktom. Nie je to okázalé, ale práve tu sa získava dôvera.

Stručné zhrnutie

A áno, návod na nasadenie modelov s umelou inteligenciou sa môže spočiatku zdať ako žonglovanie s horiacimi bowlingovými guľami. Ale akonáhle je váš proces stabilný, stane sa to zvláštne uspokojujúcim. Ako keby ste konečne zorganizovali preplnenú zásuvku... lenže tá zásuvka je produkčná prevádzka. 🔥🎳

Často kladené otázky

Čo znamená nasadiť model umelej inteligencie v produkčnom prostredí

Nasadenie modelu umelej inteligencie zvyčajne zahŕňa oveľa viac než len sprístupnenie predikčného API. V praxi zahŕňa zabalenie modelu a jeho závislostí, výber vzoru poskytovania (v reálnom čase, dávkovo, streamovaním alebo na okraji siete), škálovanie so spoľahlivosťou, monitorovanie stavu a driftu a nastavenie bezpečných ciest nasadenia a vrátenia zmien. Spoľahlivé nasadenie zostáva predvídateľne stabilné aj pri záťaži a zostáva diagnostikovateľné, keď sa niečo pokazí.

Ako si vybrať medzi nasadením v reálnom čase, dávkovým nasadením, streamovaním alebo nasadením na okraji siete

Vyberte si vzor nasadenia na základe toho, kedy sú potrebné predpovede a s akými obmedzeniami pracujete. Rozhrania API v reálnom čase sa hodia do interaktívnych prostredí, kde je dôležitá latencia. Dávkové bodovanie funguje najlepšie, keď sú oneskorenia prijateľné a nákladová efektívnosť vedie. Streamovanie je vhodné pre nepretržité spracovanie udalostí, najmä keď je sémantika doručovania náročná. Nasadenie na okraji siete je ideálne pre offline prevádzku, súkromie alebo požiadavky na ultranízku latenciu, hoci aktualizácie a hardvérové ​​variácie sa stávajú ťažšie spravovateľnými.

Akú verziu použiť, aby sa predišlo zlyhaniam pri nasadení typu „funguje na mojom notebooku“

Verzia je viac než len váhy modelu. Zvyčajne budete potrebovať verziovaný artefakt modelu (vrátane tokenizátorov alebo máp označení), logiku predspracovania a funkcií, inferenčný kód a kompletné prostredie runtime (knižnice Python/CUDA/systém). S modelom zaobchádzajte ako s artefaktom vydania s označenými verziami a odľahčenými metadátami opisujúcimi očakávania schémy, poznámky k hodnoteniu a známe obmedzenia.

Či nasadiť s jednoduchou službou v štýle FastAPI alebo s vyhradeným modelovým serverom

Jednoduchý aplikačný server (prístup v štýle FastAPI) funguje dobre pre skoré produkty alebo priamočiare modely, pretože si zachovávate kontrolu nad smerovaním, autorizáciou a integráciou. Modelový server (v štýle TorchServe alebo NVIDIA Triton) môže poskytnúť silnejšie dávkovanie, súbežnosť a efektivitu GPU hneď po vybalení z krabice. Mnoho tímov pristúpi k hybridu: modelový server pre inferenciu plus tenká vrstva API pre autorizáciu, tvarovanie požiadaviek a limity rýchlosti.

Ako zlepšiť latenciu a priepustnosť bez narušenia presnosti

Začnite meraním latencie p95/p99 na hardvéri podobnom produkčnému prostrediu s realistickými dátami, pretože malé testy môžu byť zavádzajúce. Medzi bežné metódy patrí dávkovanie (lepšia priepustnosť, potenciálne horšia latencia), kvantizácia (menšia a rýchlejšia, niekedy s miernymi kompromismi v presnosti), kompilačné a optimalizačné postupy (podobné ONNX/TensorRT) a ukladanie opakovaných vstupov alebo vkladaní do vyrovnávacej pamäte. Automatické škálovanie na základe hĺbky frontu môže tiež zabrániť zvyšovaniu latencie chvosta.

Aké monitorovanie je potrebné nad rámec „koncový bod je v prevádzke“

Samotná prevádzka nestačí, pretože služba môže vyzerať dobre, zatiaľ čo kvalita predikcie klesá. Minimálne monitorujte objem požiadaviek, mieru chybovosti a rozdelenie latencie, plus signály saturácie, ako je CPU/GPU/pamäť a čas čakania vo fronte. V prípade správania modelu sledujte rozdelenie vstupov a výstupov spolu so základnými signálmi anomálií. Pridajte kontroly driftu, ktoré spúšťajú akciu namiesto hlučných upozornení, a zaznamenávajte ID požiadaviek, verzie modelu a výsledky overenia schémy.

Ako bezpečne zaviesť nové verzie modelov a rýchlo sa obnoviť

S modelmi zaobchádzajte ako s kompletnými vydaniami s kanálom CI/CD, ktorý testuje predspracovanie a následné spracovanie, vykonáva integračné kontroly oproti „zlatej sade“ a stanovuje základnú záťaž. Pri zavádzaní canary verzie postupne zvyšujú prevádzku, zatiaľ čo blue-green ponecháva staršiu verziu aktívnu pre okamžité obnovenie. Tieňové testovanie pomáha vyhodnotiť nový model na skutočnej prevádzke bez ovplyvnenia používateľov. Vrátenie zmien by malo byť prvotriednym mechanizmom, nie dodatočnou myšlienkou.

Najčastejšie úskalia pri učení sa, ako nasadiť modely umelej inteligencie

Klasickým prípadom je skreslenie medzi tréningom a produkciou: predspracovanie sa líši medzi tréningom a produkciou a výkon sa nenápadne znižuje. Ďalším častým problémom je chýbajúca validácia schémy, kde zmena v predstihu nenápadne narúša vstupy. Tímy tiež podceňujú latenciu chvosta a nadmerne sa zameriavajú na priemery, prehliadajú náklady (nečinné GPU sa rýchlo sčítavajú) a preskakujú plánovanie vrátenia zmien. Monitorovanie iba prevádzkyschopnosti je obzvlášť riskantné, pretože „funguje, ale je zle“ môže byť horšie ako nefunkčné.

Referencie

  1. Amazon Web Services (AWS)Amazon SageMaker: Inferencia v reálnom časedocs.aws.amazon.com

  2. Amazon Web Services (AWS)Dávková transformácia Amazon SageMakerdocs.aws.amazon.com

  3. Amazon Web Services (AWS)Monitorovanie modelov Amazon SageMakerdocs.aws.amazon.com

  4. Amazon Web Services (AWS)Obmedzovanie požiadaviek API Gatewaydocs.aws.amazon.com

  5. Amazon Web Services (AWS)Správca tajomstiev AWS: Úvoddocs.aws.amazon.com

  6. Amazon Web Services (AWS)Životný cyklus prostredia vykonávania AWS Lambdadocs.aws.amazon.com

  7. Google CloudVertex AI: Nasadenie modelu na koncový boddocs.cloud.google.com

  8. Prehľad monitorovania modelu umelej inteligencie Vertex v Google Cloudedocs.cloud.google.com

  9. Google CloudVertex AI: Monitorovanie skreslenia a posunu prvkovdocs.cloud.google.com

  10. Blog Google CloudTok údajov: režimy streamovania presne raz vs. aspoň razcloud.google.com

  11. Google CloudRežimy streamovania cloudových dátdocs.cloud.google.com

  12. Kniha Google SRE - Monitorovanie distribuovaných systémov - sre.google

  13. Výskum GoogleChvost v mierkeresearch.google

  14. LiteRT (Google AI)prehľad LiteRTai.google.dev

  15. LiteRT (Google AI)odvodenie LiteRT na zariadeníai.google.dev

  16. Docker - Čo je to kontajner? - docs.docker.com

  17. Docker - Najlepšie postupy pre zostavenie Dockeru - docs.docker.com

  18. Kubernetes - Tajomstvá Kubernetes - kubernetes.io

  19. Kubernetes - Automatické škálovanie horizontálneho podu - kubernetes.io

  20. Martin Fowler - Vydanie pre kanárik - martinfowler.com

  21. Martin Fowler - Modro-zelené nasadenie - martinfowler.com

  22. Iniciatíva OpenAPIČo je OpenAPI?openapis.org

  23. Schéma JSON(odkaz na stránku)json-schema.org

  24. Protokolové buffery - Prehľad protokolových bufferov - protobuf.dev

  25. FastAPI - (odkaz na stránku) - fastapi.tiangolo.com

  26. NVIDIA - Triton: Dynamické dávkovanie a súbežné vykonávanie modelov - docs.nvidia.com

  27. NVIDIA - Triton: Súbežné vykonávanie modelov - docs.nvidia.com

  28. NVIDIA - Dokumentácia k serveru Triton Inference - docs.nvidia.com

  29. PyTorch - Dokumentácia TorchServe - docs.pytorch.org

  30. BentoML - Balenie pre nasadenie - docs.bentoml.com

  31. Ray - Ray Serve dokumenty - docs.ray.io

  32. TensorFlow - Kvantizácia po tréningu (optimalizácia modelu TensorFlow) - tensorflow.org

  33. TensorFlow - Validácia údajov TensorFlow: detekcia skreslenia pri poskytovaní tréningu - tensorflow.org

  34. ONNX - (odkaz na stránku) - onnx.ai

  35. ONNX Runtime - Optimalizácia modelu - onnxruntime.ai

  36. NIST (Národný inštitút pre štandardy a technológie)NIST SP 800-122csrc.nist.gov

  37. arXiv - Karty modelov pre reportovanie modelov - arxiv.org

  38. Microsoft - Tieňové testovanie - microsoft.github.io

  39. OWASPOWASP Top 10 pre prihlášky na LLMowasp.org

  40. Bezpečnostný projekt OWASP GenAIOWASP: Prompt Injectiongenai.owasp.org

Nájdite najnovšiu umelú inteligenciu v oficiálnom obchode s asistentmi umelej inteligencie

O nás

Späť na blog