Kako uvesti modele umetne inteligence

Kako uvesti modele umetne inteligence

Kratek odgovor: Uvedba modela umetne inteligence pomeni izbiro vzorca strežbe (v realnem času, paketno, pretočno ali na robu), nato pa zagotovitev ponovljivosti, opazovanja, varnosti in reverzibilnosti celotne poti. Ko vse različice analizirate in primerjate latenco p95/p99 na produkcijskih tovorih, se izognete večini napak »deluje na mojem prenosniku«.

Ključne ugotovitve:

Vzorci uvajanja: Preden se odločite za orodja, izberite uvajanje v realnem času, paketno uvajanje, pretakanje ali uvajanje na robu.

Ponovljivost: Model, funkcije, kodo in okolje prilagodite različicam, da preprečite odnašanje.

Opazljivost: Neprekinjeno spremljanje repov latence, napak, nasičenosti in porazdelitve podatkov ali izhodov.

Varno uvajanje: Uporabite kanarčkovo, modro-zeleno ali senčno testiranje s samodejnimi pragovi za vračanje.

Varnost in zasebnost: Uporabite avtorizacijo, omejitve hitrosti in upravljanje skrivnosti ter zmanjšajte število osebnih podatkov v dnevnikih.

Kako uvesti modele umetne inteligence? Infografika

Članki, ki jih boste morda želeli prebrati po tem: 

🔗 Kako meriti učinkovitost umetne inteligence
Naučite se meritev, primerjalnih vrednosti in preverjanj v resničnem svetu za zanesljive rezultate umetne inteligence.

🔗 Kako avtomatizirati naloge z umetno inteligenco
Spremenite ponavljajoče se delo v delovne tokove z uporabo pozivov, orodij in integracij.

🔗 Kako testirati modele umetne inteligence
Oblikujte vrednotenja, nabore podatkov in točkovanje za objektivno primerjavo modelov.

🔗 Kako se pogovarjati z umetno inteligenco
Postavljajte boljša vprašanja, postavite kontekst in hitro dobite jasnejše odgovore.


1) Kaj »uvajanje« v resnici pomeni (in zakaj ni le API) 🧩

Ko ljudje rečejo »uvesti model«, lahko mislijo karkoli od tega:

Torej je uvajanje manj "omogočanje dostopnosti modela" in bolj podobno:

  • pakiranje + strežba + skaliranje + spremljanje + upravljanje + vračanje na prejšnje stanje ( modro-zelena uvedba )

To je nekako tako, kot če bi odprli restavracijo. Priprava odlične jedi je pomembna, seveda. Ampak še vedno potrebujete stavbo, osebje, hlajenje, jedilnike, dobavno verigo in način, kako se spopasti z navalom večerje, ne da bi jokali v zamrzovalniku. Ni popolna metafora ... ampak razumete. 🍝


2) Kaj naredi dobro različico priročnika »Kako uvesti modele umetne inteligence« ✅

»Dobra namestitev« je dolgočasna na najboljši način. Pod pritiskom se obnaša predvidljivo, in ko se ne obnaša, lahko to hitro diagnosticirate.

Takole običajno izgleda "dobro":

  • Reproducibilne gradnje
    Ista koda + iste odvisnosti = enako vedenje. Brez strašljivih vibracij "deluje na mojem prenosniku" 👻 ( Docker: Kaj je vsebnik? )

  • Jasna vmesniška pogodba
    Vhodi, izhodi, sheme in robni primeri so definirani. Ni presenetljivih tipov ob 2. uri zjutraj. ( OpenAPI: Kaj je OpenAPI?, JSON shema )

  • Zmogljivost, ki ustreza realnosti
    Zakasnitev in prepustnost, izmerjeni na strojni opremi, podobni produkcijski, in realističnih koristnih obremenitvah.

  • Spremljanje z zobmi
    Metrike, dnevniki, sledi in preverjanja odnašanja, ki sprožijo dejanja (ne le nadzorne plošče, ki jih nihče ne odpre). ( Knjiga SRE: Spremljanje porazdeljenih sistemov )

  • Strategija varnega uvajanja:
    Kanarski ali modro-zeleni, enostavna povrnitev prejšnjih različic, različice, ki ne zahtevajo molitve. ( Izdaja Kanarski , modro-zelena uvedba )

  • Ozaveščenost o stroških
    »Hitro« je super, dokler račun ni videti kot telefonska številka 📞💸

  • Varnost in zasebnost, vključeni v
    upravljanje skrivnosti, nadzor dostopa, ravnanje z osebnimi podatki in možnost revizije. ( Kubernetes Secrets , NIST SP 800-122 )

Če to počneš dosledno, si že pred večino ekip. Bodimo iskreni.


3) Izberite pravi vzorec uvajanja (preden izberete orodja) 🧠

Sklepanje API-ja v realnem času ⚡

Najboljše, ko:

  • uporabniki potrebujejo takojšnje rezultate (priporočila, preverjanje goljufij, klepet, personalizacija)

  • odločitve se morajo sprejeti med zahtevo

Opozorila:

Skupinsko točkovanje 📦

Najboljše, ko:

  • napovedi se lahko zakasnijo (ocenjevanje tveganja čez noč, napovedovanje odliva, obogatitev ETL) ( paketna transformacija Amazon SageMaker )

  • želite stroškovno učinkovitost in enostavnejše delovanje

Opozorila:

  • ažurnost podatkov in zapolnitve

  • ohranjanje skladnosti logike funkcij z učenjem

Sklepanje o pretakanju 🌊

Najboljše, ko:

  • dogodke obdelujete neprekinjeno (IoT, kliktomi, sistemi za spremljanje)

  • želite odločitve skoraj v realnem času brez strogega sistema zahtev in odgovorov

Opozorila:

Uvajanje na robu 📱

Najboljše, ko:

Opozorila:

Najprej izberi vzorec, nato pa izberi sklad. Sicer boš kvadratni model prisilil v okrogel izvajalni proces. Ali nekaj takega. 😬


4) Pakiranje modela, da preživi stik s proizvodnjo 📦🧯

Tu večina "enostavnih uvajanj" tiho umre.

Različica vsega (ja, vsega)

  • Modelni artefakt (uteži, graf, tokenizator, preslikave oznak)

  • Logika značilnosti (transformacije, normalizacija, kodirniki)

  • Inferencijska koda (pred/naknadna obdelava)

  • Okolje (Python, CUDA, sistemske knjižnice)

Preprost pristop, ki deluje:

  • obravnavajte model kot artefakt izdaje

  • shranite ga z oznako različice

  • zahtevajo datoteko z metapodatki, podobno kartici modela: shema, metrike, opombe o posnetkih podatkov o usposabljanju, znane omejitve ( Kartice modela za poročanje o modelu )

Posode pomagajo, vendar jih ne častite 🐳

Kontejnerji so odlični, ker:

Vendar morate še vedno upravljati:

  • posodobitve osnovnih slik

  • Združljivost gonilnikov grafičnih procesorjev

  • varnostno skeniranje

  • velikost slike (nihče ne mara 9 GB "hello world") ( najboljše prakse gradnje Dockerja )

Standardizirajte vmesnik

Vhodno/izhodno obliko določite vnaprej:

In prosim, preverite vnose. Neveljavni vnosi so glavni vzrok za zahteve »zakaj vrača neumnosti«. ( OpenAPI: Kaj je OpenAPI?, JSON shema )


5) Možnosti strežbe - od "preprostega API-ja" do strežnikov s polnim modelom 🧰

Obstajata dve pogosti poti:

Možnost A: Strežnik aplikacij + koda za sklepanje (pristop v slogu FastAPI) 🧪

Napišete API, ki naloži model in vrne napovedi. ( FastAPI )

Prednosti:

  • enostavno prilagoditi

  • odlično za enostavnejše modele ali izdelke v zgodnji fazi

  • preprosto preverjanje pristnosti, usmerjanje in integracija

Slabosti:

  • lastno nastavitev zmogljivosti (pakiranje, navojno obdelava, izkoriščenost GPU-ja)

  • Nekaj ​​boš na novo izumil, morda sprva slabo

Možnost B: Modelni strežnik (pristop v slogu TorchServe / Triton) 🏎️

Specializirani strežniki, ki obdelujejo:

Prednosti:

  • boljši vzorci delovanja takoj po namestitvi

  • jasnejša ločitev med strežbo in poslovno logiko

Slabosti:

  • dodatna operativna kompleksnost

  • konfiguracija se lahko zdi ... zapletena, kot nastavitev temperature tuša

Hibridni vzorec je zelo pogost:


6) Primerjalna tabela - priljubljeni načini uvajanja (z iskrenimi vibracijami) 📊😌

Spodaj je praktičen posnetek možnosti, ki jih ljudje dejansko uporabljajo pri ugotavljanju, kako uvesti modele umetne inteligence .

Orodje / Pristop Občinstvo Cena Zakaj deluje
Docker + FastAPI (ali podobno) Majhne ekipe, zagonska podjetja Prostovoljno Preprosto, prilagodljivo, hitro za dostavo - vendar boste "občutili" vsako težavo s skaliranjem ( Docker , FastAPI )
Kubernetes (naredi sam) Platformne ekipe Infra-odvisno Nadzor + skalabilnost ... tudi veliko gumbov, nekateri od njih preklet ( Kubernetes HPA )
Platforma za upravljano strojno učenje (storitev strojnega učenja v oblaku) Ekipe, ki si želijo manj operacij Plačaj sproti Vgrajeni delovni tokovi uvajanja, nadzorni kavlji - včasih dragi za vedno delujoče končne točke ( uvajanje Vertex AI , sklepanje v realnem času SageMaker )
Brezstrežniške funkcije (za lahko sklepanje) Aplikacije, ki jih poganjajo dogodki Plačilo na uporabo Odlično za prometne konice - ampak hladni zagoni in velikost modela vam lahko pokvarijo dan 😬 ( hladni zagoni AWS Lambda )
Strežnik za sklepanje NVIDIA Triton Ekipe, osredotočene na uspešnost Brezplačna programska oprema, stroški infrastrukture Odlična izkoriščenost GPU-ja, paketno obdelavo, večmodelno delovanje - konfiguracija zahteva potrpljenje ( Triton: Dinamično paketno obdelavo )
TorchServe Ekipe, ki uporabljajo veliko PyTorcha Brezplačna programska oprema Spodobni privzeti vzorci serviranja - morda bo potrebno nastavitev za veliko skalo ( dokumentacija TorchServe )
BentoML (embalaža + serviranje) Inženirji strojnega učenja Brezplačno jedro, dodatki se razlikujejo Gladka embalaža, prijetna izkušnja za razvijalce - še vedno potrebujete možnosti infrastrukture ( pakiranje BentoML za uvajanje )
Ray Serve Ljudje, ki se ukvarjajo z porazdeljenimi sistemi Infra-odvisno Vodoravno skaliranje, dobro za cevovode - občutek "velikega" za majhne projekte ( dokumentacija Ray Serve )

Opomba k mizi: »Zastonj-skoraj« je izraz iz resničnega življenja. Ker ni nikoli zastonj. Vedno je nekje račun, tudi če gre za tvoje spanje. 😴


7) Zmogljivost in skaliranje - latenca, prepustnost in resnica 🏁

Pri optimizaciji delovanja postane uvajanje spretnost. Cilj ni "hitro". Cilj je dosledno dovolj hitro .

Ključne meritve, ki so pomembne

Pogoste ročice za vlečenje

  • Združevanje
    zahtev za maksimiranje uporabe grafičnega procesorja. Odlično za prepustnost, vendar lahko pretiravanje poveča zakasnitev. ( Triton: Dinamično združevanje )

  • Kvantizacija
    Nižja natančnost (kot INT8) lahko pospeši sklepanje in zmanjša pomnilnik. Lahko nekoliko poslabša natančnost. Včasih pa ne, presenetljivo. ( Kvantizacija po učenju )

  • Prevajanje/optimizacija
    izvoza ONNX, optimizatorji grafov, tokovi podobni TensorRT. Zmogljivo, vendar je lahko odpravljanje napak zapleteno 🌶️ ( ONNX , optimizacije modelov izvajalnega okolja ONNX )

  • Predpomnjenje
    Če se vnosi ponavljajo (ali pa lahko predpomnite vdelave), lahko veliko prihranite.

  • Samodejno skaliranje
    Skaliranje glede na izkoriščenost CPE/GPU, globino čakalne vrste ali stopnjo zahtev. Globina čakalne vrste je podcenjena. ( Kubernetes HPA )

Nenavaden, a resničen nasvet: merite z velikostmi koristnega tovora, podobnimi produkcijskim. Majhni testni koristni tovori vam lažejo. Vljudno se nasmehnejo in vas kasneje izdajo.


8) Spremljanje in opazovalnost – ne delajte na slepo 👀📈

Spremljanje modela ni le spremljanje delovanja. Želite vedeti, ali:

Kaj spremljati (minimalni izvedljivi nabor)

Zdravje storitve

Vedenje modela

  • vhodne porazdelitve značilnosti (osnovna statistika)

  • norme vgrajevanja (za modele vgrajevanja)

  • porazdelitve rezultatov (zaupanje, mešanica razredov, razponi rezultatov)

  • zaznavanje anomalij na vhodih (smetnja na vhodu, smeti na izhodu)

Premik podatkov in premik konceptov

Beleženje, vendar ne pristop »beleži vse za vedno« 🪵

Dnevnik:

Bodite previdni pri zasebnosti. Ne želite, da vaši dnevniki postanejo vir uhajanja podatkov. ( NIST SP 800-122 )


9) Strategije CI/CD in uvajanja – z modeli ravnajte kot s pravimi izdajami 🧱🚦

Če želite zanesljive uvedbe, zgradite cevovod. Tudi preprostega.

Trden tok

  • Enotnih testov za predobdelavo in naknadno obdelavo

  • Integracijski test z znano vhodno-izhodno »zlato množico«

  • Osnovni preizkus obremenitve (tudi lahek)

  • Gradnja artefakta (vsebnik + model) ( najboljše prakse gradnje Dockerja )

  • Uvajanje v pripravljalno stanje

  • Izpust kanarčka za majhen del prometa ( Izpust kanarčka )

  • Postopoma povečujte

  • Samodejno vračanje na prejšnje stanje pri ključnih pragih ( modro-zelena uvedba )

Vzorci uvajanja, ki vam rešujejo razum

  • Canary : najprej sprostitev za 1–5 % prometa ( Canary Release )

  • Modro-zelena : zaženite novo različico vzporedno s staro, preklopite, ko je pripravljena ( modro-zelena uvedba )

  • Senčno testiranje : pošljite pravi promet v nov model, vendar ne uporabite rezultatov (odlično za evalvacijo) ( Microsoft: Senčno testiranje )

In različice končnih točk ali poti prilagodite različicam modela. Prihodnost vam bo hvaležna. Tudi sedanjost vam bo hvaležna, vendar tiho.


10) Varnost, zasebnost in »prosim, ne razkrivajte informacij« 🔐🙃

Varnostniki se ponavadi pojavijo pozno, kot nepovabljen gost. Bolje jih je povabiti zgodaj.

Praktični kontrolni seznam

  • Avtentikacija in avtorizacija (kdo lahko pokliče model?)

  • Omejevanje hitrosti (zaščita pred zlorabo in nenamernimi nevihtami) ( omejevanje API prehoda )

  • Upravljanje skrivnosti (brez ključev v kodi, brez ključev v konfiguracijskih datotekah ...) ( AWS Secrets Manager , Kubernetes Secrets )

  • Omrežni nadzor (zasebna podomrežja, pravilniki med storitvami)

  • Dnevniki nadzora (zlasti za občutljive napovedi)

  • Zmanjšanje podatkov (shranjujte le tisto, kar morate) ( NIST SP 800-122 )

Če se model dotika osebnih podatkov:

  • identifikatorji za redigiranje ali zgoščevanje

  • izogibajte se beleženju surovih koristnih podatkov ( NIST SP 800-122 )

  • določite pravila hrambe

  • pretok podatkov dokumentov (dolgočasno, a zaščitno)

Prav tako je lahko promptno vbrizgavanje in zloraba izhoda pomembna za generativne modele. Dodaj: ( OWASP Top 10 za aplikacije LLM , OWASP: Promptno vbrizgavanje )

  • pravila za čiščenje vnosa

  • izhodno filtriranje, kjer je to primerno

  • varovalne ograje za klicanje orodij ali dejanja v zbirki podatkov

Noben sistem ni popoln, vendar ga lahko naredite manj krhkega.


11) Pogoste pasti (oz. običajne pasti) 🪤

Tukaj so klasike:

Če to berete in si mislite "ja, midva od teh delava," dobrodošli v klubu. V klubu so prigrizki in blag stres. 🍪


12) Zaključek - Kako uvesti modele umetne inteligence, ne da bi pri tem izgubili razum 😄✅

Uvajanje je tisto, kjer umetna inteligenca postane pravi izdelek. Ni glamurozno, ampak je to tisto, kjer si zaslužimo zaupanje.

Hiter povzetek

In ja, kako uvesti modele umetne inteligence se lahko sprva zdi kot žongliranje z gorečimi kroglami za kegljanje. Ko pa je vaš cevovod stabilen, postane nenavadno zadovoljujoče. Kot da bi končno uredili natrpan predal ... le da je predal produkcijski promet. 🔥🎳

Pogosta vprašanja

Kaj pomeni uvedba modela umetne inteligence v produkciji

Uvajanje modela umetne inteligence običajno vključuje veliko več kot le razkritje napovednega API-ja. V praksi vključuje pakiranje modela in njegovih odvisnosti, izbiro vzorca strežbe (v realnem času, paketno, pretočno ali na robu), skaliranje z zanesljivostjo, spremljanje zdravja in odnašanja ter nastavitev varnih poti uvajanja in vračanja. Zanesljiva uvedba ostane predvidljivo stabilna pod obremenitvijo in jo je mogoče diagnosticirati, ko gre kaj narobe.

Kako izbrati med uvajanjem v realnem času, paketnim, pretočnim ali robnim uvajanjem

Izberite vzorec uvajanja glede na to, kdaj so potrebna predvidevanja in pod kakšnimi omejitvami delujete. API-ji v realnem času so primerni za interaktivne izkušnje, kjer je pomembna zakasnitev. Paketno točkovanje deluje najbolje, kadar so zamude sprejemljive in stroškovna učinkovitost vodi. Pretočno predvajanje je primerno za neprekinjeno obdelavo dogodkov, zlasti kadar semantika dostave postane zapletena. Uvajanje na robu omrežja je idealno za delovanje brez povezave, zasebnost ali zahteve po izjemno nizki zakasnitvi, čeprav je upravljanje posodobitev in različic strojne opreme težje.

Katere različice uporabljati, da se izognete napakam pri uvajanju »deluje na mojem prenosniku«

Različica je več kot le uteži modela. Običajno boste želeli različiciran artefakt modela (vključno z žetonizatorji ali zemljevidi oznak), logiko predobdelave in funkcij, kodo sklepanja in celotno okolje izvajanja (knjižnice Python/CUDA/sistema). Model obravnavajte kot artefakt izdaje z označenimi različicami in lahkimi metapodatki, ki opisujejo pričakovanja sheme, opombe o vrednotenju in znane omejitve.

Ali naj se uvede s preprosto storitvijo v slogu FastAPI ali z namenskim strežnikom modelov

Preprost strežnik aplikacij (pristop v slogu FastAPI) se dobro obnese za zgodnje izdelke ali preproste modele, saj ohranite nadzor nad usmerjanjem, avtorizacijo in integracijo. Strežnik modelov (v slogu TorchServe ali NVIDIA Triton) lahko zagotovi močnejše paketno obdelavo, sočasnost in učinkovitost grafičnega procesorja takoj po namestitvi. Številne ekipe se odločijo za hibrid: strežnik modelov za sklepanje in tanko plast API-ja za avtorizacijo, oblikovanje zahtev in omejitve hitrosti.

Kako izboljšati zakasnitev in prepustnost brez vpliva na natančnost

Začnite z merjenjem latence p95/p99 na strojni opremi, podobni produkcijski, z realističnimi koristnimi obremenitvami, saj lahko majhni testi zavajajo. Pogosti vzvodi vključujejo paketno obdelavo (boljša prepustnost, potencialno slabša latenca), kvantizacijo (manjša in hitrejša, včasih z zmernimi kompromisi glede natančnosti), tokove prevajanja in optimizacije (podobno kot pri ONNX/TensorRT) ter predpomnjenje ponavljajočih se vnosov ali vdelav. Samodejno skaliranje na podlagi globine čakalne vrste lahko tudi prepreči naraščanje latence repa.

Kakšen nadzor je potreben poleg »končne točke, ki je vklopljena«

Samo čas delovanja ni dovolj, saj je storitev lahko videti zdrava, medtem ko se kakovost napovedi zmanjšuje. Spremljajte vsaj količino zahtev, stopnjo napak in porazdelitev zakasnitve ter signale nasičenosti, kot so CPU/GPU/pomnilnik in čas čakalne vrste. Za vedenje modela spremljajte porazdelitve vhodnih in izhodnih podatkov skupaj z osnovnimi signali anomalij. Dodajte preverjanja premika, ki sprožijo dejanja namesto opozoril o hrupu, in beležite ID-je zahtev, različice modelov in rezultate preverjanja shem.

Kako varno uvesti nove različice modelov in hitro obnoviti

Modele obravnavajte kot polne izdaje, s cevovodom CI/CD, ki testira predobdelavo in naknadno obdelavo, izvaja preverjanja integracije glede na »zlati nabor« in določa osnovno obremenitev. Pri uvajanju različice Canary postopoma povečujejo promet, medtem ko modro-zelena različica ohranja starejšo različico aktivno za takojšnjo nadomestno različico. Senčno testiranje pomaga oceniti nov model na resničnem prometu, ne da bi to vplivalo na uporabnike. Razveljavitev bi morala biti prvovrstni mehanizem, ne pa naknadna misel.

Najpogostejše pasti pri učenju uvajanja modelov umetne inteligence

Klasični primer je neskladje med učenjem in produkcijo: predobdelava se razlikuje med učenjem in produkcijo, zmogljivost pa se neopazno poslabša. Druga pogosta težava je manjkajoča validacija sheme, kjer sprememba v zgornjem delu sistema na subtilne načine prekine vhodne podatke. Ekipe podcenjujejo tudi zakasnitev repa in se preveč osredotočajo na povprečja, spregledajo stroške (nedejavne grafične kartice se hitro seštevajo) in preskočijo načrtovanje povrnitve. Spremljanje samo časa delovanja je še posebej tvegano, saj je lahko »deluje, a je narobe« hujše kot izpad.

Reference

  1. Amazon Web Services (AWS) - Amazon SageMaker: Sklepanje v realnem času - docs.aws.amazon.com

  2. Amazon Web Services (AWS) - Paketna transformacija Amazon SageMaker - docs.aws.amazon.com

  3. Amazon Web Services (AWS) - Spremljalnik modelov Amazon SageMaker - docs.aws.amazon.com

  4. Amazon Web Services (AWS) - Omejevanje zahtev API Gateway - docs.aws.amazon.com

  5. Amazon Web Services (AWS)Upravitelj skrivnosti AWS: Uvoddocs.aws.amazon.com

  6. Amazon Web Services (AWS) - Življenjski cikel izvajalnega okolja AWS Lambda - docs.aws.amazon.com

  7. Google Cloud - Vertex AI: Namestitev modela na končno točko - docs.cloud.google.com

  8. Pregled spremljanja modela umetne inteligence Vertex storitvi Google Cloud - docs.cloud.google.com

  9. Google Cloud - Vertex AI: Spremljanje nagnjenosti in odmika funkcij - docs.cloud.google.com

  10. Blog Google Cloud - Pretok podatkov: načini pretakanja natančno enkrat v primerjavi z vsaj enkratnim - cloud.google.com

  11. Google CloudNačini pretakanja podatkovnega toka v oblakudocs.cloud.google.com

  12. Knjiga Google SRE - Spremljanje porazdeljenih sistemov - sre.google

  13. Google Research - Rep v velikem obsegu - research.google

  14. LiteRT (Google AI)pregled LiteRTai.google.dev

  15. LiteRT (Google AI)sklepanje LiteRT na napraviai.google.dev

  16. Docker - Kaj je kontejner? - docs.docker.com

  17. Docker - Najboljše prakse gradnje Dockerja - docs.docker.com

  18. Kubernetes - Skrivnosti Kubernetes - kubernetes.io

  19. Kubernetes - Samodejno skaliranje horizontalnega pod-ja - kubernetes.io

  20. Martin Fowler - Izpust kanarčka - martinfowler.com

  21. Martin Fowler - Modro-zelena uvedba - martinfowler.com

  22. Pobuda OpenAPI - Kaj je OpenAPI? - openapis.org

  23. JSON shema - (spletno mesto je navedeno) - json-schema.org

  24. Protokolni medpomnilniki - Pregled protokolnih medpomnilnikov - protobuf.dev

  25. FastAPI - (spletno mesto je navedeno) - fastapi.tiangolo.com

  26. NVIDIA - Triton: Dinamično pakiranje in sočasno izvajanje modelov - docs.nvidia.com

  27. NVIDIA - Triton: Sočasno izvajanje modela - docs.nvidia.com

  28. NVIDIA - Dokumentacija za strežnik sklepanja Triton - docs.nvidia.com

  29. PyTorch - Dokumentacija TorchServe - docs.pytorch.org

  30. BentoML - Pakiranje za uvajanje - docs.bentoml.com

  31. Ray - Ray Serve dokumenti - docs.ray.io

  32. TensorFlow - Kvantizacija po treningu (optimizacija modela TensorFlow) - tensorflow.org

  33. TensorFlow - Validacija podatkov TensorFlow: zaznavanje nagiba med učenjem in serviranjem - tensorflow.org

  34. ONNX - (spletno mesto je navedeno) - onnx.ai

  35. ONNX Runtime - Optimizacije modela - onnxruntime.ai

  36. NIST (Nacionalni inštitut za standarde in tehnologijo) - NIST SP 800-122 - csrc.nist.gov

  37. arXiv - Kartice modelov za poročanje o modelih - arxiv.org

  38. Microsoft - Senčno testiranje - microsoft.github.io

  39. OWASP - OWASP Top 10 za prijave na magistrski študij prava (LLM) - owasp.org

  40. Varnostni projekt OWASP GenAI - OWASP: Takojšnje vbrizgavanje - genai.owasp.org

Poiščite najnovejšo umetno inteligenco v uradni trgovini z umetno inteligenco

O nas

Nazaj na blog