Kratek odgovor: Določite, kaj pomeni »dobro« za vaš primer uporabe, nato pa preizkusite z reprezentativnimi, različicami nadzorovanimi pozivi in robnimi primeri. Združite avtomatizirane metrike z ocenjevanjem človeških rubrik, skupaj s preverjanjem kontradiktorne varnosti in vbrizgavanjem pozivov. Če postanejo omejitve stroškov ali zakasnitve zavezujoče, primerjajte modele glede na uspešnost naloge na porabljen funt in odzivne čase p95/p99.
Ključne ugotovitve:
Odgovornost : Določite jasne lastnike, vodite dnevnike različic in ponovno zaženite evalvacije po vsakem pozivu ali spremembi modela.
Preglednost : Preden začnete zbirati ocene, zapišite merila za uspeh, omejitve in stroške neuspeha.
Preverljivost : Vzdrževanje ponovljivih testnih paketov, označenih naborov podatkov in sledenje metrik latence p95/p99.
Izpodbojnost : Za sporne rezultate uporabite rubrike za človeški pregled in določeno pot pritožbe.
Odpornost proti zlorabi : Vbrizgavanje s strani rdeče ekipe, občutljive teme in pretirano zavračanje zaščite uporabnikov.
Če izbirate model za izdelek, raziskovalni projekt ali celo interno orodje, ne morete kar tako reči »sliši se pametno« in ga poslati naprej (glejte vodnik za evalacije OpenAI in NIST AI RMF 1.0 ). Tako dobite klepetalnega robota, ki vam samozavestno razloži, kako segreti vilice v mikrovalovni pečici. 😬

Članki, ki jih boste morda želeli prebrati po tem:
🔗 Prihodnost umetne inteligence: trendi, ki oblikujejo naslednje desetletje
Ključne inovacije, vpliv na delovna mesta in etika, na katere je treba biti pozoren v prihodnje.
🔗 Razlaga temeljnih modelov generativne umetne inteligence za začetnike.
Spoznajte, kaj so, kako se usposobijo in zakaj so pomembni.
🔗 Kako umetna inteligenca vpliva na okolje in porabo energije
Raziščite emisije, povpraševanje po električni energiji in načine za zmanjšanje onesnaževalnega odtisa.
🔗 Kako deluje nadgradnja z umetno inteligenco za ostrejše slike danes
Oglejte si, kako modeli dodajo podrobnosti, odstranijo šum in jasno povečajo.
1) Definiranje "dobrega" (odvisno je, in to je v redu) 🎯
Preden izvedete kakršno koli evalvacijo, se odločite, kako izgleda uspeh. Sicer boste vse izmerili in se ničesar naučili. To je kot da bi prinesli merilni trak, da bi ocenili tekmovanje v tortah. Seveda boste dobili številke, vendar vam ne bodo povedale veliko 😅
Pojasni:
-
Uporabniški cilj : povzemanje, iskanje, pisanje, sklepanje, pridobivanje dejstev
-
Cena neuspeha : napačen predlog filma je smešen; napačen zdravniški napotnik ... ni smešen (uokvirjanje tveganja: NIST AI RMF 1.0 ).
-
Izvajalno okolje : na napravi, v oblaku, za požarnim zidom, v reguliranem okolju
-
Glavne omejitve : latenca, stroški na zahtevo, zasebnost, razložljivost, večjezična podpora, nadzor tonov
Model, ki je "najboljši" pri enem delu, je lahko pri drugem katastrofa. To ni protislovje, to je resničnost. 🙂
2) Kako izgleda trden okvir za ocenjevanje modela umetne inteligence 🧰
Ja, to je del, ki ga ljudje preskočijo. Vzamejo primerjalno analizo, jo enkrat preizkusijo in končajo. Robustni okvir za evalvacijo ima nekaj doslednih lastnosti (praktični primeri orodij: OpenAI Evals / OpenAI evals guide ):
-
Ponovljivo – lahko ga ponovno zaženete naslednji teden in zaupate primerjavam
-
Reprezentativno – odraža vaše dejanske uporabnike in naloge (ne le malenkosti)
-
Večplastno – združuje avtomatizirane meritve + človeški pregled + kontradiktorne teste
-
Učinkovito – rezultati vam povedo, kaj morate popraviti, ne le, da se je »ocena znižala«
-
Odporno proti nedovoljenim posegom – preprečuje »učenje na preizkus« ali nenamerno puščanje
-
Stroškovno ozaveščenost – samo vrednotenje vas ne bi smelo spraviti v bankrot (razen če vam je bolečina všeč)
Če vaša ocena ne more preživeti skeptične izjave soigralca: "V redu, ampak preslikaj to v produkcijo," potem še ni končana. To je preverjanje vibracij.
3) Kako oceniti modele umetne inteligence, začenši z rezinami primerov uporabe 🍰
Tukaj je trik, ki prihrani veliko časa: primer uporabe razdelite na rezine .
Namesto »ocenite model« naredite:
-
Razumevanje namere (ali dobimo tisto, kar si uporabnik želi)
-
Pridobivanje ali uporaba konteksta (ali pravilno uporablja posredovane informacije)
-
Sklepanje / večstopenjske naloge (ali ostane skladno med koraki)
-
Oblikovanje in struktura (ali sledi navodilom)
-
Usklajenost varnosti in politik (ali se s tem izognemo nevarnim vsebinam; glej NIST AI RMF 1.0 )
-
Ton in glas blagovne znamke (ali zveni tako, kot si želite)
Zaradi tega se »Kako ovrednotiti modele umetne inteligence« ne zdi več kot en sam ogromen izpit in bolj kot niz ciljno usmerjenih kvizov. Kvizi so nadležni, vendar obvladljivi. 😄
4) Osnove ocenjevanja brez povezave – testni nabori, oznake in neprivlačne podrobnosti, ki so pomembne 📦
Offline eval je postopek, pri katerem izvajate nadzorovane teste, preden se uporabniki česar koli dotaknejo (vzorci poteka dela: OpenAI Evals ).
Sestavite ali zberite testni komplet, ki je resnično vaš
Dober testni komplet običajno vključuje:
-
Zlati primeri : idealni rezultati, ki bi jih s ponosom odposlali
-
Robni primeri : dvoumni pozivi, neurejeni vnosi, nepričakovano oblikovanje
-
Sonde za okvare : pozivi, ki vzbujajo halucinacije ali nevarne odgovore (uokvirjanje testiranja tveganja: NIST AI RMF 1.0 )
-
Raznolikost pokritosti : različne ravni uporabniških znanj, narečja, jeziki, področja
Če testirate samo na »čistih« pozivih, bo model videti odlično. Potem se bodo vaši uporabniki pojavili s tipkarskimi napakami, polstavki in energijo besnega klikanja. Dobrodošli v realnosti.
Možnosti označevanja (tj. stopnje strogosti)
Izhode lahko označite kot:
-
Binarno : uspešno/neuspešno (hitro, ostro)
-
Vrstilni : ocena kakovosti od 1 do 5 (niansirano, subjektivno)
-
Več atributov : natančnost, popolnost, ton, uporaba citiranja itd. (najboljši, počasnejši)
Več atributov je za mnoge ekipe idealna izbira. To je kot okušati hrano in ocenjevati slanost ločeno od teksture. Sicer pa samo rečeš "dobro" in skomigneš z rameni.
5) Metrike, ki ne lažejo – in metrike, ki nekako lažejo 📊😅
Metrike so dragocene ... lahko pa so tudi bleščeča bomba. Svetleče, povsod in težko jih je očistiti.
Pogoste družine metrik
-
Natančnost/natančno ujemanje : odlično za ekstrakcijo, klasifikacijo, strukturirane naloge
-
F1 / natančnost / odpoklic : priročno, kadar je spregledanje nečesa hujše od dodatnega šuma (definicije: scikit-learn natančnost/odpoklic/F-ocena )
-
Prekrivanje slogov BLEU / ROUGE : v redu za naloge povzemanja, pogosto zavajajoče (prvotne metrike: BLEU in ROUGE )
-
Vdelava podobnosti : koristno za semantično ujemanje, lahko nagradi napačne, a podobne odgovore
-
Stopnja uspešnosti naloge : »ali je uporabnik dobil, kar je potreboval«, zlati standard, ko je dobro opredeljeno
-
Skladnost z omejitvami : upošteva obliko zapisa, dolžino, veljavnost JSON in upoštevanje sheme
Ključna točka
Če je vaša naloga odprtega tipa (pisanje, sklepanje, klepet s podporo), so lahko metrike z enim številom ... majave. Ne nesmiselne, samo majave. Merjenje ustvarjalnosti z ravnilom je mogoče, vendar se boste pri tem počutili neumno. (Verjetno si boste tudi izbodli oko.)
Torej: uporabljajte metrike, vendar jih zasidrajte na človeški pregled in dejanske rezultate naloge (en primer razprave o vrednotenju na podlagi LLM + opozorila: G-Eval ).
6) Primerjalna tabela - najboljše možnosti ocenjevanja (z posebnostmi, ker ima življenje svoje posebnosti) 🧾✨
Tukaj je praktičen meni pristopov k vrednotenju. Kombinirajte in kombinirajte. Večina ekip to počne.
| Orodje / Metoda | Občinstvo | Cena | Zakaj deluje |
|---|---|---|---|
| Ročno izdelan nabor testov za prompte | Izdelek + inženiring | $ | Zelo ciljno usmerjeno, hitro zaznava regresije - vendar ga morate vzdrževati za vedno 🙃 (začetno orodje: OpenAI Evals ) |
| Panel za ocenjevanje človeških rubrik | Ekipe, ki lahko prihranijo pregledovalce | $$ | Najboljše za ton, nianse, "bi človek to sprejel", rahel kaos, odvisno od recenzentov |
| LLM-kot-sodnik (z rubrikami) | Hitre iteracijske zanke | $-$$ | Hitro in prilagodljivo, vendar lahko podeduje pristranskost in včasih ocenjuje vibracije, ne dejstev (raziskave + znane težave s pristranskostjo: G-Eval ) |
| Šprint z nasprotnimi rdečimi ekipami | Varnost + skladnost | $$ | Najde pikantne načine odpovedi, zlasti takojšnje injiciranje - občutek je kot stresni test v telovadnici (pregled groženj: OWASP LLM01 Takojšnje injiciranje / OWASP Top 10 za LLM aplikacije ) |
| Generiranje sintetičnih testov | Ekipe za podatkovno lahke sisteme | $ | Odlična pokritost, vendar so lahko sintetični pozivi preveč urejeni, preveč vljudni ... uporabniki niso vljudni |
| A/B testiranje z resničnimi uporabniki | Izdelki za zrele osebe | $$$ | Najjasnejši signal – hkrati pa tudi najbolj čustveno stresen, ko se metrike nihajo (klasični praktični vodnik: Kohavi et al., »Nadzorovani poskusi na spletu« ) |
| Eval, ki temelji na pridobivanju (preverjanja RAG) | Iskanje + aplikacije za zagotavljanje kakovosti | $$ | Meri »pravilno uporablja kontekst«, zmanjšuje inflacijo rezultatov halucinacij (pregled eval RAG: Evaluation of RAG: A Survey ) |
| Spremljanje + zaznavanje odnašanja | Proizvodni sistemi | $$-$$$ | Sčasoma ujame degradacijo - nebleščeče do dneva, ko te reši 😬 (pregled drifta: anketa o driftu koncepta (PMC) ) |
Upoštevajte, da so cene namerno nizke. Odvisne so od obsega, orodij in števila sestankov, ki jih po nesreči sprožite.
7) Človeško ocenjevanje - skrivno orožje, ki ga ljudje premalo financirajo 👀🧑⚖️
Če izvajate samo avtomatizirano ocenjevanje, boste zamudili:
-
Neusklajenost tonov ("zakaj je tako sarkastično")
-
Subtilne dejanske napake, ki so videti tekoče
-
Škodljive posledice, stereotipi ali nerodno izražanje (tveganje + pristranskost: NIST AI RMF 1.0 )
-
Napake pri sledenju navodilom, ki se še vedno slišijo "pametno"
Naj bodo rubrike konkretne (ali pa bodo recenzenti delovali svobodno)
Slaba rubrika: »Uporabnost«
Boljša rubrika:
-
Pravilnost : dejansko natančno glede na poziv + kontekst
-
Popolnost : zajema zahtevane točke brez nepotrebnega odlašanja
-
Jasnost : berljivo, strukturirano, minimalna zmeda
-
Politika/varnost : izogibanje omejeni vsebini, dobro obravnava zavrnitve (varnostno uokvirjanje: NIST AI RMF 1.0 )
-
Slog : ustreza glasu, tonu, ravni branja
-
Zvestoba : ne izmišljuje virov ali trditev, ki niso podprte
Včasih opravite tudi medsebojno preverjanje ocenjevalcev. Če se dva recenzenta nenehno ne strinjata, to ni »problem ljudi«, temveč problem rubrike. Običajno (osnove zanesljivosti med ocenjevalci: McHugh o Cohenovem koeficientu kappa ).
8) Kako oceniti modele umetne inteligence glede varnosti, robustnosti in "uf, uporabniki" 🧯🧪
To je del, ki ga naredite pred lansiranjem – in nato nadaljujete, saj internet nikoli ne spi.
Vključno s testi robustnosti
-
Tipkarske napake, sleng, pokvarjena slovnica
-
Zelo dolgi pozivi in zelo kratki pozivi
-
Nasprotujoča si navodila ("bodite kratki, vendar vključite vse podrobnosti")
-
Večkratni pogovori, kjer uporabniki spreminjajo cilje
-
Poskusi poznejšega vbrizgavanja (»prezri prejšnja pravila ...«) (podrobnosti o grožnji: OWASP LLM01 Pozivni vbrizgavanje )
-
Občutljive teme, ki zahtevajo previdno zavrnitev (uokvirjanje tveganja/varnosti: NIST AI RMF 1.0 )
Varnostna ocena ni le "ali zavrne"
Dober model bi moral:
-
Jasno in mirno zavrnite nevarne zahteve (oblikovanje smernic: NIST AI RMF 1.0 )
-
Po potrebi zagotovite varnejše alternative
-
Izogibajte se pretiranemu zavračanju neškodljivih poizvedb (lažno pozitivnih rezultatov)
-
Dvoumne zahteve obravnavajte z razjasnjevalnimi vprašanji (kadar je to dovoljeno)
Pretirano zavračanje je resnična težava izdelka. Uporabniki ne marajo, da se z njimi ravna kot s sumničavci. 🧌 (Tudi če so sumničavci.)
9) Stroški, latenca in operativna realnost – vrednotenje, ki ga vsi pozabljajo 💸⏱️
Model je lahko »neverjeten« in še vedno napačen za vas, če je počasen, drag ali operativno krhek.
Oceni:
-
Porazdelitev latence (ne le povprečje - pomembna sta p95 in p99) (zakaj so percentili pomembni: Delovni zvezek Google SRE o spremljanju )
-
Stroški na uspešno nalogo (ne stroški na žeton posebej)
-
Stabilnost pod obremenitvijo (časovne omejitve, omejitve hitrosti, anomalne konice)
-
Zanesljivost klica orodij (če uporablja funkcije, ali se obnaša)
-
Tendence dolžine izhoda (nekateri modeli so naključni, in naključno gibanje stane denar)
Nekoliko slabši model, ki je dvakrat hitrejši, lahko v praksi zmaga. To se sliši očitno, a ljudje to ignorirajo. Kot da bi kupili športni avto za nakup živil, nato pa se pritoževali nad prostornino prtljažnika.
10) Preprost celosten potek dela, ki ga lahko kopirate (in prilagodite) 🔁✅
Tukaj je praktičen potek, kako oceniti modele umetne inteligence , ne da bi se ujeli v neskončne eksperimente:
-
Definiraj uspeh : naloga, omejitve, stroški neuspeha
-
Ustvarite majhen »osnovni« testni nabor : 50–200 primerov, ki odražajo dejansko uporabo
-
Dodajte robne in kontradiktorne množice : poskuse vbrizgavanja, dvoumne pozive, varnostne sonde (razred vbrizgavanja pozivov: OWASP LLM01 )
-
Izvedite samodejne preglede : oblikovanje, veljavnost JSON, osnovna pravilnost, kjer je to mogoče
-
Izvedite človeški pregled : vzorčni rezultati po kategorijah, ocenjevanje z rubriko
-
Primerjajte kompromise : kakovost v primerjavi s stroški v primerjavi z zakasnitvijo v primerjavi z varnostjo
-
Pilotni projekt v omejeni izdaji : A/B testi ali postopno uvajanje (vodnik za A/B testiranje: Kohavi et al. )
-
Monitor v produkciji : premik, regresije, zanke povratnih informacij uporabnikov (pregled premika: anketa o premiku koncepta (PMC) )
-
Iteracija : posodobitev pozivov, pridobivanje, natančna nastavitev, varovalne ograje, nato ponovni zagon eval (vzorci iteracije eval: vodnik po evalih OpenAI )
Vodite dnevnike različic. Ne zato, ker je zabavno, ampak zato, ker se vam bodo v prihodnosti zahvalili, medtem ko boste držali kavo in mrmrali "kaj se je spremenilo ..." ☕🙂
11) Pogoste pasti (tj. načini, kako se ljudje po nesreči zavedejo) 🪤
-
Usposabljanje za preizkus : optimizirate pozive, dokler primerjalno testiranje ni videti odlično, vendar uporabniki trpijo
-
Puščanje podatkov o vrednotenju : pozivi k preizkusu se prikažejo v podatkih za učenje ali fino nastavitev (ups)
-
Čaščenje ene same metrike : lovljenje enega rezultata, ki ne odraža vrednosti za uporabnika
-
Ignoriranje premika distribucije : vedenje uporabnikov se spremeni in vaš model se tiho degradira (uokvirjanje produkcijskega tveganja: anketa o odnašanju konceptov (PMC) )
-
Prekomerno indeksiranje na podlagi »pametnosti« : pametno sklepanje ni pomembno, ali krši formatiranje ali si izmišljuje dejstva
-
Ne preverjam kakovosti zavrnitve : »Ne« je lahko pravilno, vendar je uporabniška izkušnja še vedno grozna.
Pazite tudi na demo posnetke. Demo posnetki so kot filmski napovedniki. Prikazujejo poudarke, skrivajo počasne dele in občasno lažejo z dramatično glasbo. 🎬
12) Zaključni povzetek o tem, kako oceniti modele umetne inteligence 🧠✨
Vrednotenje modelov umetne inteligence ni ena sama ocena, temveč uravnotežen obrok. Potrebujete beljakovine (pravilnost), zelenjavo (varnost), ogljikove hidrate (hitrost in stroški) in ja, včasih sladico (ton in užitek) 🍲🍰 (uokvirjanje tveganja: NIST AI RMF 1.0 )
Če se ne spomnite ničesar drugega:
-
Definirajte, kaj pomeni »dobro« za vaš primer uporabe
-
Uporabite reprezentativne testne nabore, ne le znanih primerjalnih testov
-
Združite avtomatizirane meritve s pregledom človeških rubrik
-
Robustnost in varnost testiranja, saj so uporabniki nasprotujoči si (ker včasih ... so) (razred takojšnjega vbrizgavanja: OWASP LLM01 )
-
Stroške in zakasnitev vključite v oceno, ne kot naknadno misel (zakaj so percentili pomembni: Google SRE Workbook )
-
Spremljanje po lansiranju – modeli se premikajo, aplikacije se razvijajo, ljudje postajajo ustvarjalni (pregled premika: anketa o premikanju konceptov (PMC) )
Takole ovrednotite modele umetne inteligence na način, ki bo obstojen, ko bo vaš izdelek objavljen in ljudje začnejo početi nepredvidljive stvari. Kar je vedno tako. 🙂
Pogosta vprašanja
Kateri je prvi korak pri ocenjevanju modelov umetne inteligence za resnični izdelek?
Začnite z opredelitvijo, kaj pomeni »dobro« za vaš specifični primer uporabe. Navedite cilj uporabnika, koliko vas stanejo napake (nizki v primerjavi z visokimi tveganji) in kje se bo model izvajal (v oblaku, na napravi, regulirano okolje). Nato naštejte stroge omejitve, kot so zakasnitev, stroški, zasebnost in nadzor tonov. Brez te osnove boste veliko merili in še vedno sprejeli slabo odločitev.
Kako zgradim testni nabor, ki resnično odraža moje uporabnike?
Zgradite nabor testov, ki je resnično vaš, ne le javno merilo uspešnosti. Vključite zlate primere, ki bi jih ponosno objavili, ter hrupne, nekonvencionalne pozive s tipkarskimi napakami, polstavki in dvoumnimi zahtevami. Dodajte robne primere in sonde za napake, ki vzbujajo halucinacije ali nevarne odgovore. Zajemajte raznolikost v stopnji znanja, narečjih, jezikih in domenah, da se rezultati v produkciji ne bodo sesuli.
Katere meritve naj uporabim in katere so lahko zavajajoče?
Metrike uskladite z vrsto naloge. Natančno ujemanje in natančnost dobro delujeta za ekstrakcijo in strukturirane izhode, medtem ko natančnost/priklic in F1 pomagata, kadar je spregledanje nečesa hujše od dodatnega šuma. Metrike prekrivanja, kot sta BLEU/ROUGE, lahko zavajajo pri odprtih nalogah, vdelava podobnosti pa lahko nagradi »napačne, a podobne« odgovore. Za pisanje, podporo ali sklepanje združite metrike s človeškim pregledom in stopnjami uspešnosti nalog.
Kako naj strukturiram evalvacije, da bodo ponovljive in produkcijske?
Trden okvir za evalvacijo je ponovljiv, reprezentativen, večplasten in izvedljiv. Združite avtomatizirana preverjanja (format, veljavnost JSON, osnovna pravilnost) z ocenjevanjem s človeškimi rubrikami in kontradiktornimi testi. Zagotovite ga odpornega pred nedovoljenimi posegi tako, da se izognete uhajanju podatkov in »učite testu«. Pri evalvaciji upoštevajte stroške, da jo lahko pogosto ponavljate, ne le enkrat pred izdajo.
Kateri je najboljši način za človeško ocenjevanje, ne da bi se to spremenilo v kaos?
Uporabite konkretno rubriko, da se ocenjevalci ne bodo preveč poigravali. Ocenjujte atribute, kot so pravilnost, popolnost, jasnost, varnost/upoštevanje politik, slog/ujemanje glasu in zvestoba (ne izmišljanje trditev ali virov). Občasno preverjajte soglasje med ocenjevalci; če se ocenjevalci nenehno ne strinjajo, je verjetno treba rubriko izboljšati. Človeški pregled je še posebej dragocen pri neskladju tona, subtilnih dejanskih napakah in neupoštevanju navodil.
Kako ocenim varnost, robustnost in tveganja takojšnjega injiciranja?
Preizkusite z vnosi »uf, uporabniki«: tipkarske napake, sleng, nasprotujoča si navodila, zelo dolgi ali zelo kratki pozivi in večkratne spremembe ciljev. Vključite poskuse vstavljanja pozivov, kot je »prezri prejšnja pravila«, in občutljive teme, ki zahtevajo previdne zavrnitve. Dobra varnostna učinkovitost ni samo zavrnitev – gre za jasno zavrnitev, ponujanje varnejših alternativ, kadar je to primerno, in izogibanje pretiranemu zavrnitvi neškodljivih poizvedb, ki škodujejo uporabniški izkušnji.
Kako ocenim stroške in zakasnitev na način, ki ustreza realnosti?
Ne merite samo povprečij – spremljajte porazdelitev latence, zlasti p95 in p99. Ocenite stroške na uspešno nalogo, ne stroškov na žeton ločeno, saj lahko ponovni poskusi in neenakomerni izhodi izničijo prihranke. Preizkusite stabilnost pod obremenitvijo (časovne omejitve, omejitve hitrosti, konice) in zanesljivost klicev orodij/funkcij. Nekoliko slabši model, ki je dvakrat hitrejši ali stabilnejši, je lahko boljša izbira izdelka.
Kakšen je preprost celovit potek dela za ocenjevanje modelov umetne inteligence?
Določite merila za uspeh in omejitve, nato pa ustvarite majhen osnovni nabor testov (približno 50–200 primerov), ki odraža dejansko uporabo. Dodajte robne in kontradiktorne nabore za varnost in poskuse vbrizgavanja. Izvedite avtomatizirana preverjanja, nato pa vzorčite izhode za ocenjevanje po človeških kriterijih. Primerjajte kakovost glede na stroške glede na zakasnitev glede na varnost, preizkusite z omejenim uvajanjem ali A/B testom in spremljajte produkcijo glede odklonov in regresij.
Kateri so najpogostejši načini, kako se ekipe pri vrednotenju modelov pomotoma zavedejo?
Pogoste pasti vključujejo optimizacijo pozivov za doseganje najboljših rezultatov, medtem ko uporabniki trpijo, uhajanje pozivov za ocenjevanje v podatke za usposabljanje ali fino nastavitev in čaščenje ene same metrike, ki ne odraža vrednosti za uporabnika. Ekipe prav tako ignorirajo premik v distribuciji, preveč indeksirajo »pametnost« namesto skladnosti s formatom in zvestobe ter preskočijo testiranje kakovosti zavrnitve. Demo različice lahko te težave prikrijejo, zato se zanašajte na strukturirane ocene in ne na vrhunce.
Reference
-
OpenAI - Vodnik po evalacijah OpenAI - platform.openai.com
-
Nacionalni inštitut za standarde in tehnologijo (NIST) - Okvir za upravljanje tveganj umetne inteligence (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (repozitorij GitHub) - github.com
-
scikit-learn - za natančnost_recall_fscore - scikit-learn.org
-
Združenje za računalniško jezikoslovje (ACL Anthology) - BLEU - aclanthology.org
-
Združenje za računalniško jezikoslovje (ACL Anthology) - ROUGE - aclanthology.org
-
arXiv - G-Eval - arxiv.org
-
OWASP - LLM01: Takojšnje vbrizgavanje - owasp.org
-
OWASP - OWASP Top 10 za aplikacije velikih jezikovnih modelov - owasp.org
-
Univerza Stanford - Kohavi in drugi, »Nadzorovani poskusi na spletu« - stanford.edu
-
arXiv - Vrednotenje RAG: Anketa - arxiv.org
-
PubMed Central (PMC) - Raziskava o konceptualnem drsenju (PMC) - nih.gov
-
PubMed Central (PMC) - McHugh o Cohenovi kappi - nih.gov
-
Google - Delovni zvezek SRE o spremljanju - google.workbook