Kako bo umetna inteligenca vplivala na vlogo podatkovnih inženirjev?

Umetna inteligenca bo preoblikovala vloge podatkovnega inženiringa z avtomatizacijo ponavljajočih se nalog, kot sta priprava osnutkov in dokumentacija SQL. Vendar pa bodo visoke odgovornosti, kot sta definiranje podatkovnih pogodb in upravljanje kakovosti podatkov, še vedno zahtevale človeško znanje.

Katere dele podatkovnega inženiringa lahko umetna inteligenca avtomatizira?

Umetna inteligenca blesti pri avtomatizaciji nalog, kot so generiranje kode SQL, ustvarjanje ogrodja modelov DBT in priprava osnutkov dokumentacije. To inženirjem pomaga učinkoviteje začeti projekte, vendar je za zagotavljanje natančnosti še vedno potrebna človeška validacija.

Ali bodo podatkovni inženirji z vzponom umetne inteligence postali odvečni?

Čeprav so nekatere naloge morda avtomatizirane, se vloga podatkovnih inženirjev razvija in ne izginja. Inženirji se bodo bolj osredotočali na načrtovanje sistemov, odgovornost in upravljanje, zaradi česar bodo bolj dragoceni, saj umetna inteligenca pomaga poenostaviti osnovne naloge.

Zakaj je človeški nadzor še vedno pomemben pri umetni inteligenci v podatkovnem inženirstvu?

Človeški nadzor je ključnega pomena, saj podatkovno inženirstvo pogosto vključuje dvoumno poslovno logiko in odgovornost za rezultate. Umetna inteligenca lahko pomaga pri pripravi rešitev, vendar ne more v celoti obvladati kompleksnosti upravljanja podatkov in skladnosti s predpisi.

Katere veščine bodo bistvene za podatkovne inženirje, ko bodo orodja umetne inteligence dozorela?

Ključne veščine bodo vključevale načrtovanje sistemov, inženiring kakovosti podatkov, opredelitev podatkovnih pogodb in učinkovito komunikacijo. Ta področja so ključnega pomena za zagotavljanje zanesljivosti in skladnosti, saj umetna inteligenca opravlja bolj rutinske naloge.

Kako lahko umetna inteligenca izboljša sodelovanje med podatkovnimi inženirji in drugimi ekipami?

Umetna inteligenca lahko poenostavi tehnične rezultate, kar omogoča podatkovnim inženirjem učinkovitejše sodelovanje z ekipami za izdelke, varnost in finance. Ta premik omogoča podatkovnim inženirjem, da se osredotočijo na razpravo o standardih in pričakovanjih kakovosti in ne le na kodiranje.

S katerimi izzivi se sooča umetna inteligenca pri podatkovnem inženirstvu?

Umetna inteligenca se težko spopada z dvoumnimi definicijami in upravljanjem kompleksnih odnosov v poslovni logiki. Zaradi nezmožnosti kritičnega mišljenja ali pogajanja o definicijah ostajajo človeški inženirji nepogrešljivi.

Kako naj se podatkovni inženirji lotijo uporabe orodij umetne inteligence, kot je GitHub Copilot?

Podatkovni inženirji bi morali orodja umetne inteligence uporabljati kot osnutke za izboljšanje svojega dela, hkrati pa ohranjati stroge konvencije za potrjevanje in upravljanje. To vključuje zagotavljanje, da rezultati izpolnjujejo standarde kakovosti in so skladni z organizacijskimi politikami.

Bo umetna inteligenca nadomestila podatkovne inženirje? [Video in kviz]

Kratek odgovor: Umetna inteligenca ne bo v celoti nadomestila podatkovnih inženirjev; avtomatizirala bo ponavljajoča se dela, kot so osnutki SQL-a, izdelava ogrodja cevovoda, testiranje in dokumentacija. Če je vaša vloga večinoma delo z nizkim lastništvom in na podlagi zahtevkov, je bolj izpostavljena; če ste lastnik zanesljivosti, definicij, upravljanja in odzivanja na incidente, vas umetna inteligenca predvsem pospeši.

Ključne ugotovitve:

Odgovornost: Dajte prednost odgovornosti za rezultate, ne le hitremu ustvarjanju kode.

Kakovost: Izdelajte teste, opazovalnost in pogodbe, da bodo cevovodi ostali zaupanja vredni.

Upravljanje: Zasebnost, nadzor dostopa, hramba in revizijske sledi naj ostanejo v lasti ljudi.

Odpornost proti zlorabi: Izhode umetne inteligence obravnavajte kot osnutke; pregledajte jih, da se izognete samozavestnim napakam.

Sprememba vlog: Porabite manj časa za tipkanje standardnih predlog in več časa za oblikovanje vzdržljivih sistemov.

Bo umetna inteligenca nadomestila podatkovne inženirje? Infografika

Če ste več kot pet minut preživeli v družbi podatkovnih ekip, ste že slišali refren – včasih zašepetan, včasih izrečen na sestanku kot preobrat v zgodbi: Ali bo umetna inteligenca nadomestila podatkovne inženirje?

In ... razumem. Umetna inteligenca lahko generira SQL, gradi cevovode, razlaga sledi skladov, riše DBT modele in celo predlaga sheme skladišč z zaskrbljujočo samozavestjo. GitHub Copilot za SQL O DBT modelih GitHub Copilot
Občutek je, kot da bi opazovali viličar, ki se uči žonglirati. Impresivno, rahlo zaskrbljujoče in nisi povsem prepričan, kaj to pomeni za tvoje delo 😅

Toda resnica je manj pregledna kot naslov. Umetna inteligenca popolnoma spreminja podatkovno inženirstvo. Avtomatizira dolgočasne, ponovljive dele. Pospešuje trenutke »vem, kaj hočem, vendar se ne morem spomniti sintakse«. Prav tako ustvarja povsem nove vrste kaosa.

Torej, razporedimo stvari pravilno, brez optimizma, ki bi ga povzročali valovi rok, ali panike, ki bi jo pričakovali zaradi pogube.

Članki, ki jih boste morda želeli prebrati po tem:

🔗 Bo umetna inteligenca nadomestila radiologe?
Kako umetna inteligenca za slikanje spreminja potek dela, natančnost in prihodnje vloge.

🔗 Bo umetna inteligenca nadomestila računovodje?
Oglejte si, katere računovodske naloge umetna inteligenca avtomatizira in katere ostajajo človeške.

🔗 Bo umetna inteligenca nadomestila investicijske bankirje?
Razumeti vpliv umetne inteligence na posle, raziskave in odnose s strankami.

🔗 Bo umetna inteligenca nadomestila zavarovalne agente?
Spoznajte, kako umetna inteligenca spreminja zavarovanje, prodajo in podporo strankam.

Zakaj se vprašanje "umetna inteligenca nadomešča podatkovne inženirje" vedno znova pojavlja 😬

Strah izvira iz zelo specifičnega razloga: podatkovno inženirstvo vključuje veliko ponovljivega dela.

Pisanje in refaktoriranje SQL-a
Gradnja skriptov za vstavljanje
Preslikava polj iz ene sheme v drugo
Ustvarjanje testov in osnovne dokumentacije
Odpravljanje napak v cevovodu, ki so ... nekako predvidljive

Umetna inteligenca je nenavadno dobra pri ponovljivih vzorcih. In del podatkovnega inženiringa je prav to – vzorci, zloženi na vzorce. Predlogi kode za GitHub Copilot

Tudi ekosistem orodij že "skriva" kompleksnost:

Upravljani konektorji ELT Dokumentacija Fivetran
Brezstrežniško računalništvo AWS Lambda (brezstrežniško računalništvo)
Oskrba skladišča z enim klikom
za orkestracijo samodejnega skaliranja Apache Airflow
Okviri deklarativne transformacije Kaj je DBT?

Ko se torej pojavi umetna inteligenca, se lahko zdi kot zadnji del. Če je sklad že abstrahiran in lahko umetna inteligenca napiše kodo za povezovanje ... kaj ostane? 🤷

Ampak ljudje spregledajo eno stvar: podatkovno inženirstvo ni predvsem tipkanje. Tipkanje je lažji del. Težji del je, da se motna, politična, spreminjajoča se poslovna realnost obnaša kot zanesljiv sistem.

In umetna inteligenca se še vedno bori s to zmedo. Tudi ljudje se borijo – le bolje improvizirajo.

Kaj podatkovni inženirji dejansko počnejo ves dan (neglamurozna resnica) 🧱

Bodimo odkriti – naziv delovnega mesta »inženir podatkov« zveni, kot da iz čiste matematike gradite raketne motorje. V praksi pa gradite zaupanje.

Tipičen dan je manj "izumljanja novih algoritmov" in več:

Pogajanja z nadrejenimi ekipami o definicijah podatkov (boleče, a nujno)
Preiskovanje, zakaj se je metrika spremenila (in ali je to resnična sprememba)
Obravnavanje premika sheme in presenečenj »nekdo je ob polnoči dodal stolpec«
Zagotavljanje idempotentnosti, obnovljivosti in opazovalnosti cevovodov
Ustvarjanje varovalnih ograj, da analitiki na nižji stopnji ne bi pomotoma zgradili nesmiselnih nadzornih plošč
Upravljanje stroškov, da se vaše skladišče ne spremeni v ogenj denarja 🔥
Zagotavljanje dostopa, revidiranje, skladnost, politike hrambe Načela GDPR (Evropska komisija) Omejitev shranjevanja (ICO)
Izdelava podatkovnih izdelkov, ki jih ljudje dejansko lahko uporabljajo, ne da bi vam morali pisati v zasebno sporočilo. 20 vprašanj

Velik del dela je socialen in operativni:

"Čigava je ta miza?"
"Ali je ta definicija še vedno veljavna?"
»Zakaj CRM izvaža podvojene datoteke?«
»Ali lahko to metriko pošljemo vodstvu brez zadrege?« 😭

Umetna inteligenca lahko pri tem pomaga, seveda. Vendar pa je njena popolna zamenjava ... pretežka.

Kaj naredi močno različico delovnega mesta podatkovnega inženirja? ✅

Ta razdelek je pomemben, ker pogovori o nadomeščanju običajno predpostavljajo, da so podatkovni inženirji predvsem »graditelji cevovodov«. To je podobno, kot če bi predpostavili, da kuharji predvsem »sekajo zelenjavo«. To je del dela, vendar ni to delo.

Močna različica podatkovnega inženirja običajno pomeni, da lahko naredi večino od tega:

Oblikovanje za spremembe
Podatki se spreminjajo. Ekipe se spreminjajo. Orodja se spreminjajo. Dober inženir gradi sisteme, ki se ne sesujejo vsakič, ko realnost kihne 🤧
Definirajte pogodbe in pričakovanja
Kaj pomeni »stranka«? Kaj pomeni »aktiven«? Kaj se zgodi, ko vrstica prispe pozno? Pogodbe preprečujejo kaos bolj kot domiselna koda. Standard pogodb o odprtih podatkih (ODCS) ODCS (GitHub)
V vse vgradite opazovalnost.
Ne le »ali je delovalo«, ampak »ali je delovalo pravilno«. Svežost, anomalije količine, eksplozije ničelnih vrednosti, premiki v porazdelitvi. Opazovalnost podatkov (Dynatrace) Kaj je opazovalnost podatkov?
Sklepajte kompromise kot odrasli:
hitrost proti pravilnosti, stroški proti zakasnitvi, prilagodljivost proti preprostosti. Ni popolnega cevovoda, obstajajo samo cevovodi, s katerimi lahko živite.
Prevedite poslovne potrebe v trpežne sisteme
Ljudje sprašujejo po metrikah, vendar potrebujejo podatkovni izdelek. Umetna inteligenca lahko napiše kodo, vendar ne more čarobno poznati poslovnih min.
Naj bodo podatki tiho
Najvišja pohvala za podatkovno platformo je, da o njej nihče ne govori. Nenavadni podatki so dobri podatki. Kot vodovod. Opaziš jih šele, ko odpove 🚽

Če počnete te stvari, se vprašanje »Ali bo umetna inteligenca nadomestila podatkovne inženirje?« začne slišati ... nekoliko nenavadno. Umetna inteligenca lahko nadomesti naloge, ne pa lastništva.

Kjer umetna inteligenca že pomaga podatkovnim inženirjem (in to je resnično super) 🤖✨

Umetna inteligenca ni samo trženje. Če jo uporabljamo dobro, je legitimni multiplikator moči.

1) Hitrejše delo z SQL in transformacijami

Risanje kompleksnih spojev
Pisanje okenskih funkcij, o katerih raje ne bi razmišljali
Pretvorba logike preprostega jezika v okostja poizvedb
Preoblikovanje grdih poizvedb v berljive CTE-je GitHub Copilot za SQL

To je izjemno pomembno, saj zmanjša učinek »prazne strani«. Še vedno morate preveriti veljavnost, vendar začnete pri 70 % namesto pri 0 %.

2) Odpravljanje napak in drobtine korenskih vzrokov

Umetna inteligenca je dobra v:

Razlaga sporočil o napakah
Predlog, kje iskati
Priporočanje korakov tipa »preveri neusklajenost sheme« GitHub Copilot
To je kot imeti neutrudnega mlajšega inženirja, ki nikoli ne spi in včasih samozavestno laže 😅

3) Obogatitev dokumentacije in kataloga podatkov

Samodejno ustvarjeno:

Opisi stolpcev
Povzetki modelov
Pojasnila o rodovništvu
»Za kaj se uporablja ta tabela?« osnuje dokumentacijo za DBT.

Ni popolno, vendar odpravlja prekletstvo nedokumentiranih cevovodov.

4) Preizkus odra in pregledi

Umetna inteligenca lahko predlaga:

Osnovni ničelni testi
Preverjanja edinstvenosti
Ideje o referenčni integriteti
Trditve v slogu »Ta metrika se nikoli ne sme zmanjšati«, testi podatkov DBT, Velika pričakovanja: Pričakovanja

Spet - še vedno se odločaš, kaj je pomembno, ampak to pospeši rutinske dele.

5) Koda za "lepljenje" cevovoda

Predloge za konfiguracijo, YAML odri, osnutki orkestracije DAG. Te stvari so ponavljajoče se in umetna inteligenca poje ponavljajoče se za zajtrk 🥣 Apache Airflow DAG-i

Kjer se umetna inteligenca še vedno muči (in to je bistvo tega) 🧠🧩

To je najpomembnejši del, saj odgovarja na vprašanje zamenjave s pravo teksturo.

1) Dvoumnost in spreminjajoče se definicije

Poslovna logika je redko jasna. Ljudje si sredi stavka premislijo. »Aktivni uporabnik« postane »aktivni plačljivi uporabnik«, nato »aktivni plačljivi uporabnik brez vračil, razen včasih« ... veste, kako je.

Umetna inteligenca si ne more lastiti te dvoumnosti. Lahko le ugiba.

2) Odgovornost in tveganje

Ko se cevovod pokvari in nadzorna plošča izvajalca prikazuje neumnosti, mora nekdo:

triaža
komuniciranje vpliva
popravi
preprečiti ponovitev
napiši obdukcijo
odločiti, ali lahko podjetje še vedno zaupa številkam prejšnjega tedna

Umetna inteligenca lahko pomaga, vendar ne more biti smiselno odgovorna. Organizacije ne delujejo na podlagi vibracij – delujejo na podlagi odgovornosti.

3) Sistemsko razmišljanje

Podatkovne platforme so ekosistemi: vnos, shranjevanje, transformacije, orkestracija, upravljanje, nadzor stroškov, SLA. Sprememba v eni plasti se kaže kot valovanje. Koncepti Apache Airflow

Umetna inteligenca lahko predlaga lokalne optimizacije, ki povzročajo globalno bolečino. To je kot popraviti škripajoča vrata z odstranitvijo le-teh 😬

4) Varnost, zasebnost, skladnost

Tu se fantazije o zamenjavi ustavijo.

Nadzor dostopa
Varnost na ravni vrstic Pravilniki za dostop do vrstic Snowflake Varnost na ravni vrstic BigQuery
Okvir za zasebnost NIST za ravnanje z osebnimi podatki
Pravila hrambe Omejitev shranjevanja (ICO) Smernice EU o hrambi
Revizijske sledi NIST SP 800-92 (upravljanje dnevnikov) CIS Control 8 (upravljanje revizijskih dnevnikov)
Omejitve shranjevanja podatkov

Umetna inteligenca lahko oblikuje politike, vendar je njihovo varno izvajanje pravi inženiring.

5) »Neznane neznanke«

Incidenti v zvezi s podatki so pogosto nepredvidljivi:

API prodajalca tiho spreminja semantiko
Predpostavka o časovnem pasu se spremeni
Zapolnitev podvoji particijo
Mehanizem ponovnega poskusa povzroča dvojno pisanje
Nova funkcija izdelka uvaja nove vzorce dogodkov

Umetna inteligenca je šibkejša, kadar situacija ni znan vzorec.

Primerjalna tabela: kaj kaj zmanjšuje v praksi 🧾🤔

Spodaj je praktičen pogled. Ne gre za »orodja, ki nadomeščajo ljudi«, temveč za orodja in pristope, ki zmanjšujejo obseg določenih nalog.

Orodje / pristop	Občinstvo	Cena	Zakaj deluje
Kopiloti kode umetne inteligence (pomočniki SQL + Python) GitHub Copilot	Inženirji, ki pišejo veliko kode	Od brezplačnega do plačljivega	Odličen pri gradnji odrov, refaktoriranju, sintaksi ... včasih samozadovoljen na zelo specifičen način
Upravljani ELT konektorji Fivetran	Ekipe so utrujene od gradnje vnosa podatkov	Naročnina-y	Odstrani težave pri vnosu po meri, vendar se prekine na zabavne nove načine
Platforme za opazovanje podatkov Opazovanje podatkov (Dynatrace)	Vsakdo, ki ima SLA-je	Srednje veliko do veliko podjetje	Zgodaj zazna anomalije - kot so detektorji dima za cevovode 🔔
Transformacijski ogrodji (deklarativno modeliranje) dbt	Hibridi analitike in razvojne platforme	Običajno orodje + izračun	Logiko naredi modularno in preizkušljivo, manj špagetov
Katalogi podatkov + semantične plasti dbt Semantična plast	Organizacije z zmedo glede metrik	Odvisno, v praksi	Enkrat definira »resnico« – zmanjšuje neskončne metrične razprave
Orkestracija s predlogami Apache Airflow	Platformarsko usmerjene ekipe	Stroški odprtja + delovanja	Standardizira delovne procese; manj DAG-ov v obliki snežinke
Generiranje dokumentacije DBT s pomočjo umetne inteligence	Ekipe, ki sovražijo pisanje dokumentov	Poceni do zmerno	Izdeluje "dovolj dobre" dokumente, da znanje ne izgine
Pravilniki o avtomatiziranem upravljanju Okvir za zasebnost NIST	Regulirana okolja	Podjetniško	Pomaga pri uveljavljanju pravil – vendar še vedno potrebuje ljudi, da pravila oblikujejo

Bodite pozorni na to, kaj manjka: vrstica z napisom »pritisnite gumb za odstranitev podatkovnih inženirjev«. Ja ... ta vrstica ne obstaja 🙃

Torej ... bo umetna inteligenca nadomestila podatkovne inženirje ali pa bo le spremenila njihovo vlogo? 🛠️

Tukaj je nedramatičen odgovor: umetna inteligenca bo nadomestila dele delovnega procesa, ne pa poklica.

Ampak to bo preoblikovalo vlogo. In če to ignorirate, boste občutili pritisk.

Kaj se spremeni:

Manj časa za pisanje standardnega besedila
Manj časa za iskanje dokumentov
Več časa za pregledovanje, potrjevanje in oblikovanje
Več časa za opredelitev pogodb in pričakovanj glede kakovosti Standard odprtih podatkov o pogodbah (ODCS)
Več časa za partnerstvo pri izdelkih, varnosti in financah

To je subtilen premik: podatkovno inženirstvo se manj osredotoča na »gradnjo cevovodov« in bolj na »gradnjo zanesljivega sistema podatkovnih izdelkov«

In v tihem preobratu je to bolj dragoceno, ne manj.

Prav tako – in to bom rekel, četudi se sliši dramatično – umetna inteligenca povečuje število ljudi, ki lahko ustvarjajo podatkovne artefakte, kar povečuje potrebo po nekom, ki bo skrbel za razumnost celotne zadeve. Večja količina rezultatov pomeni večjo morebitno zmedo. GitHub Copilot

To je kot da bi vsem dali vrtalnik. Super! Zdaj mora nekdo uveljaviti pravilo "prosim, ne vrtajte v vodovodno cev" 🪠

Nov nabor znanj in spretnosti, ki ostaja dragocen (tudi ko je umetna inteligenca povsod) 🧠⚙️

Če želite praktičen kontrolni seznam, ki je »varen za prihodnost«, je videti takole:

Miselnost sistemskega načrtovanja

Modeliranje podatkov, ki preživi spremembe
Kompromisi med paketnim in pretočnim predvajanjem
Razmišljanje o zakasnitvi, stroških in zanesljivosti

Inženiring kakovosti podatkov

Pogodbe, validacije, odkrivanje anomalij, standard pogodb o odprtih podatkih (ODCS), opazovanje podatkov (Dynatrace).
SLA, SLO, navade odzivanja na incidente
Analiza temeljnih vzrokov z disciplino (ne z vibracijami)

Upravljanje in arhitektura zaupanja

Vzorci dostopa
Revidabilnost NIST SP 800-92 (upravljanje dnevnikov)
Okvir zasebnosti NIST
Smernice EU o hrambi podatkov za upravljanje življenjskega cikla

Platformno razmišljanje

Predloge za večkratno uporabo, zlate poti
Standardizirani vzorci za vnos, transformacije, testiranje podatkovnih testov Fivetran dbt
Samopostrežno orodje, ki se ne stopi

Komunikacija (ja, resno)

Pisanje jasnih dokumentov
Usklajevanje definicij
Reči "ne" vljudno, a odločno
Razlaga kompromisov, ne da bi se slišal kot robot 🤖

Če vam to uspe, postane vprašanje »Ali bo umetna inteligenca nadomestila podatkovne inženirje?« manj zaskrbljujoče. Umetna inteligenca postane vaš eksoskelet, ne vaša zamenjava.

Realistični scenariji, kjer se nekatere vloge v podatkovnem inženirstvu zmanjšajo 📉

Okej, hiter pregled realnosti, saj ni vse samo sonce in konfeti s emojiji 🎉

Nekatere vloge so bolj izpostavljene:

Čiste vloge samo za vnašanje, kjer je vse standardno, konektorji Fivetran konektorji
Ekipe, ki večinoma izvajajo ponavljajoče se poročanje z minimalnimi domenskimi niansami
Organizacije, kjer se podatkovno inženirstvo obravnava kot "SQL opice" (ostro, a resnično)
Vloge z nizkim deležem lastništva, kjer je delo le izpolnjevanje zahtevkov in kopiranje/prilepljanje

Umetna inteligenca in upravljana orodja lahko zmanjšajo te potrebe.

Toda tudi tam zamenjava običajno izgleda takole:

Manj ljudi opravlja isto ponavljajoče se delo
Večji poudarek na lastništvu in zanesljivosti platforme
Premik k ideji »ena oseba lahko podpira več cevovodov«

Torej, da – vzorci števila zaposlenih se lahko spreminjajo. Vloge se razvijajo. Nazivi se spreminjajo. Ta del je resničen.

Kljub temu pa različica vloge z visoko stopnjo lastništva in visokim zaupanjem ostaja.

Zaključni povzetek 🧾✅

Bo umetna inteligenca nadomestila podatkovne inženirje? Ne na čist in popoln način, kot si ljudje predstavljajo.

Umetna inteligenca bo:

avtomatizirajte ponavljajoča se opravila
pospešite kodiranje, odpravljanje napak in dokumentacijo GitHub Copilot za dokumentacijo SQL dbt
zmanjšati stroške izdelave cevovodov

Toda podatkovno inženirstvo je v osnovi namenjeno:

odgovornost
zasnova sistema
zaupanje, kakovost in upravljanje Standard pogodb o odprtih podatkih (ODCS) Okvir zasebnosti NIST
pretvarjanje nejasne poslovne realnosti v zanesljive podatkovne izdelke

Umetna inteligenca lahko pri tem pomaga ... vendar tega ne "obvlada".

Če ste podatkovni inženir, je poteza preprosta (ne lahka, ampak preprosta):
osredotočite se na lastništvo, kakovost, platformsko razmišljanje in komunikacijo. Naj umetna inteligenca poskrbi za osnovno zasnovo, vi pa se ukvarjajte z deli, ki so pomembni.

In ja - včasih to pomeni biti odrasel v sobi. Ni glamurozno. Ampak tiho močno 😄

Bo umetna inteligenca nadomestila podatkovne inženirje?
Nadomestila bo nekatere naloge, preuredila hierarhijo in naredila najboljše podatkovne inženirje še bolj dragocene. To je prava zgodba.

Primer iz resničnega sveta: Izgradnja delovnega procesa pregleda podatkovnega cevovoda s pomočjo umetne inteligence 🛠️

Scenarij

Predstavljajte si majhno podjetje za e-trgovino z enim podatkovnim inženirjem, dvema analitikoma in zelo znano težavo: finančna nadzorna plošča se vedno znova pokvari, kadar ponudnik plačilnih storitev spremeni ime polja.

Ekipa ne želi, da bi umetna inteligenca »obvladala« cevovod. To bi bilo tvegano. Namesto tega uporabljajo umetno inteligenco kot pomočnika pri prvem osnutku za rutinsko, a pomembno delo: pisanje osnutkov modelov DBT, predlaganje testov, pripravo dokumentacije in ustvarjanje kontrolnega seznama za pregled kode.

Človeški podatkovni inženir je še vedno lastnik končne zasnove, definicij podatkov, pravil dostopa in uvajanja v produkcijo. Umetna inteligenca preprosto pospeši kompleksen srednji del.

Kaj potrebuje delovni tok

Pred uporabo umetne inteligence ji ekipa zagotovi dovolj konteksta, da bi bila koristna:

Obstoječa shema tabele plačil
Definicije ciljnih finančnih metrik, kot so »neto prihodek«, »znesek vračila« in »poravnano plačilo«
Konvencije poimenovanja za modele DBT
Primeri odobrenih testov
Kratka podatkovna pogodba za vir plačil
Pravila za ravnanje z osebnimi podatki, neuspešnimi plačili, dvojniki in pozno prispelimi zapisi
Vzorec preteklih incidentov, vključno s tem, kaj je šlo narobe in kako je bilo odpravljeno

Ključno ni "prosite umetno inteligenco, naj zgradi cevovod". To je preveč nejasno.

Močnejši pristop je: »Tukaj so naša pravila, tukaj je shema, tukaj je pričakovano vedenje. Napišite osnutek nečesa, kar lahko pregledamo.«

Primer navodila

Pomagate pri oblikovanju modela DBT za naše podatke o plačilih. Spodnjo shemo in pravila uporabite za ustvarjanje modela prvega prehoda, predlaganih testov DBT in dokumentacijskih opomb.

Model mora izračunati dnevno poravnane prihodke po order_id in payment_ponudniku. Izključite neuspešna plačila, izključite testne transakcije in odštejte vračila le, če je refund_status = »confirmed«.

Ne izmišljujte si stolpcev. Če obvezni stolpec manjka, ga namesto ugibanja navedite pod »Vprašanja za človeški pregled«.

Predlagajte tudi teste za edinstvenost, ničelne vrednosti, sprejete vrednosti in razumnost prihodkov. Označite vsako logiko, ki bi lahko vplivala na finančno poročanje.

Kako ga preizkusiti

Razumen test je majhen in namerno vsakdanji:

Dajte umetni inteligenci eno znano dobro plačilno shemo in preverite, ali se izogiba izmišljanju polj.
Dajte mu eno shemo z manjkajočim stolpcem refund_status in preverite, ali bo namesto ugibanja postavil vprašanje.
Zaženite generirani SQL v naboru podatkov za pripravljalno uporabo, ne v produkcijskem naboru podatkov.
Izhod primerjajte z 20 ročno preverjenimi plačilnimi zapisi.
Pred združitvijo prosite analitika in podatkovnega inženirja, da pregledata definicije.
Dodajte sprejete teste v CI, da se bo cevovod po uvedbi še naprej preverjal.

Pomembno je, da umetno inteligenco preizkusite na načinih napak, ki se jih najbolj bojite: izmišljeni stolpci, napačna logika prihodkov, manjkajoče obravnavanje vračil in tihe podvojene vrstice.

Rezultat

Ilustrativni rezultat: na podlagi časovnega merjenja treh vzorčnih nalog spremembe cevovoda pred in po uporabi tega poteka dela.

Pred uporabo umetne inteligence je inženir porabil približno 5 ur in 30 minut za vsako spremembo: približno 2 uri je pisal SQL, 1 uro je ustvarjal teste, 45 minut je pisal dokumentacijo, preostanek pa je preverjal robne primere s finančnim oddelkom.

Ker se je umetna inteligenca uporabljala le za prve osnutke, je ista vrsta spremembe trajala približno 2 uri in 10 minut. Največji prihranek je bil dosežen pri testnem odru in osnutkih dokumentacije, kjer se je čas skrajšal z 1 ure in 45 minut na približno 25 minut.

Korak človeškega pregleda je še vedno trajal približno 45 minut in ga ne bi smeli odstraniti.

V tridelnem testu je umetna inteligenca predlagala 18 preverjanj. Inženir jih je sprejel 11, uredil 5 in zavrnil 2, ker so predpostavili, da poslovna pravila niso resnična. To število zavrnitev je pomembno: dokazuje, da je treba potek dela pregledati, ne pa slepega zaupanja.

Kaj lahko gre narobe

Umetna inteligenca lahko naredi cevovod videti bolj popoln, kot je v resnici.

Pogoste točke okvare vključujejo:

Izumljanje kolumn, ki zvenijo verjetno
Obravnavanje vračil, stornacij in neuspešnih plačil kot iste stvari
Težave z manjkajočim časovnim pasom v dnevnem prihodku
Predlaganje generičnih testov, ki ne zaznajo finančnih napak
Pisanje dokumentacije, ki zveni samozavestno, a skriva negotovost
Pozabljanje na pravila zasebnosti, ko vzorčni podatki vsebujejo podatke o strankah

Dobro pravilo: umetna inteligenca lahko pripravi osnutek modela, človek pa mora odobriti definicije, denarno logiko, nadzor dostopa in izdajo za produkcijo.

Praktični nasvet

Dragocena različica umetne inteligence v podatkovnem inženirstvu ni »zamenjava podatkovnega inženirja«. Gre za »odstranitev prazne strani in nato temeljit pregled«.

To pomeni hitrejši SQL, hitrejše teste in boljšo dokumentacijo ob prvem prehodu, medtem ko inženir še vedno odgovarja za najpomembnejši del: ali so podatki pravilni, zaupanja vredni, varni in razložljivi.

Pogosta vprašanja

Bo umetna inteligenca popolnoma nadomestila podatkovne inženirje?

V večini organizacij je bolj verjetno, da bo umetna inteligenca prevzela določene naloge, kot pa da bi vlogo popolnoma odpravila. Lahko pospeši pripravo osnutkov kode SQL, gradnjo cevovodov, prve prehode dokumentacije in ustvarjanje osnovnih testov. Vendar pa podatkovno inženirstvo prinaša tudi lastništvo in odgovornost ter neglamurozno delo, s katerim se neurejena poslovna realnost obnaša kot zanesljiv sistem. Ti deli še vedno potrebujejo ljudi, ki odločajo, kaj je »prav«, in prevzemajo odgovornost, ko se stvari pokvarijo.

Katere dele podatkovnega inženiringa umetna inteligenca že avtomatizira?

Umetna inteligenca se najbolje obnese pri ponovljivem delu: pri pripravi in preoblikovanju SQL-a, ustvarjanju ogrodja modelov DBT, razlagi pogostih napak in izdelavi orisov dokumentacije. Prav tako lahko oblikuje teste, kot so preverjanja ničelnih vrednosti ali edinstvenosti, in ustvari predlogo kode za »lepljenje« za orodja za orkestracijo. Zmaga je zagon – začnete bližje delujoči rešitvi – vendar morate še vedno preveriti pravilnost in zagotoviti, da ustreza vašemu okolju.

Če lahko umetna inteligenca piše SQL in cevovode, kaj potem ostane podatkovnim inženirjem?

Veliko: definiranje podatkovnih pogodb, obravnavanje premika sheme in zagotavljanje, da so cevovodi idempotentni, opazovalni in obnovljivi. Podatkovni inženirji porabijo čas za preučevanje sprememb metrik, gradnjo varovalnih ograj za nadaljnje uporabnike ter upravljanje kompromisov med stroški in zanesljivostjo. Naloga se pogosto zreducira na gradnjo zaupanja in ohranjanje podatkovne platforme »tihe«, kar pomeni, da je dovolj stabilna, da nihče ne rabi razmišljati o njej iz dneva v dan.

Kako umetna inteligenca spreminja vsakodnevno delo podatkovnega inženirja?

Običajno skrajša čas za standardne predloge in »iskanje«, tako da porabite manj časa za tipkanje in več časa za pregledovanje, potrjevanje in oblikovanje. Ta premik premakne vlogo k opredelitvi pričakovanj, standardov kakovosti in vzorcev za večkratno uporabo, namesto da bi vse kodirali ročno. V praksi boste verjetno opravili več partnerskega dela na področju izdelkov, varnosti in financ – ker je tehnični rezultat lažje ustvariti, a težje upravljati.

Zakaj se umetna inteligenca spopada z dvoumnimi poslovnimi definicijami, kot je »aktivni uporabnik«?

Ker poslovna logika ni statična ali natančna – spreminja se sredi projekta in se razlikuje glede na deležnike. Umetna inteligenca lahko pripravi interpretacijo, vendar ne more prevzeti odgovornosti za odločitev, ko se definicije razvijajo ali se pojavijo konflikti. Podatkovno inženirstvo pogosto zahteva pogajanja, dokumentiranje predpostavk in pretvarjanje nejasnih zahtev v trajne pogodbe. To delo »usklajevanja s človeškim bitjem« je ključni razlog, da vloga ne izgine, tudi ko se orodja izboljšujejo.

Ali lahko umetna inteligenca varno upravlja podatke, zagotavlja zasebnost in zagotavlja skladnost s predpisi?

Umetna inteligenca lahko pomaga pri oblikovanju politik ali predlaganju pristopov, vendar varna izvedba še vedno zahteva pravo inženirstvo in skrben nadzor. Upravljanje vključuje nadzor dostopa, ravnanje z osebnimi podatki, pravila hrambe, revizijske sledi in včasih omejitve prebivališča. To so področja z visokim tveganjem, kjer »skoraj pravilno« ni sprejemljivo. Ljudje morajo oblikovati pravila, preverjati izvrševanje in ostati odgovorni za rezultate skladnosti.

Katere veščine ostajajo dragocene za podatkovne inženirje, ko se umetna inteligenca izboljšuje?

Spretnosti, ki zagotavljajo odpornost sistemov: sistemsko načrtovanje, inženiring kakovosti podatkov in standardizacija, osredotočena na platformo. Pogodbe, opazovalnost, navade odzivanja na incidente in disciplinirana analiza temeljnih vzrokov postanejo še pomembnejše, ko lahko več ljudi hitro ustvari podatkovne artefakte. Komunikacija postane tudi diferencialna lastnost – usklajevanje definicij, pisanje jasne dokumentacije in razlaga kompromisov brez drame so pomemben del ohranjanja zaupanja vrednih podatkov.

Katere vloge v podatkovnem inženirstvu so najbolj ogrožene zaradi umetne inteligence in upravljanih orodij?

Vloge, ozko osredotočene na ponavljajoče se vnašanje ali standardne poročevalske cevovode, so bolj izpostavljene, zlasti kadar upravljani ELT konektorji pokrivajo večino virov. Delo z nizkim lastništvom, ki temelji na zahtevah, se lahko zmanjša, ker umetna inteligenca in abstrakcija zmanjšata trud na cevovod. Vendar je to običajno videti kot manj ljudi, ki opravljajo ponavljajoča se opravila, ne pa kot »brez podatkovnih inženirjev«. Vloge z visokim lastništvom, osredotočene na zanesljivost, kakovost in zaupanje, ostajajo trajne.

Kako naj uporabljam orodja, kot sta GitHub Copilot ali dbt z umetno inteligenco, ne da bi pri tem povzročil kaos?

Izhod umetne inteligence obravnavajte kot osnutek, ne kot odločitev. Uporabite ga za ustvarjanje okelja poizvedb, izboljšanje berljivosti ali izdelavo testov in dokumentacije DBT, nato pa ga preverite glede na dejanske podatke in robne primere. Združite ga z močnimi konvencijami: pogodbami, standardi poimenovanja, preverjanji opazovalnosti in praksami pregledovanja. Cilj je hitrejša dostava brez žrtvovanja zanesljivosti, nadzora stroškov ali upravljanja.

Reference

Evropska komisija - Pojasnilo varstva podatkov: načela GDPR - commission.europa.eu
Urad informacijskega pooblaščenca (ICO) - Omejitev shranjevanja - ico.org.uk
Evropska komisija - Kako dolgo se lahko hranijo podatki in ali jih je treba posodabljati? - commission.europa.eu
Nacionalni inštitut za standarde in tehnologijo (NIST) - Okvir zasebnosti - nist.gov
Center za računalniško varnost NIST (CSRC) - SP 800-92: Vodnik za upravljanje dnevnikov računalniške varnosti - csrc.nist.gov
Center za internetno varnost (CIS) - Upravljanje dnevnika revizij (kontrole CIS) - cisecurity.org
Dokumentacija Snowflake - Pravilniki o dostopu do vrstic - docs.snowflake.com
Dokumentacija za Google Cloud – Varnost na ravni vrstic v BigQueryju – docs.cloud.google.com
BITOL - Standard pogodb o odprtih podatkih (ODCS) v3.1.0 - bitol-io.github.io
BITOL (GitHub) - Standard pogodbe o odprtih podatkih - github.com
Apache Airflow - Dokumentacija (stabilna) - airflow.apache.org
Apache Airflow - DAG-i (osnovni koncepti) - airflow.apache.org
Dokumentacija dbt Labs - Kaj je dbt? - docs.getdbt.com
Dokumentacija dbt Labs - O modelih dbt - docs.getdbt.com
Dokumentacija dbt Labs - Dokumentacija - docs.getdbt.com
Dokumentacija dbt Labs - Testi podatkov - docs.getdbt.com
Dokumentacija dbt Labs - Semantični sloj dbt - docs.getdbt.com
Dokumentacija Fivetran - Začetek - fivetran.com
Fivetran - Konektorji - fivetran.com
Dokumentacija AWS - Vodnik za razvijalce AWS Lambda - docs.aws.amazon.com
GitHub - GitHub Copilot - github.com
Dokumentacija GitHub - Pridobivanje predlogov kode v vašem IDE z GitHub Copilot - docs.github.com
Microsoft Learn - GitHub Copilot za SQL (razširitev za VS Code) - learn.microsoft.com
Dokumentacija Dynatrace - Opazljivost podatkov - docs.dynatrace.com
DataGalaxy - Kaj je opazovalnost podatkov? - datagalaxy.com
Dokumentacija o velikih pričakovanjih - Pregled pričakovanj - docs.greatexpectations.io

Poiščite najnovejšo umetno inteligenco v uradni trgovini z umetno inteligenco

O nas

Nazaj na blog