Sprogmodeller: Hemmeligheder bag deres funktion

Når brugere interagerer med ChatGPT Dansk eller andre sprogmodeller, sker der en omfattende proces under overfladen. Det der opleves som en øjeblikkelig samtale, er resultatet af måneder af træning på hundredvis af terabytes tekstdata, milliarder af parametre justeret gennem komplekse beregninger, og arkitekturer designet til at forstå sammenhænge på tværs af lange tekstsekvenser. At bygge en sprogmodel handler ikke om at programmere eksplicitte regler for hvordan sprog fungerer, men om at lade et neuralt netværk lære mønstre ved at blive eksponeret for enorme datamængder.

Tre faser former modellens evner

Træning af store sprogmodeller foregår ikke i ét trin, men gennem tre forskellige faser der hver bidrager til modellens endelige præstation. Den første fase kaldes præ-træning og involverer selvovervåget læring. Modellen får vist enorme mængder uannoteret tekst og lærer at forudsige næste ord i en sætning baseret på konteksten fra de foregående ord. Denne proces kræver ingen menneskelig mærkning af data, hvilket gør det muligt at bruge massive tekstkilder som bøger, hjemmesider, videnskabelige artikler og kodebiblioteker. Gennem denne langvarige fase lærer modellen sprogets grundlæggende struktur, grammatik og mønstre.

Den anden fase er instruktionsfinjustering, hvor modellen trænes med superviseret læring til at følge specifikke instrukser. Her bliver menneskeskabte eksempler brugt til at lære modellen hvordan den skal respondere præcist på forskellige typer spørgsmål og opgaver.

Den tredje fase anvender forstærkningslæring baseret på menneskelig feedback, en teknik der forfiner modellens adfærd. Data-annotatorer vurderer forskellige output og skelner mellem bedre og dårligere svar. Denne feedback bruges til at træne en belønningsmodel, som guider den store sprogmodel mod at producere mere ønskede responser og undgå problematisk indhold.

Skala og beregningskraft

Transformer-arkitekturen, som ligger til grund for modeller som GPT-4, består af flere centrale komponenter der arbejder sammen. Den mest betydningsfulde er self-attention mekanismen, der tillader modellen at vurdere vigtigheden af forskellige dele af inputsekvensen og dermed fange komplekse sammenhænge og afhængigheder i sproget på tværs af store afstande. Tekstinput bliver først konverteret til numeriske repræsentationer kaldet embeddings, som fanger semantiske og syntaktiske betydninger af ordene.

Moderne sprogmodeller består af milliarder eller endda billioner af parametre, hvor parametrene repræsenterer de vægte modellen har lært under træning. GPT-4 blev trænet til en omkostning på over 100 millioner dollars, hvilket illustrerer den ekstreme beregningskraft og infrastruktur der kræves.

Træning fordeles typisk over hundreder af GPU’er gennem teknikker som data-parallelisme, pipeline-parallelisme og tensor-parallelisme. Data-parallelisme deler træningsdata over flere modeller, pipeline-parallelisme fordeler forskellige lag af modellen på separate GPU’er, og tensor-parallelisme splitter enkelte lag over mange GPU’er når selv én GPU ikke kan rumme dem.

Sidste Nyt

Panasonic elektromekaniske sensorer og komponenter forhandles af TME

Minuba og Airtox indgår strategisk partnerskab

Fra hotel til moderne boliger – med Merten M-Pure europamateriel

Tank Blanketing Ventiler

Nu strammes asbest-reglerne igen – Spraystream

Et tilbage blik på året der gik

Weiss Service ønsker Kunder og samarbejdspartnere en rigtig glædelig jul og et godt nytår

Videnskløft bremser AI i dansk produktion

Hvordan store sprogmodeller bygges og optimeres

Er du ved at være frisk på øjenbehandling?

Vi sætter stål på havnefronten i Aalborg

Når driftssikkerheden ikke er til forhandling

Når sikkerhed, tryghed og optimal økonomi går hånd i hånd

Invotec ApS – Invopal

Avidenz – Få inspiration til jeres arbejdsmiljøindsats

ALTOMTEKNIK

Hvordan store sprogmodeller bygges og optimeres

Tre faser former modellens evner

Skala og beregningskraft

Skriv et svar Annuller svar