Hvordan store sprogmodeller bygges og optimeres
Når brugere interagerer med ChatGPT Dansk eller andre sprogmodeller, sker der en omfattende proces under overfladen. Det der opleves som en øjeblikkelig samtale, er resultatet af måneder af træning på hundredvis af terabytes tekstdata, milliarder af parametre justeret gennem komplekse beregninger, og arkitekturer designet til at forstå sammenhænge på tværs af lange tekstsekvenser. At bygge en sprogmodel handler ikke om at programmere eksplicitte regler for hvordan sprog fungerer, men om at lade et neuralt netværk lære mønstre ved at blive eksponeret for enorme datamængder.
Tre faser former modellens evner
Træning af store sprogmodeller foregår ikke i ét trin, men gennem tre forskellige faser der hver bidrager til modellens endelige præstation. Den første fase kaldes præ-træning og involverer selvovervåget læring. Modellen får vist enorme mængder uannoteret tekst og lærer at forudsige næste ord i en sætning baseret på konteksten fra de foregående ord. Denne proces kræver ingen menneskelig mærkning af data, hvilket gør det muligt at bruge massive tekstkilder som bøger, hjemmesider, videnskabelige artikler og kodebiblioteker. Gennem denne langvarige fase lærer modellen sprogets grundlæggende struktur, grammatik og mønstre.
Den anden fase er instruktionsfinjustering, hvor modellen trænes med superviseret læring til at følge specifikke instrukser. Her bliver menneskeskabte eksempler brugt til at lære modellen hvordan den skal respondere præcist på forskellige typer spørgsmål og opgaver.
Den tredje fase anvender forstærkningslæring baseret på menneskelig feedback, en teknik der forfiner modellens adfærd. Data-annotatorer vurderer forskellige output og skelner mellem bedre og dårligere svar. Denne feedback bruges til at træne en belønningsmodel, som guider den store sprogmodel mod at producere mere ønskede responser og undgå problematisk indhold.
Skala og beregningskraft
Transformer-arkitekturen, som ligger til grund for modeller som GPT-4, består af flere centrale komponenter der arbejder sammen. Den mest betydningsfulde er self-attention mekanismen, der tillader modellen at vurdere vigtigheden af forskellige dele af inputsekvensen og dermed fange komplekse sammenhænge og afhængigheder i sproget på tværs af store afstande. Tekstinput bliver først konverteret til numeriske repræsentationer kaldet embeddings, som fanger semantiske og syntaktiske betydninger af ordene.
Moderne sprogmodeller består af milliarder eller endda billioner af parametre, hvor parametrene repræsenterer de vægte modellen har lært under træning. GPT-4 blev trænet til en omkostning på over 100 millioner dollars, hvilket illustrerer den ekstreme beregningskraft og infrastruktur der kræves.
Træning fordeles typisk over hundreder af GPU’er gennem teknikker som data-parallelisme, pipeline-parallelisme og tensor-parallelisme. Data-parallelisme deler træningsdata over flere modeller, pipeline-parallelisme fordeler forskellige lag af modellen på separate GPU’er, og tensor-parallelisme splitter enkelte lag over mange GPU’er når selv én GPU ikke kan rumme dem.






