Model routing: hvorfor valget af Haiku, Sonnet eller Opus er vigtigere end dit prompt

De fleste teams, der begynder med AI i produktion, træffer én beslutning tidligt: de vælger én model og sender alt derhen. Det er forståeligt. Det er enkelt at implementere. Og det er den direkte vej til høje AI-regninger og unødvendig latenstid.

Problemet er ikke, at Claude Opus er for dyr til alt. Problemet er, at Claude Haiku er for billig til ikke at bruge til simple opgaver. Og skellet mellem "simpelt" og "komplekst" er præcis det, de fleste teams ikke har taget stilling til.

Denne artikel handler om at tage den beslutning.

Hvad koster det at route forkert

Lad os starte med tal. Anthropics offentlige priser (pr. april 2026) viser nogenlunde dette mønster:

Claude Haiku: Billigst. Hurtigst. Bedst til klassificering, enkle extractions, formatering, routing-beslutninger og alt, der ikke kræver dybdegående ræsonnement.

Claude Sonnet: Midterklassen. Balancerer kapabilitet og pris. God til de fleste ræsonneringsopgaver, kodeforklaringer, summarier med kontekst og brugervendte svar.

Claude Opus: Dyrest. Kraftigst. Forbeholdt opgaver, der kræver multi-step reasoning, kompleks strategi-analyse, avanceret kodegenerering og nuanceret fortolkning af tvetydige input.

Forskellen i pris mellem Haiku og Opus er typisk en faktor 15-20x pr. token. Det betyder, at én Opus-kald til en opgave, Haiku ville håndtere korrekt, koster det samme som 15-20 Haiku-kald. I et system med hundredvis af daglige AI-kald er det forskellen på en manageable API-regning og en, der overrasker CFO'en.

80% af AI-besparelser i produktion kommer fra korrekt model routing — ikke fra prompt-optimering, caching eller batching. Det er det tiltag, der rykker mest pr. investeret ingeniørtime.

Og så er der latenstiden. Haiku svarer typisk på under et sekund. Opus kan tage 5-10 sekunder på komplekse opgaver. For brugervendte features er den forskel mærkbar.

Haiku: klassificering og enkle extractions

Haiku er den undervurderede model i de fleste teams' setup. Den er lavet til opgaver, der er klart definerede, input-strukturerede og output-forudsigelige.

Konkrete use cases, Haiku håndterer godt:

Sentiment-klassificering: "Er denne kundeanmeldelse positiv, negativ eller neutral?" Et spørgsmål med tre svar. Haiku klarer det på under 500 tokens og under et sekund.

Entity extraction: "Træk virksomhedsnavnet, kontaktpersonen og forfaldsbeløbet ud af denne e-mail." Struktureret output fra ustruktureret tekst. Haiku er hurtig og præcis, når inputtet er relativt ensartet.

Routing-beslutninger: "Skal denne forespørgsel gå til teknisk support, salg eller fakturering?" Klassifikation med et begrænset antal kategorier. Haiku som gateway-model reducerer Opus-brugen med 60-80% i systemer, der har brug for at skelne.

Formatering og transformation: JSON-to-markdown, markdown-to-HTML, strukturering af output fra en anden model, normalisering af datoformater.

Simpel validation: "Er dette et gyldigt CVR-nummer? Er denne adresse formateret korrekt?"

Haiku er ikke god til opgaver, der kræver at holde mange modstridende informationer i spil, forstå subtil kontekst eller producere lang, nuanceret prose. Den hallucinerer mere på tvetydige inputs.

Sonnet: mainstream-ræsonnering

Sonnet er arbejdshesten. Den håndterer størstedelen af de brugervendte AI-kald i et gennemsnitligt enterprise-system.

Kode-forklaring og review: "Hvad gør denne funktion, og er der potentielle fejl?" Sonnet håndterer det effektivt op til 2-3 klasse-dependencies.

Svar på kundeforespørgsler: Support-automatisering med adgang til virksomhedsspecifik kontekst. Sonnet kan holde tråden i en multi-turn samtale og producere svar, der lyder professionelle uden at overtænke simpelt indhold.

Summarier med kontekst: Opsummering af dokumenter, mødereferater, rapporter. Sonnet er god, når outputlængden er defineret, og der ikke kræves selvstændig vurdering af modstridende fakta.

Strategisk analyse, første lag: Første udkast af analyser, der bagefter kvalitetstjekkes. Sonnet som draft-model, Opus (eller mennesker) som reviewer.

Indholdsgenerering: Produktbeskrivelser, marketingtekst, e-mail-udkast. Sonnet er god til at følge en tone-of-voice-guide og producere professionelt output hurtigt.

Den kritiske begrænsning: Sonnet kan ramme grænsen på tvetydige, politisk komplekse eller vidensintensive opgaver. Giv den en opgave, der kræver at se en kontrast over 15 siders input og vurdere implikationerne — det er Opus-territoriet.

Opus: kompleks analyse og nuanceret fortolkning

Opus er den model, du bruger, når det koster noget at tage fejl, og gennemsnitlig output ikke er godt nok.

Strategi-parsing: Analyse af en 60-siders PowerPoint med virksomhedens strategi og extraktion af Playing-to-Win-elementer, strategiske temaer og initiativer — med korrekt håndtering af modstridende signaler og ledelsessprog.

Kompleks kodegenerering: Generering af arkitekturmæssigt korrekt kode, der respekterer eksisterende mønstre og dependencies, fra en specifikation med ufuldstændig information.

Juridisk og compliance-analyse: Fortolkning af regulatory tekst i en specifik kontekst, identifikation af edge cases og generering af anbefalinger, der holdes op mod specifikke kriterier.

Diagnose af komplekse problemer: AI-assisteret fejlsøgning i systemer med mange lag og modstridende signaler — Opus holder tråden bedre og producerer mere pålidelige årsagsanalyser.

Nuanceret indholdsevaluering: Evaluering af om et stykke indhold opfylder mange samtidige kriterier (tone, faktanøjagtighed, brand-compliance, juridiske begrænsninger) og produktion af struktureret feedback.

Brug ikke Opus som default-model. Brug den som specialist.

routeModel()-mønsteret i praksis

Den tekniske implementering er simpel: en routing-funktion, der vælger model baseret på opgavens kompleksitetsparameter.

type Complexity = "simple" | "standard" | "complex"

function routeModel(complexity: Complexity) {
  switch (complexity) {
    case "simple":  return models.haiku
    case "standard": return models.fast   // Sonnet
    case "complex":  return models.deep   // Opus
  }
}

Det kritiske trin er at definere kompleksitet ud fra specifikke kriterier, ikke mavefornemmelse. En pragmatisk tilgang:

Simpelt: Output er klassifikation, extraction eller transformation. Input er struktureret eller semi-struktureret. Fejlrate på Haiku < 2% i evaluering.

Standard: Output kræver ræsonnement eller generering af prose med kontekst. Input kan være ustruktureret. Opgaven er veldefineret men ikke triviel.

Komplekst: Output kræver multi-step reasoning, fortolkning af modstridende information eller høj grad af nuance. Fejlrate på Sonnet > 5% i evaluering. Latenstid er acceptabel.

Det vigtigste princip: routing-beslutningen bør baseres på evaluering, ikke intuition. Kør 50-100 tilfælde igennem Haiku og Sonnet, mål outputkvaliteten, og sæt tærsklen, hvor kvalitetsforringelsen bliver mærkbar.

Evaluerings-metodikken: sådan sætter du tærsklen

Mange teams springer evalueringen over og sætter routing-tærsklerne baseret på mavefornemmelse. Det er dyrt. Den korrekte metode er at bygge et golden dataset.

Et golden dataset er en samling af repræsentative input med human-validerede "korrekte" outputs. For et klassifikationsproblem er det 100-200 eksempler, der er manuelt mærket. For et ræsonneringsproblem er det 30-50 eksempler med tilhørende bedømmelse fra en domæne-ekspert.

Processen:

Saml input fra produktionen — ægte bruger-requests, anonymiserede. Lav 100 eksempler.

Kør alle 100 igennem Haiku og Sonnet uafhængigt. Log output og latenstid.

Bed et team-medlem om at bedømme outputkvaliteten på en 1-5 skala for hvert eksempel, uvidende om hvilken model der producerede det.

Beregn gennemsnitlig score og fejlrate for begge modeller. Find det punkt, hvor Haiku's fejlrate overstiger acceptgrænsen (typisk 3-5%).

Sæt routing-tærsklen baseret på målingen. Dokumentér det i kodekommentaren.

Dette tager en halv dag for et simpelt klassifikationsproblem. Det sparer måneders overprising og gætværk.

Hvad der får routing til at fejle

Tre fejl er hyppigere end andre:

Statisk routing: Alle kald til én funktion bruger samme model, fordi "det var nemmest at implementere." Over tid betyder det enten overkilling af simple opgaver (dyr) eller underdimensionering af komplekse (dårlig output).

Routing baseret på feature-type, ikke input-karakteristika: "Strategi-analyser bruger altid Opus" er et dårligt signal. En simpel strategisk opdatering behøver ikke Opus. En dyb parsing af et tvetydigt dokument gør. Routing bør reagere på det konkrete input, ikke feature-kategorien.

Ingen evaluering: Teams implementerer routing uden at måle, om Haiku faktisk klarer de opgaver, de sender derhen. Haiku hallucinerer på tvetydige inputs og underperformer på kontekstfølsomme opgaver. Evaluer.

Streaming som undskyldning for at undgå routing: Streaming-outputs er sværere at vurdere quality-wise, og det bruges som argument for altid at bruge Opus. Det er forkert. Streaming-calls til Haiku returnerer token-for-token præcis som Opus. Den eneste forskel er latenstid til first token — og Haiku er hurtigere der også.

Kobling til prompt caching og observabilitet

Model routing arbejder i synergi med to andre cost-optimeringer: prompt caching og AI-observabilitet.

Prompt caching reducerer prisen på de kald, der allerede er routet til den rigtige model. Hvis en Sonnet-kald med en lang, statisk system-prompt caches, betaler du 90% mindre på input-tokens. Kombinationen af korrekt routing (Haiku i stedet for Sonnet) og caching (90% rabat på Sonnet-kald) er multiplikativ, ikke additiv.

AI-observabilitet giver dig det datamateriale, du har brug for til at evaluere og forbedre routing over tid. Uden traces ved du ikke, om Haiku faktisk præsterer acceptabelt på de kald, du har sendt derhen. Med traces kan du se fejlrate per model per feature og justere tærsklen baseret på faktiske data.

De tre optimeringer bør implementeres i rækkefølge: routing først, derefter caching, derefter observabilitet. Men de er designet til at fungere som et system.

Hvad gøres i morgen

Model routing er det tiltag med den bedste ROI i de fleste AI-systemer i produktion. Tre skridt til at komme i gang:

Uge 1: Lav en liste over alle AI-kald i produktet. Kategorisér dem som simpelt, standard eller komplekst efter kriterierne ovenfor. Identificér de kald, der bruger Opus men sandsynligvis kan håndteres af Sonnet eller Haiku.

Uge 2: Implementér routeModel()-funktionen. Kør 50-100 cases fra Opus-kaldene igennem Sonnet og mål outputkvalitet. Sæt tærsklen baseret på målingen.

Uge 3: Evaluer Sonnet-kald, der potentielt kan routees til Haiku. Mål. Beslut.

Start med routing. Optimér prompts bagefter.

Referencer

[1] Anthropic, "Claude Model Overview and Pricing", tilgængeligt på docs.anthropic.com/en/docs/models-overview (besøgt 2026-04-23).

[2] Anthropic, "Build with Claude — Model Selection Guide", tilgængeligt på docs.anthropic.com/en/docs/about-claude (besøgt 2026-04-23).

ai-cost architecture claude

DelLinkedIn X

Spekir bygger det lag, der forbinder strategi med IT-porteføljen. Se Atlas →

Relaterede artikler

EU AI Act for midmarket — hvad du faktisk skal gøre

En pragmatisk køreplan til IT-leder eller compliance-koordinator der skal omsætte EU AI Act til handling uden dedikeret compliance-team. De 20 ting, prioritering og hvad der er realistisk.

9 min →

Annex III forklaret — hvornår er din AI 'high-risk'?

De otte kategorier i Annex III gennemgået med konkrete eksempler fra nordisk midmarket. Hvornår er jeres rekrutteringsværktøj, kreditscoring eller OT-system high-risk under EU AI Act?

8 min →

Din AI-politik — 8 sektioner du ikke kan undvære

Hvad skal en AI-politik indeholde? De otte obligatoriske sektioner, typiske fejl og hvad der adskiller en politique der faktisk bruges fra én der lever i en PDF-mappe ingen åbner.

8 min →

← Alle artikler