Generell assistent
Rask og CPU-vennlig: llama3.2 (3B) eller
gemma3:4b.
Mer kapasitet med GPU: mistral (7B) eller
llama3.3 (70B).
Kom i gang • Sjekkliste • Beste praksis
Oppdatert sjekkliste for april 2026: fra installasjon til en fungerende lokal LLM‑stack med modellvalg, API-integrasjon, RAG og et trygt fundament for KI‑agenter.
ollama run llama3.2
Tips: Ved treg respons, reduser modellstørrelse først og mål CPU/GPU-minne før du optimaliserer prompt eller infrastruktur.
ollama listollama --help11434
Rask og CPU-vennlig: llama3.2 (3B) eller
gemma3:4b.
Mer kapasitet med GPU: mistral (7B) eller
llama3.3 (70B).
Bruk en kodefokusert modell: qwen2.5-coder:7b er et
godt startpunkt. deepseek-coder-v2 er et kraftigere
alternativ med GPU.
Genereringsmodell: mistral eller
phi4.
Embeddings: bruk nomic-embed-text for vektorsøk i
egne dokumenter.
Praktisk regel: mindre modeller gir ofte bedre interaktiv fart, mens større modeller kan gi høyere kvalitet på komplekse oppgaver – spesielt med god kontekst.
Ollama eksponerer et lokalt HTTP‑API. Det gjør integrasjon enkel i alt fra scripts til web‑apper.
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Skriv en kort guide til Ollama på norsk."
}'
RAG (Retrieval‑Augmented Generation) betyr at du henter relevant kontekst fra egne data før modellen svarer. Resultatet er mer presise svar, mindre hallusinasjon og bedre sporbarhet.
RAG gjør det fristende å putte “alt” i indeksen. Bruk tilgangsstyring, og separer data per team/prosjekt.
En agent er en LLM som får verktøy og en oppgaveflyt. Eksempel: hent status fra et API, lag et sammendrag og opprett en oppgave i et system. Nøkkelen er kontroll: begrens verktøy, valider input og logg alt.
HTTP-kall, filsystem, søk, databaser, interne API-er – men kun det agenten trenger.
Regler, whitelists, rate‑limits og menneske‑i‑loopen for kritiske handlinger.
Mål kvalitet med testsett og “golden prompts”. Overvåk drift med logging og metrikk.