Hoppa till huvudinnehåll

AI-säkerhet: Om sårbarheter i maskininlärningssystem

Maskininlärningssystem (ML) – tekniken bakom det mesta inom modern AI – kan vara utsatta för flera olika typer av säkerhetshot. Till skillnad från traditionell mjukvara, där säkerhetshålen oftast finns i koden, kommer sårbarheter i maskininlärning ofta från själva datan, träningsprocessen eller modellernas matematiska egenskaper.

Att förstå dessa sårbarheter är avgörande för alla som bygger, driftsätter eller använder AI. Den här guiden går igenom de viktigaste säkerhetsriskerna i varje steg av maskininlärningens livscykel.

Så fungerar maskininlärningssystem

För att förstå AI-säkerhet underlättar det att skilja på två olika faser i ett maskininlärningssystems livscykel:

Träning: Modellen byggs

Träningen är vanligtvis en engångsprocess som kombinerar tre delar – träningsdata, modellarkitektur och en träningsalgoritm – för att skapa den färdiga modellen. Eventuella problem som uppstår här blir en permanent del av systemet.

Inferens: Modellen används

När den väl är driftsatt bearbetar den tränade modellen ny data och gör förutsägelser. Det är i det här skedet som användarna interagerar med systemet – och det är då angripare kan börja leta efter svagheter.

Guiden finns ännu bara på engelska.

Hover for quick info · Click for details

The examples the model learns from
Training data
Mathematical structure of the model
Model architecture
Optimization process that fits the model
Training algorithm
The trained model — output of training, used in inference
Trained model

Training security concerns

Vulnerabilities introduced during training become permanent properties of the model.

  • Data poisoning
    Manipulated training data introduces errors or hidden vulnerabilities
  • Backdoor attacks
    Hidden triggers embedded during training cause targeted failures.
  • Inherited bias
    Biased data or architecture choices perpetuate harmful patterns.
New data fed to the model
Input
The trained model — output of training, used in inference
Trained model
Model's output or decision
Prediction

Inference security concerns

Deployed models face attacks through their inputs and outputs.

  • Adversarial inputs
    Carefully crafted inputs exploit model weaknesses, e.g., prompt injection.
  • Training data privacy leakage
    Sensitive training data can be extracted from the model.
  • Inference data privacy leakage
    User inputs or outputs during inference are revealed when they shouldn't be.
  • Model extraction
    Input/output pairs enable model replication.

Security issues