@kelog w ogólności masz rację co do samego OOMKilled i kasowania poda. Warto dodać, że są dodatkowe czynniki, które mogą tego poda usunąć, np. polityka określającego ma się stać po zakończeniu joba.
Żeby nie być gołosłownym załączam prosty job symulujący OOM i usuwający poda po 10 sekundach od awarii.
Kopiuj
apiVersion: batch/v1
kind: Job
metadata:
name: oom-memory-job
spec:
ttlSecondsAfterFinished: 5
template:
spec:
containers:
- name: oom-simulator
image: polinux/stress
command: ["stress"]
args: ["--vm", "1", "--vm-bytes", "1024M", "--vm-hang", "1"]
resources:
limits:
memory: "64Mi"
requests:
memory: "64Mi"
restartPolicy: Never
backoffLimit: 0
I użycie:
Kopiuj
kubectl create -f oom-job.yaml && while true; do echo -e ":: ---> checking PODs\n"; kubectl get pods -A ; echo -e "\n:: <--- \n"; sleep 3; done
oraz rezultat:
Kopiuj
job.batch/oom-memory-job created
:: ---> checking PODs
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system calico-node-tnhrl 1/1 Running 1 (16m ago) 12d
kube-system calico-kube-controllers-7cbf9bdf68-jvg6t 1/1 Running 1 (16m ago) 12d
kube-system coredns-7745f9f87f-lj5gm 1/1 Running 11 (16m ago) 60d
default oom-memory-job-fqdbb 0/1 ContainerCreating 0 1s
:: <---
:: ---> checking PODs
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system calico-node-tnhrl 1/1 Running 1 (16m ago) 12d
kube-system calico-kube-controllers-7cbf9bdf68-jvg6t 1/1 Running 1 (16m ago) 12d
kube-system coredns-7745f9f87f-lj5gm 1/1 Running 11 (16m ago) 60d
default oom-memory-job-fqdbb 0/1 OOMKilled 0 5s
:: <---
:: ---> checking PODs
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system calico-node-tnhrl 1/1 Running 1 (16m ago) 12d
kube-system calico-kube-controllers-7cbf9bdf68-jvg6t 1/1 Running 1 (16m ago) 12d
kube-system coredns-7745f9f87f-lj5gm 1/1 Running 11 (16m ago) 60d
default oom-memory-job-fqdbb 0/1 OOMKilled 0 9s
:: <---
:: ---> checking PODs
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system calico-node-tnhrl 1/1 Running 1 (16m ago) 12d
kube-system calico-kube-controllers-7cbf9bdf68-jvg6t 1/1 Running 1 (16m ago) 12d
kube-system coredns-7745f9f87f-lj5gm 1/1 Running 11 (16m ago) 60d
:: <---