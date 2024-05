Kubernetes est un système complexe à dépanner. C'est une chose de reconnaître qu'un cluster de containers est indisponible ou qu'un pod ne répond pas comme prévu. Mais c’en est une autre de déterminer la cause de ces problèmes et la manière de les résoudre.

Plusieurs situations peuvent être à l'origine de problèmes nécessitant un dépannage : des nœuds indisponibles, des containers qui ne répondent pas, des problèmes liés au plan de contrôle ou d’autres encore, liés à la connectivité réseau. Vous pouvez résoudre ces problèmes en affectant suffisamment de nœuds à un cluster, en utilisant des espaces de noms et des quotas de ressources, en exécutant des commandes pour dépanner les pods qui ne répondent pas, etc.

Voici ci-dessous les cinq scénarios de pannes Kubernetes les plus courants et comment les résoudre.

Des containers non réactifs

Même si vous configurez des plages de limites et des quotas de ressources appropriés pour vos containers, pods et espaces de noms, vous pouvez découvrir que vos containers ou pods ne répondent pas. Pour dépanner les containers ou les pods qui ne répondent pas, exécutez la commande suivante :

kubectl get pods --all-namespaces

Spécifiez le nom d'un module particulier et/ou d’un espace de noms en particulier pour affiner l’action de cette commande. La sortie répertorie tous vos modules et leur état dans un format tel que le suivant :

NAME READY STATUS RESTARTS AGE ml-pipeline-685b7b74d-6pvdr 0/1 ContainerCreating 0 294d minio-65dff76b66-xk8jt 0/1 Pending 0 13s mysql-67f7987d45-fqmw8 0/1 Pending 0 20s proxy-agent-bff474798-sqc8g 0/1 CrashLoopBackOff 1545 (2m13s ago) 294d

Dans ce scénario, un pod est dans l'état ContainerCreating, ce qui signifie qu'il est encore en train de lancer ses containers. Deux autres pods sont en attente, ce qui signifie que le pod n'a pas encore été planifié sur un nœud. Le dernier pod est dans l'état CrashLoopBackOff. Cela se produit généralement lorsque Kubernetes tente de redémarrer un pod, mais que celui-ci continue de se bloquer.

Obtenez des détails supplémentaires sur l'état d'un pod et des containers qu'il contient à l'aide de la commande suivante :

kubectl describe pods --all-namespaces

La sortie vous indique l'état détaillé des pods. Par exemple, voici les détails du pod bloqué dans l'état CrashLoopBackOff.

Name: proxy-agent-bff474798-sqc8g Namespace: kubeflow Priority: 0 Service Account: proxy-agent-runner Node: chris-gazelle/192.168.0.107 Start Time: Sun, 12 Nov 2023 12:37:32 -0500 Labels: app=proxy-agent application-crd-id=kubeflow-pipelines pod-template-hash=bff474798 Annotations: <none> Status: Running IP: 192.168.0.107 IPs: IP: 192.168.0.107 Controlled By: ReplicaSet/proxy-agent-bff474798 Containers: proxy-agent: Container ID: containerd://dae867f6ff4434d50e68161fd1602889e09d0bd17486968bbee41a9fac32d7bb Image: gcr.io/ml-pipeline/inverse-proxy-agent:1.8.5 Image ID: gcr.io/ml-pipeline/inverse-proxy-agent@sha256:a16f99d14ae724b94b403cb9d7ac8d8f4adce33ef6a24dd91306048c0c02c7e4 Port: <none> Host Port: <none> State: Waiting Reason: CrashLoopBackOff Last State: Terminated Reason: Error Exit Code: 6 Started: Mon, 15 Jan 2024 12:58:09 -0500 Finished: Mon, 15 Jan 2024 12:58:09 -0500 Ready: False Restart Count: 1546 Environment: <none> Mounts: /var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-fsjrz (ro) Conditions: Type Status Initialized True Ready False ContainersReady False PodScheduled True Volumes: kube-api-access-fsjrz: Type: Projected (a volume that contains injected data from multiple sources) TokenExpirationSeconds: 3607 ConfigMapName: kube-root-ca.crt ConfigMapOptional: <nil> DownwardAPI: true QoS Class: BestEffort Node-Selectors: <none> Tolerations: node.kubernetes.io/not-ready:NoExecute op=Exists for 300s node.kubernetes.io/unreachable:NoExecute op=Exists for 300s Events: Type Reason Age From Message ---- ------ --- ---- ------- Warning BackOff 44s (x21022 over 41d) kubelet Back-off restarting failed container

Ces informations fournissent plus d'indices sur la façon dont le module est configuré et sur la raison pour laquelle il continue à se bloquer. Pour résoudre le problème de l'échec, essayez ce qui suit :

Assurez-vous que l'image du container spécifiée dans la sortie de kubectl describe pods est disponible et qu'elle n'est pas corrompue.

est disponible et qu'elle n'est pas corrompue. Essayez d'exécuter le container directement à partir de la ligne de commande pour voir s'il démarre sans problème. Si c'est le cas, le problème est probablement lié à la manière dont le pod est configuré plutôt qu'au container lui-même.

Vérifiez la configuration du stockage et des secrets pour vous assurer qu'ils ne sont pas à l'origine de l'échec du pod.

Il se peut que vous deviez consulter les logs du container ou de l'application pour obtenir des informations supplémentaires sur l'état des pods et des containers qui ne répondent pas. L'emplacement de ces logs peut varier en fonction de l'endroit où vos containers et pods écrivent les données de log.

Une mauvaise configuration des sondes d'état peut également être à l'origine de problèmes. Kubernetes utilise des sondes de disponibilité pour vérifier si un container est réactif. Si ce n'est pas le cas, Kubernetes redémarre le container. Les sondes de disponibilité déterminent si un container ou un ensemble de containers sont en place et prêts à accepter du trafic.

Ces sondes sont une bonne protection contre les situations où vous devez redémarrer manuellement un container défaillant ou lorsque les containers ne sont pas encore complètement initialisés et, par conséquent, ne sont pas prêts pour le trafic. Cependant, des sondes de disponibilité et d'état de fonctionnement trop agressives peuvent entraîner l'indisponibilité des containers.

Prenons l'exemple d'une sonde de disponibilité qui vérifie un container toutes les secondes et le redémarre si elle détermine qu'il ne répond pas. Dans certaines situations, la congestion du réseau ou les problèmes de latence font que la vérification de l'état de préparation prend plus d'une seconde, même si le container s'exécute sans problème. Par conséquent, Kubernetes redémarrera constamment le container, ce qui le rendra indisponible.

Pour éviter cela, configurez les sondes de disponibilité de manière logique pour les containers et les variables d'environnement. Évitez les configurations uniformes. Chaque container doit avoir ses propres règles.