평소처럼 AWS EC2 gpu 인스턴스(g4dn.xlarge)에서 nvidia-smi 로 gpu 변화를 뽑았는데 gpu usage 값이 전부 0으로 나왔다.
평소에도 동일한 코드로 돌렸는데 왜 갑자기 에러가 났을까....
사용중인 AMI 는 Deep Learning AMI (Ubuntu 18.04) Version 55.0 - ami-029536273cb04d4d9 (버지니아) 로
아래 명령어로 쿠다버전을 살펴보았다. 버전 11이라고 나온다.
nvcc --version
현재 사용중인 tensorflow 버전은 tensorflow-gpu-1.14.0
import tensorflow as tf
tf.test.is_gpu_available()
으로 gpu가 사용중인지 확인해봤더니 False 가 나왔다....!!
아래 링크에서 호환성을 살펴보았다.
https://www.tensorflow.org/install/source#linux
tensorflow-gpu-1.14.0 는 CUDA 버전이 10!!!!
그렇다면 cuda 버전이 10인 AMI 를 찾아보았다.
https://docs.aws.amazon.com/ko_kr/dlami/latest/devguide/cuda10.html
- Deep Learning AMI (Ubuntu 18.04) Version 50.0
- Deep Learning AMI (Ubuntu 18.04) Version 44.0
이게 cuda 10 인 ami ...
Deep Learning AMI (Ubuntu 18.04) Version 50.0 로 다시 동일하게 진행해주었더니 해결되었다....
만약에 다른상황에서 그냥 진행했더라면.. 끔찍하다. 항상 GPU 가 잘 사용중인지 체크하도록 하자
'<하드웨어> > GPU' 카테고리의 다른 글
GPU TYPE 별 CLOUD 인스턴스 (aws,azure,IBM) (0) | 2022.01.26 |
---|---|
Ubuntu 18.04 + CUDA10.1 + tensorflow2.3.0 + cuDNN 설치 (0) | 2022.01.26 |
Nvidia-smi N초별로 원하는 항목들만 골라서 csv파일로 저장하기 (0) | 2021.11.28 |
T nvidia-smi -q 비슷한 유형별로 모아보기 (0) | 2021.11.28 |
GPU 내부구조 (0) | 2021.11.28 |