평소처럼 AWS EC2 gpu 인스턴스(g4dn.xlarge)에서 nvidia-smi 로 gpu 변화를 뽑았는데 gpu usage 값이 전부 0으로 나왔다. 

평소에도 동일한 코드로 돌렸는데 왜 갑자기 에러가 났을까....

 

 

사용중인 AMI 는 Deep Learning AMI (Ubuntu 18.04) Version 55.0 - ami-029536273cb04d4d9 (버지니아) 로

아래 명령어로 쿠다버전을 살펴보았다. 버전 11이라고 나온다. 

nvcc --version

현재 사용중인 tensorflow 버전은 tensorflow-gpu-1.14.0

import tensorflow as tf
tf.test.is_gpu_available()

으로 gpu가 사용중인지 확인해봤더니 False 가 나왔다....!!

 

 

 

 

아래 링크에서 호환성을 살펴보았다. 

https://www.tensorflow.org/install/source#linux 

 

소스에서 빌드  |  TensorFlow

Help protect the Great Barrier Reef with TensorFlow on Kaggle Join Challenge 소스에서 빌드 소스에서 TensorFlow pip 패키지를 빌드하고 Ubuntu Linux 및 macOS에 설치합니다. 명령어는 다른 시스템에도 적용될 수 있지만, U

www.tensorflow.org

 

tensorflow-gpu-1.14.0 는 CUDA 버전이 10!!!!

 

그렇다면 cuda 버전이 10인 AMI 를 찾아보았다. 

https://docs.aws.amazon.com/ko_kr/dlami/latest/devguide/cuda10.html

 

CUDA 10 옵션을 이용한 Deep Learning - 딥 러닝 AMI

이 페이지에 작업이 필요하다는 점을 알려 주셔서 감사합니다. 실망시켜 드려 죄송합니다. 잠깐 시간을 내어 설명서를 향상시킬 수 있는 방법에 대해 말씀해 주십시오.

docs.aws.amazon.com

 

- Deep Learning AMI (Ubuntu 18.04) Version 50.0 

- Deep Learning AMI (Ubuntu 18.04) Version 44.0

 

이게 cuda 10 인 ami ...

Deep Learning AMI (Ubuntu 18.04) Version 50.0  로 다시 동일하게 진행해주었더니 해결되었다....

 

만약에 다른상황에서 그냥 진행했더라면.. 끔찍하다. 항상 GPU 가 잘 사용중인지 체크하도록 하자 

 

 

+ Recent posts