AWS g5.xlarge , p4d.24xlarge CUDA 호환성 (CUDA11.4, CUDA11이상)

<Cloud>/AWS|2022. 1. 30. 16:43
반응형

사실 지금까지 호환성에 대해서는 그렇게 크게 신경쓰지 않았고,기존에 사용한 AMI 이미지를 사용했으나 이제껏 전혀 문제가 없었기 때문에 호환성에 대해 무지했고 버전에 중요성에 대해 크게 생각하지 않았다. 

그런데 꽤 최근에 나온 GPU에서 구 버전 CUDA를 사용하다가 생각도 못한 에러폭탄을 맞아서 호환성의 중요성에 대해 느끼게 되었다...

 

아래는 텐서플로우, 쿠다, 파이썬 버전 호환성 확인 (쿠다 11.2 이상부터는 파이썬도 3.7이상 사용해야함)

 

소스에서 빌드  |  TensorFlow

Help protect the Great Barrier Reef with TensorFlow on Kaggle Join Challenge 소스에서 빌드 소스에서 TensorFlow pip 패키지를 빌드하고 Ubuntu Linux 및 macOS에 설치합니다. 명령어는 다른 시스템에도 적용될 수 있지만, U

www.tensorflow.org

 

 

< G5 인스턴스 >

g5 인스턴스는 CUDA11.4 이상 사용을 권장

(aws repost 라고 aws호환성관련해서는 답은좀 느리지만 궁금한게 있으면 여기에 질문하는게 정확한것 같다. )

https://repost.aws/questions/QUNR0L1sSIRd-e1zeRIoEc1Q/gpu-fails-to-intialize-on-g-5-xlarge-instance

 

GPU fails to intialize on g5.xlarge instance | AWS re:Post

Hello, I have tried to create several g5.xlarge innstance with various AMI "quickstart" (Deep Learning AMI GPU TensorFlow 2.7.0 (Amazon Linux 2) 20211111 - ami-0850c76a5926905fb, Deep Learning AMI...

repost.aws

 

< p4d.24xlarge 인스턴스 >

아래는 내가 물어본질문이다. 

쿠다 10.1에서는 도저히 에러해결이 안되서 동일한 암페어 GPU (2020년 9월 출시한 RTX 3000 시리즈는 공식적으로 쿠다11이상만 지원하고있다 )가 쿠다 11이상을 지원하는걸보고 11.4로 실행했더니 해결했다. 

뒤늦게 답이 달렸는데 쿠다버전, 텐서플로우버전, 심지어 이미지까지 알려주셨다. 

https://repost.aws/questions/QUdPFPsWPcSh6TIozmOGBidw/runtime-error-cuda-runtime-implicit-initialization-on-gpu-0-failed-status-device-kernel-image-is-invalid

 

RuntimeError: CUDA runtime implicit initialization on GPU:0 failed. Status: device kernel image is invalid | AWS re:Post

The environment I'm using is: - aws p4dn.24xlarge instance (NVIDIA Ampere A100 GPU ) - cuda 10.1 - tensorflow 2.3.0 - python 3.6.9 I get an error when I run the following. What is the reason? `...

repost.aws

 

 

 

 

 

 

 

 

 

반응형

댓글()