[끄적끄적] choosing the right accelerator for training and inference

<Activity>/2022 AWS REINVENT|2022. 12. 8. 10:52
반응형

**리인벤트에서 들은건데 미천한 영어실력으로 다 못알아들음 + 빤한 내용이지만 그래도... 정리차원으로 그냥 메모장대신올림

 

1. 어떤 환경을 선택해야 최적의 선택일지?를 결정하는게 중요, 여기에는 여러가지 조건들이 따르는데

  • 분산처리인지, 싱글 gpu 사용해야하는지? 데이터셋이 어떤지, 큰모델인지, 파라미터수가 엄청나게 큰지 등등
  • (spoiler : ec2 ultra clusters)

2. 크게 3가지로 분류해서 봄 : 트레이닝과추론/추론/트레이닝

3. cpu만가지고 학습할때는 gravition3 추천

  • gravition3 : for machine learning
  • c6g < c7g

4. accelerated instances for training

  • (1) 하바나 가우디를 사용하자
  • (2) trn 인스턴스 사용하자 → 매우 좋은 성능그리고, 왕싸다
    • gpu보다 더 낫다
    • ec2중에서 매우 빠르다.
    • trn1 trn1n 인스턴스
    • 슈퍼컴에도 들어가있음
    • p4dn보다 훨씬 나은 성능

5. distributed training을 시도해보자~

  • tensor parallellsm
  • pipeline parallellsm

6. sage maker를 사용하자

  • 큰 데이터셋은 sagemaker cluster 사용하자

7. aws FSx를 사용하자 (고성능 파일 시스템)

8. 추론할거면 inf1를 사용하자 (성능굿굿이다~)

 

 

 

Havana Gaudi ( 작년에 나왔고, 멀티gpu 작업에 조금더 적합함 )

 

Trn1 ( Trainium 칩) 

AWS Trainium 칩으로 구동되는 Amazon EC2 Trn1 인스턴스는 비교 가능한 GPU 기반 인스턴스 대비 최대 50% 저렴한 훈련 비용으로 고성능 딥 러닝 훈련을 실행할 수 있도록 특별히 구축됨. 주요 자연어 처리(NLP) 모델에서 최고의성능을 보인다함. EC2 ultraclusters에 배포되고 fsx 를 사용하면 정말 적은 지연시간과 처리량을 제공하는 공유 스토리지에 엑세스 가능하다고함. 또 Trn1 인스턴스는 격리된 다중 테넌시, 프라이빗 네트워킹 및 빠른 로컬 스토리지 제공을 간소화하는 AWS 설계 하드웨어 및 소프트웨어 혁신 모음인 AWS Nitro System 에 구축됨.

 

Fsx 

Fsx를 사용해서 ec2안의 파일을 윈도우컴에 백업가능

참조 ( ec2 linux 인스턴스에서 파일시스템 탑재) : https://docs.aws.amazon.com/ko_kr/fsx/latest/ONTAPGuide/getting-started-step2.html

Amazon FSx for Windows File Server 튜토리얼: https://docs.aws.amazon.com/fsx/latest/WindowsGuide/getting-started.html

참조 블로그https://dev.classmethod.jp/articles/try-creating-a-file-system-with-fsx-for-windows-file-server/

 

반응형

댓글()