[끄적끄적] choosing the right accelerator for training and inference

peanut0613 2022. 12. 8. 10:52

2022. 12. 8. 10:52

**리인벤트에서 들은건데 미천한 영어실력으로 다 못알아들음 + 빤한 내용이지만 그래도... 정리차원으로 그냥 메모장대신올림

1. 어떤 환경을 선택해야 최적의 선택일지?를 결정하는게 중요, 여기에는 여러가지 조건들이 따르는데

분산처리인지, 싱글 gpu 사용해야하는지? 데이터셋이 어떤지, 큰모델인지, 파라미터수가 엄청나게 큰지 등등
(spoiler : ec2 ultra clusters)

2. 크게 3가지로 분류해서 봄 : 트레이닝과추론/추론/트레이닝

3. cpu만가지고 학습할때는 gravition3 추천

gravition3 : for machine learning
c6g < c7g

4. accelerated instances for training

(1) 하바나 가우디를 사용하자
(2) trn 인스턴스 사용하자 → 매우 좋은 성능그리고, 왕싸다
- gpu보다 더 낫다
- ec2중에서 매우 빠르다.
- trn1 trn1n 인스턴스
- 슈퍼컴에도 들어가있음
- p4dn보다 훨씬 나은 성능

5. distributed training을 시도해보자~

tensor parallellsm
pipeline parallellsm

6. sage maker를 사용하자

큰 데이터셋은 sagemaker cluster 사용하자

7. aws FSx를 사용하자 (고성능 파일 시스템)

8. 추론할거면 inf1를 사용하자 (성능굿굿이다~)

Havana Gaudi ( 작년에 나왔고, 멀티gpu 작업에 조금더 적합함 )

Trn1 ( Trainium 칩)

AWS Trainium 칩으로 구동되는 Amazon EC2 Trn1 인스턴스는 비교 가능한 GPU 기반 인스턴스 대비 최대 50% 저렴한 훈련 비용으로 고성능 딥 러닝 훈련을 실행할 수 있도록 특별히 구축됨. 주요 자연어 처리(NLP) 모델에서 최고의성능을 보인다함. EC2 ultraclusters에 배포되고 fsx 를 사용하면 정말 적은 지연시간과 처리량을 제공하는 공유 스토리지에 엑세스 가능하다고함. 또 Trn1 인스턴스는 격리된 다중 테넌시, 프라이빗 네트워킹 및 빠른 로컬 스토리지 제공을 간소화하는 AWS 설계 하드웨어 및 소프트웨어 혁신 모음인 AWS Nitro System 에 구축됨.

Fsx

Fsx를 사용해서 ec2안의 파일을 윈도우컴에 백업가능

참조 ( ec2 linux 인스턴스에서 파일시스템 탑재) : https://docs.aws.amazon.com/ko_kr/fsx/latest/ONTAPGuide/getting-started-step2.html

Amazon FSx for Windows File Server 튜토리얼: https://docs.aws.amazon.com/fsx/latest/WindowsGuide/getting-started.html

참조 블로그 : https://dev.classmethod.jp/articles/try-creating-a-file-system-with-fsx-for-windows-file-server/

'<Activity> > 2022 AWS REINVENT' 카테고리의 다른 글

2022 AWS Reinvent 참석겸 리스베가스 관광후기 (3)	2022.12.10
[끄적끄적] Nvidia 신규기능들 (0)	2022.12.07
[끄적끄적] CodeCatalyst (0)	2022.12.07
Deep Racer 간단 실습 (0)	2022.12.07
AWS Sagemaker Canvas 간단실습 (0)	2022.12.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DARAM BLOG

[끄적끄적] choosing the right accelerator for training and inference

'<Activity> > 2022 AWS REINVENT' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역