**리인벤트에서 들은건데 미천한 영어실력으로 다 못알아들음 + 빤한 내용이지만 그래도... 정리차원으로 그냥 메모장대신올림
1. 어떤 환경을 선택해야 최적의 선택일지?를 결정하는게 중요, 여기에는 여러가지 조건들이 따르는데
- 분산처리인지, 싱글 gpu 사용해야하는지? 데이터셋이 어떤지, 큰모델인지, 파라미터수가 엄청나게 큰지 등등
- (spoiler : ec2 ultra clusters)
2. 크게 3가지로 분류해서 봄 : 트레이닝과추론/추론/트레이닝
3. cpu만가지고 학습할때는 gravition3 추천
- gravition3 : for machine learning
- c6g < c7g
4. accelerated instances for training
- (1) 하바나 가우디를 사용하자
- (2) trn 인스턴스 사용하자 → 매우 좋은 성능그리고, 왕싸다
- gpu보다 더 낫다
- ec2중에서 매우 빠르다.
- trn1 trn1n 인스턴스
- 슈퍼컴에도 들어가있음
- p4dn보다 훨씬 나은 성능
5. distributed training을 시도해보자~
- tensor parallellsm
- pipeline parallellsm
6. sage maker를 사용하자
- 큰 데이터셋은 sagemaker cluster 사용하자
7. aws FSx를 사용하자 (고성능 파일 시스템)
8. 추론할거면 inf1를 사용하자 (성능굿굿이다~)
Havana Gaudi ( 작년에 나왔고, 멀티gpu 작업에 조금더 적합함 )
Trn1 ( Trainium 칩)
AWS Trainium 칩으로 구동되는 Amazon EC2 Trn1 인스턴스는 비교 가능한 GPU 기반 인스턴스 대비 최대 50% 저렴한 훈련 비용으로 고성능 딥 러닝 훈련을 실행할 수 있도록 특별히 구축됨. 주요 자연어 처리(NLP) 모델에서 최고의성능을 보인다함. EC2 ultraclusters에 배포되고 fsx 를 사용하면 정말 적은 지연시간과 처리량을 제공하는 공유 스토리지에 엑세스 가능하다고함. 또 Trn1 인스턴스는 격리된 다중 테넌시, 프라이빗 네트워킹 및 빠른 로컬 스토리지 제공을 간소화하는 AWS 설계 하드웨어 및 소프트웨어 혁신 모음인 AWS Nitro System 에 구축됨.
Fsx
Fsx를 사용해서 ec2안의 파일을 윈도우컴에 백업가능
참조 ( ec2 linux 인스턴스에서 파일시스템 탑재) : https://docs.aws.amazon.com/ko_kr/fsx/latest/ONTAPGuide/getting-started-step2.html
Amazon FSx for Windows File Server 튜토리얼: https://docs.aws.amazon.com/fsx/latest/WindowsGuide/getting-started.html
참조 블로그 : https://dev.classmethod.jp/articles/try-creating-a-file-system-with-fsx-for-windows-file-server/
'<Activity> > 2022 AWS REINVENT' 카테고리의 다른 글
2022 AWS Reinvent 참석겸 리스베가스 관광후기 (3) | 2022.12.10 |
---|---|
[끄적끄적] Nvidia 신규기능들 (0) | 2022.12.07 |
[끄적끄적] CodeCatalyst (0) | 2022.12.07 |
Deep Racer 간단 실습 (0) | 2022.12.07 |
AWS Sagemaker Canvas 간단실습 (0) | 2022.12.07 |