DCGMI 설치하는건 아래참조하기
# 그룹 확인 (GPU가 여러개일경우 여러개 gpu를 묶어서 그룹으로 지정해주어야한다)
dcgmi group -l
# 그렇다면 현재 gpu가 몇개인지 확인
dcgmi discovery -l
# 그룹0의 config 보여주기 (현재 구성상태를 나열)
dcgmi config -g 0 --get
dcgmi profile -l -i 0
# 전체 filed id 출력해줌 (첨부 링크에서도 확인가능)
dcgmi dmon -l
# 해당 field_id 를 선택해서 1초마다 출력해줌 (필드아이디는 피처값의 id)
dcgmi dmon -e 1001,1004,1005
# 0.1초마다 수집 (기본세팅이 1000ms(1초))
dcgmi dmon -e 1001,1004,1005 -d 100
# output을 파일로 저장
dcgmi dmon -e 1001,1004,1005 > dcgmi-log.txt
dcgmi dmon -d 100 -e 1001,1004,1005 > dcgmi-log.csv
# field group 만들어주기
dcgmi fieldgroup -l # 필드그룹 확인
dcgmi fieldgroup -c [그룹이름] -f 50,51,52 # 해당 필드 아이디를 묶어서 필드그룹을 만듬
dcgmi fieldgroup -d -g 5
# 5번그룹을 삭제함, 디폴트 그룹은 삭제못함
Usage:
dcgmi dmon -i <gpuId> -g <groupId> -f <fieldGroupId> -e <fieldId> -d <delay> -c <count> -l
-f : 뽑고 싶은 필드아이디가 너무많을떄는 만들어준 필드그룹 하나만 적어주면된다.
-g : gpu가 여러개일때 gpu 몇개만 선택가능
-l : 몇줄만 출력해줄건지
-e : 뽑고 싶은 피처만 뽑아줌 ( 피처 이름이랑 숫자는 아래 링크 참조해서 보기)
-d : 몇초마다 볼건지 ( 1000 1초 , 100 0.1초)
-l : 단독으로 쓰면 전체 피처값 보여줌
중요) 하지만 수집할 피처갯수가 많으면 에러가 발생
⇒ 한번에 뽑을수 있는 피처갯수는 128개 미만이라고 함. (you will not be able to collect more than 128 fields due to this limitation alone.)
⇒ 만약 수집할 피처갯수가 128개가 넘는다면 명령문을 여러개 돌려야함.
(출처 : https://github.com/NVIDIA/DCGM/issues/44#issuecomment-1174587922 )
'<하드웨어> > GPU' 카테고리의 다른 글
DCGM 피처정리1 (사용가능한거만 간단히) (0) | 2022.07.27 |
---|---|
DCGM 피처정리2 (timeseries 데이터 위주) (0) | 2022.07.27 |
Nsight로 GPU hardware feature profiling (0) | 2022.07.06 |
[Ubuntu] DCGM 설치하고 실행해보기 (0) | 2022.07.04 |
Ubuntu18.04+cuda11.4+python3.7+tensorflow2.7.0+cuDNN8.2.4 설치 (0) | 2022.04.10 |