DCGMI 설치하는건 아래참조하기

[Ubuntu] DCGM 설치하고 실행해보기

Nvidia-smi 말고 GPU 하드웨어 피처들을 수집할수 있는 방법. 전자에는 없는 피처들을 포함하고 있다. aws에서 사용한 AMI : Deep Learning AMI GPU CUDA 11.4.1 (Ubuntu 18.04) 20211204 ubuntu 18.04 cuda 11.4..

peanut159357.tistory.com



# 그룹 확인 (GPU가 여러개일경우 여러개 gpu를 묶어서 그룹으로 지정해주어야한다)

dcgmi group -l


# 그렇다면 현재 gpu가 몇개인지 확인

dcgmi discovery -l


# 그룹0의 config 보여주기 (현재 구성상태를 나열)

dcgmi config -g 0 --get

dcgmi profile -l -i 0



# 전체 filed id 출력해줌 (첨부 링크에서도 확인가능)

DCGM Library API Reference Manual :: Data Center GPU Manager Documentation

Profiling Fields. These all start with DCGM_FI_PROF_* Ratio of time the graphics engine is active. The graphics engine is active if a graphics/compute context is bound and the graphics pipe or compute pipe is busy.

docs.nvidia.com

dcgmi dmon -l


# 해당 field_id 를 선택해서 1초마다 출력해줌 (필드아이디는 피처값의 id)

dcgmi dmon -e 1001,1004,1005


# 0.1초마다 수집 (기본세팅이 1000ms(1초))

dcgmi dmon -e 1001,1004,1005 -d 100


# output을 파일로 저장

dcgmi dmon -e 1001,1004,1005 > dcgmi-log.txt
dcgmi dmon -d 100 -e 1001,1004,1005 > dcgmi-log.csv


# field group 만들어주기

dcgmi fieldgroup -l   # 필드그룹 확인

dcgmi fieldgroup -c [그룹이름] -f 50,51,52   # 해당 필드 아이디를 묶어서 필드그룹을 만듬

dcgmi fieldgroup -d -g 5 
# 5번그룹을 삭제함, 디폴트 그룹은 삭제못함


Usage:
dcgmi dmon -i <gpuId> -g <groupId> -f <fieldGroupId> -e <fieldId> -d <delay> -c <count> -l
-f : 뽑고 싶은 필드아이디가 너무많을떄는 만들어준 필드그룹 하나만 적어주면된다.
-g : gpu가 여러개일때 gpu 몇개만 선택가능
-l : 몇줄만 출력해줄건지
-e : 뽑고 싶은 피처만 뽑아줌 ( 피처 이름이랑 숫자는 아래 링크 참조해서 보기)
-d : 몇초마다 볼건지 ( 1000 1초 , 100 0.1초)
-l : 단독으로 쓰면 전체 피처값 보여줌

중요) 하지만 수집할 피처갯수가 많으면 에러가 발생

⇒ 한번에 뽑을수 있는 피처갯수는 128개 미만이라고 함. (you will not be able to collect more than 128 fields due to this limitation alone.)
⇒ 만약 수집할 피처갯수가 128개가 넘는다면 명령문을 여러개 돌려야함.
(출처 : https://github.com/NVIDIA/DCGM/issues/44#issuecomment-1174587922 )

+ Recent posts