T nvidia-smi -q 비슷한 유형별로 모아보기

<하드웨어>/GPU|2021. 11. 28. 21:01
반응형

 

<ID, 주소, 버전 관련>

 

이름 Description
Driver Version NVIDIA display driver 에 설치된 버전
CUDA Version  추천 버전, 현재 사용되고 있는 버전이 아님
Serial Number 보드의 물리적인 일련번호를 의미하고 고유한값
GPU UUID      Globally unique 하며, 변경불가하다. 보드의 물리적인 라벨과 일치하지 않는다 (uuid는 암호화 알고리즘을 사용해서 만들고 시리얼 타입보다 훨씬 복잡)
Board ID  드라이버가 할당한 고유한 보드 ID (예: 둘이상 gpu 가 동일 보드 id를 가지고 바로위에 멀티지피유=true 라면, 동일 보드위에 gpu들이 있다는걸 의미한다)
GPU Part Number   부품번호
Inforom Version (Image Version,OEM Object,ECC Object) gpu 비휘발성 저장장치 버전(gpu 구성,상태 데이터에 대한 소규모 영구 저장소)
Power Management Object Version for the 전원관리 데이터
Bus PCI bus number (아래 사진첨부) (pci segment = Pci bus = pci)
Device PCI device number
Domain PCI domain number(각 도메인은 256개 PCI 버스를 가질수 있음)
Device Id PCI vendor device id
Bus Id    PCI bus id (멀티 지피유의 경우 여러개가 뜸)
Sub System Id PCI Sub System i
PCIe Generation (max,current) PCLe 3.0 4.0 이런식으로 나뉘는데 4.0이 3.0보다 2배 빠르다.
Link Width((max,current) (×1, ×2, ×4, ×8, ×12, ×16 and ×32)링크는 두 PCI Express 포트 사이의 지점간 통신 채널
Process ID ,Type, Name,Used GPU Memory 프로세스 아이디, 타입은 CPU 이면 C , GPU 이면 G, CPU+GPU 이면 C+G, name python, used gpu memory 는 context 에 의해서 사용된 메모리양
VBIOS Version           VBIOS (컴퓨터를 부팅시에 가장먼저 시작되고,GPU 를 초기화) 버전

 

<리눅스에서만 사용하는 or 특정 인스턴스에서만 적용가능>

 

이름 Descriptoin
MIG Mode 7개 개별 인스턴스로 분할해서 사용가능함, A100( p4 instance )에서만 가능, 리눅스 에서 동작)
Driver Model 윈도우 0, linux x
Clocks Throttle Reasons (Idle,Applications Clocks Setting,SW Power Cap) 클록 빈도를 줄이는 요인에 대한 정보를 검색, Kepler 제품군에서 지원되는 Tesla 장치에서만 가능하다고한다 (전력 상한선 제한)
Power Limit         소프트웨어 전력 제한(와트). nvidia-smi와 같은 소프트웨어로 설정합니다. 전원 관리가 지원되는 경우에만 사용할 수 있습니다. Inforom PWR 개체 버전 3.0 이상 또는 Kepler 장치가 필요/ 특별히 지정한값이 없으면 디폴트 파워 리밋과 동일함.
GPU Operation Mode p3,g3 인스턴스에서만 지원가능 (GOM 을 사용하면 gpu 기능을 비활성화해서 전력 사용량을 줄이고 GPU 처리량을 최적화할수 있다고함)
Persistence Mode GPU 에 대해서 지속성모드가 활성화되어있는지 여부를 나타내는 FLAG. Enabled 되어있으면 Cuda 프로그램같은 종속앱실행과 관련된 드라이버 로드 대기시간이 최소화, (리눅스에서만 지원)
Minor Number              다중 GPU 시스템에서 여러 작업을 병렬로 시작할때 사용 (dev/nvidia [minor number] 형식을 가지게함, only linux)

 

<전력, 온도관련>

 

이름 Description
Applications Clocks Setting GPU 클럭은 애플리케이션 클럭 설정에 의해 제한. 예를 들어 nvidia-smi --applications-clocks=를 사용하여 변경가능 (gpu clock 제한유무)
SW Power Cap        SW Power Scaling 알고리즘은 GPU가 너무 많은 전력을 소비하기 때문에 요청된 클럭 아래로 클럭을 줄이고 있습니다. 예를 들어 SW 전력 상한선은 nvidia-smi --power-limit=로 변경가능
FB Memory Usage (total,used,free) frame buffer memory : 레스터주사방식(화면의 다수를 화소로 분할, 화면의 위에서부터 수평주사선을 옆으로 끌듯이 한줄씩 아래로 내려가면서 주사하여 화면을 형성하는 주사방식) 에서 화면에 나타날 영상정보를 일시적으로 저장하는 기억장치
BAR1 Memory Usage (total,used,free) BAR1은 FB(장치 메모리)를 매핑하는 데 사용되어 CPU 또는 타사 장치(PCIe 버스의 피어 투 피어)에서 직접 액세스할 수 있습니다.VRAM ? GPU RAM, 해상도가 커지면 한화면에 출력해야할 오브젝트들이 많아지기 떄문에 VRAM 의존도가 기하급수적으로 커진다.
Utilization (Gpu,Memory,Encoder,Decoder) 활용률은 각 GPU가 시간이 지남(1/6초~1초)에 따라 얼마나 사용하는지 보고하며 시스템에서 응용 프로그램이 GPU를 얼마나 사용하고 있는지 확인하는 데 사용할 수 있습니다.
ECC Errors NVIDIA GPU는 다양한 유형의 ECC 오류에 대한 오류 수를 제공
Temperature(GPU Current Temp,GPU Shutdown Temp,GPU Slowdown Temp,GPU Max Operating Temp,Memory Current Temp,Memory Max Operating Temp) 보드에 있는 온도 센서의 판독값.
Power Readings (Power Management,Power Draw,Default Power Limit,Enforced Power Limit,Min Power Limit,Max Power Limit) 전체 보드에 대해 측정된 전력 소비량(와트) (power Limit 설정은 Kepler 장치만 가능)
Clocks (Graphics,SM,Memory,Video) GPU의 일부가 실행되는 현재 주파수. 모든 판독값은 MHz 단위
Applications Clocks (Graphics,Memory,Default Applications Clocks,Max Clocks) 애플리케이션이 실행될 기본 빈도.(코어클럭 : 그래픽 프로세서의 코어 속도를 나타냄, 메모리클럭 : GPU의 VRAM 주파수 , VRAM 은 GPU에서 사용하는 램. DRAM 과 달리 VRAM 은 GPU가 렌더링해야하는 자산에 대한 메모리를 유지하는데 사용됨)

<사용자 설정가능>

 

이름 Description
Applications Clocks Setting [전력,온도 관련 중복] GPU 클럭은 애플리케이션 클럭 설정에 의해 제한. 예를 들어 nvidia-smi --applications-clocks=를 사용하여 변경가능
SW Power Cap      SW Power Scaling 알고리즘은 GPU가 너무 많은 전력을 소비하기 때문에 요청된 클럭 아래로 클럭을 줄인다. 예를 들어 SW 전력 상한선은 nvidia-smi --power-limit=로 변경가능
Max Customer Boost Clocks 사용자가 지정한 최대 boost 클럭속도
Applications Clocks (Graphics,Memory) 애플리케이션이 실행될 기본 빈도.(사용자지정 그래픽 주파수,사용자지정 메모리 주파수)
Clock Policy 자동클럭 변경에 대한 사용자지정 설정
MIG Mode 7개 개별 인스턴스로 분할해서 사용가능함. nvidia-smi -mig 1 이 명령어로 mig mode를 disable,enable 바꿔줄수 있다./ $ sudo nvidia-smi mig -cgi 9,3g.20gb 이런식으로 인스턴스를 나눠줄수 있음.

 

<그외 중요하다고 생각한 것들>

 

이름 Description
Attached GPUs 시스템에 있는 NVIDIA GPU 개수
Product Name        Ex: Tesla T4 (GPU product name)
MultiGPU Board      멀티 지피유 보드인지 아닌지
Tx Throughput (Transmit Data) 바로전 20ms 동안 PCIe 버스를 통한 GPU 중심 전송 처리량(MB/s). Maxwell 아키텍처 이상에서만 지원
Rx Throughpu (Receive Data의) GPU 중심은 바로전 20ms 동안 MB/s 단위의 PCIe 버스를 통한 수신 처리량. Maxwell 아키텍처 이상에서만 지원
Performance State GPU 현재성능상태로 P0-P12까지 있꼬, P0이 최대성능

 

 

PDF

T_nvidia-smi_-q_비슷한_유형별로_모아보기.pdf
0.39MB

 

HTML

Export-63ff0091-088a-4e31-acdb-5dcb09293db3.zip
0.13MB

반응형

댓글()