BittWare GroqCard™ 가속기

BittWare GroqCard™ Accelerator is a double-width PCIe form factor ML accelerator developed to integrate easily. The GroqWare™ suite implements a software-defined hardware approach, allowing easy deployment paths for PyTorch, TensorFlow, and ONNX-trained deep learning models. The BittWare GroqCard Accelerator features scalability with nine RealScale™ chip-to-chip connections that guarantee the deployment of multiple cards as efficiently as one. Furthermore, an internal software-defined network delivers predictable, repeatable performance with no run-to-run variations. The GroqCard has been qualified for use with the SMC AS-4124GS-TNR and Dell R750xa. The HPE DL385 Gen 10 Plus has been tested, but the full server interop exercise was not completed. In addition, liquid has also qualified the GroqCard in the chassis with up to 16 GroqCards. Using the GroqCard in other server models is at the user's risk.

GroqChip™ 프로세서

완전 결정적 GroqChip 프로세서는 확장 가능한 성능의 핵심입니다. AI, ML 및 HPC 워크로드를 가속화하도록 처음부터 구축된 GroqChip은 데이터 이동을 줄여 병목 현상 없는 예측 가능한 짧은 대기 시간 성능을 제공합니다. 이 독립형 칩은 컴퓨팅 집약적인 애플리케이션에 유연하게 통합할 수 있습니다. 이 아키텍처는 GPU보다 훨씬 간단하고 소프트웨어 중심으로 설계되어 프로그래밍이 더 쉽고 대기 시간이 짧으며 예측 가능한 성능을 제공합니다.

GroqWare™ 제품군

GroqWare 제품군은 다양한 HPC 및 ML 워크로드를 가속화하도록 설계된 포괄적이고 다양한 소프트웨어 스택입니다. Groq™ 컴파일러, Groq API 및 유틸리티로 구성된 이 제품군은 오픈 소스 드라이버/런타임 및 업계 표준 AI/ML 프레임워크 지원으로 배포 구현을 용이하게 합니다. GroQFLO™ 도구 체인(GroqWare Suite에 포함)을 사용하면 단일 라인의 Pytorch 또는 TensorFlow 코드가 완전 자동화된 도구 체인을 통해 기존 모델을 불러오고 변환하여 Groq 하드웨어에서 실행할 수 있습니다.

특징

  • 완전 결정론적 프로세서 - 실행 변동 없이 예측 가능하고 반복 가능한 성능
  • 엔드-투-엔드 온칩 보호-전체 Groqchip™ 데이터 경로에 걸쳐 ECC(오류 수정 코드) 보호 기능으로 가동 시간과 신뢰성 개선
  • 230MB의 온다이 메모리 - 외부 메모리 없이 높은 대역폭, 낮은 대기 시간의 모델 매개변수에 대한 액세스를 위해 전 세계적으로 공유 가능한 대형 SRAM
  • 9x RealScale 칩-칩 커넥터 - 외부 스위치가 필요 없는 근선형 다중 서버 및 다중 랙 확장성
  • 최대 80TBs 온다이 메모리 대역폭 - 대역폭에 민감한 애플리케이션을 위한 대규모 동시성 및 데이터 병렬 처리
  • PCIe Gen4 x16 인터페이스 - 빠른 장치 및 네트워크 연결을 위한 업계 표준 인터페이스에서 최대 31.5GB/s의 양방향 대역폭

애플리케이션

  • 금융
  • 과학과 정부
  • Generation AI
  • 산업
  • 석유 및 가스

사양

  • 이중 폭, 전체 높이, 3/4 길이 PCI Express Gen4 x16 어댑터 폼 팩터
  • 최대 750개의 TOP, 188개의 TFLOP (INT8, 900MHz에서 FP16) 성능
  • 메모리
    • 칩당 230MB SRAM
    • 최대 80TB/s 온다이 메모리 대역폭
  • 칩-칩 커넥터를 최대 9개까지 확장
  •  Numerics
    • INT8, INT16, INT32 및 TruePoint™ 기술
    • MXM: FP32
    • VXM, FP16, FP32
  • 전원
    • 최대: 375W
    • TDP: 275W
    • 표준: 240W

비디오

Groq칩 개요

블록 선도 - BittWare GroqCard™ 가속기
게시일: 2023-11-09 | 갱신일: 2024-11-25