fbpx

엔비디아는 왜 ‘AI 팩토리’를 만들고 있는가?

엔비디아의 ‘루빈’은 더 빠른 GPU가 아니라 AI를 지속 가능한 산업 인프라로 만들기 위한 설계 전환이다. 성능 경쟁을 넘어 메모리·전력·비용 구조를 재편하는 ‘AI 팩토리’ 전략의 실체를 짚는다.

2026년 새해, 인공지능 컴퓨팅의 중심축이 다시 한 번 흔들렸다. 라스베이거스에서 열린 세계 가전 쇼 CES 2026 무대에서 엔비디아(NVIDIA)는 기존 블랙웰(Blackwell) 아키텍처를 잇는 차세대 AI 하드웨어 플랫폼 ‘루빈(Rubin)’을 공식 발표했다. 엔비디아는 루빈을 “지금까지 공개된 기술 중 가장 진보된 AI 컴퓨팅 시스템”이라고 소개하며, 단순한 성능 개선이 아니라 새로운 세대의 출발점임을 분명히 했다.

지난 10여 년간 인공지능 컴퓨팅의 무게중심은 거의 예외 없이 엔비디아에 놓여 있었다. 대규모 병렬 연산을 처리하는 GPU(Graphics Processing Unit)와 이를 병렬 컴퓨팅 개발 환경으로 확장한 CUDA(Computed Unified Device Architecture)가 이 생태계의 핵심 축을 이뤘다. 이는 고성능 컴퓨팅(HPC)과 생성형 AI의 사실상 표준이 되었고, 데이터센터의 설계 방식 자체를 규정해 왔다. 대학 연구실에서부터 프런티어 모델을 개발하는 빅테크 기업, 국가 슈퍼컴퓨팅 센터에 이르기까지 대규모 AI 워크로드는 언제나 ‘엔비디아를 기본값(default)’으로 삼아 구축되어 왔다.

그러나 CES 2026에서 공개된 루빈은 단순히 “더 강력한 GPU”를 의미하지 않았다. 이 발표는 지난 10년간 유지돼 온 AI 컴퓨팅 질서가 어디까지 확장됐고, 이제 어디서부터 다시 설계돼야 하는지를 묻는 신호에 가까웠다.

CUDA가 만든 ‘사실상의 표준’

엔비디아의 지배력은 하드웨어 성능 그 자체에서 비롯된 것이 아니다. 그 핵심에는 엔비디아의 병렬 컴퓨팅 개발 환경인 CUDA가 있다. GPU는 본래 인공지능 전용 프로세서가 아니라, 대규모 병렬 수치 연산을 처리하기 위한 계산 엔진에 가깝다.

CUDA는 단순한 프로그래밍 도구가 아니다. 병렬 컴퓨팅을 다루는 개발자들의 접근 방식 자체를 바꿨고, 그 결과 머신러닝 프레임워크와 라이브러리, 최적화 기법 대부분이 CUDA 기반으로 발전했다. 빠르게 변화하고 불확실성이 큰 AI 산업에서 이러한 표준화와 재현 가능성은 무엇보다 중요한 경쟁력이었다.

CUDA를 중심으로 형성된 생태계에서는 프레임워크와 라이브러리, 커널 최적화, 분산 통신, 디버깅 도구까지 AI 개발의 거의 모든 경로가 하나의 기준 아래 정렬됐다. 이로 인해 엔비디아는 단순히 연산 가속기를 공급하는 기업을 넘어, AI를 어떻게 만들고 운영할 것인지에 대한 방법론 자체를 규정하는 플랫폼 기업으로 자리 잡았다.

CUDA 생태계가 제공한 가장 강력한 가치는 최고 성능이 아니라 확실성이다. 동일한 코드의 재현 가능성, 풍부한 개발 인력 풀, 예측 가능한 배포 환경은 기업 입장에서 결정적인 의미를 가진다. 이런 이유로 엔비디아를 선택하는 일은 모험이 아니라, 리스크를 최소화하는 전략으로 굳어졌다.

CUDA 13.1이 보여주는 방향 전환

최근 공개된 CUDA 13.1의 변화는 단순한 성능 개선이나 API 확장으로 보기 어렵다. 오히려 GPU 프로그래밍의 추상화 수준을 한 단계 끌어올리려는 시도에 가깝다. 새롭게 도입된 CUDA 타일(tile)은 기존의 스레드 중심 SIMT(Single Instruction, Multiple Threads) 모델에서 벗어나, 여러 스레드를 하나의 연산 단위로 묶은 ‘타일’ 단위로 계산을 표현하도록 한다. 이 방식에서는 개발자가 개별 스레드의 동작과 동기화를 직접 제어할 필요가 줄어들고, 실제 병렬 실행과 하드웨어 매핑은 컴파일러와 런타임이 담당한다.

애플리케이션이 데이터를 블록 단위로 나누는 타일 모델(왼쪽)과 데이터가 블록과 스레드 구조에 동시에 직접 매핑되는 SIMT 모델(오른쪽)을 비교함. (출처: NVIDIA 기술 블로그)

이 변화의 의미는 단순한 생산성 향상에 그치지 않는다. CUDA 타일은 특정 GPU 세대의 구조에 강하게 묶이지 않도록 연산을 표현하려는 방식이다. 여기서 말하는 텐서 코어(Tensor core) 배치나 워프(Warp) 구조는 GPU 내부에서 계산을 담당하는 장치들이 어떻게 배치돼 있고, 연산이 어떤 묶음 단위로 처리되는지를 뜻한다. 최근 GPU는 서로 다른 종류의 계산 장치들이 한 칩 안에 섞여 있고 메모리 구조도 훨씬 복잡해졌다. 이런 환경에서는 하드웨어가 바뀔 때마다 위의 방식과 구조에 맞춰 작성된 소프트웨어가 영향을 받기 쉽다. 엔비디아가 CUDA 타일을 도입한 것은 이런 하드웨어 변화에 소프트웨어가 덜 민감하도록 만들기 위한 전략적 선택이다.

이를 위해 엔비디아는 CUDA 소스 코드와 GPU가 실제로 실행하는 명령(SASS) 사이에 타일이라는 독립적인 중간 표현(IR)을 추가했다. 이 중간 단계에서는 세부적인 워프 구조나 연산 장치의 위치를 직접 다루지 않고, 여러 연산을 하나의 타일 단위로 묶어 표현한다. 기존의 스레드 중심 실행 모델인 PTX를 확장해, 타일 단위 연산을 기본 전제로 하는 새로운 가상 실행 계층을 만들려는 시도다.

주목할 점은 이 새로운 프로그래밍 모델이 C/C++이 아니라 파이썬(Python) 환경에서 먼저 공개됐다는 사실이다. 이는 CUDA가 더 이상 저수준 성능 전문가만의 도구가 아니라 AI 연구자와 데이터 과학자의 주요 작업 무대로 확장되고 있음을 보여준다. 여기에 실행 자원을 분리하는 그린 컨텍스트와 라이브러리 최적화가 결합되면서, CUDA 13.1은 GPU 경쟁의 다음 단계가 ‘더 많은 스레드’가 아니라 하드웨어 복잡성을 감춘 고수준 추상화에 있음을 분명히 한다.

차세대 AI 컴퓨팅 아키텍처, 루빈

GPU가 복잡해질수록 CUDA는 그 복잡함을 개발자 대신 처리하며 성능을 최대한 끌어내는 쪽으로 발전해왔다. 이러한 상황에서 엔비디아는 루빈 아키텍처를 내놓았다. 루빈은 단일 GPU가 아니라 GPU·네트워크·저장소를 포함한 AI 인프라 전반을 하나의 시스템으로 묶은 통합 AI 컴퓨팅 플랫폼이다. 랙(rack)과 데이터센터 단위에서 대규모 AI 학습과 추론(inference)을 장기간 안정적으로 처리하는 것을 전제로 설계됐다.

AI 학습(왼쪽) 및 추론(오른쪽)에서의 막대한 효율성 향상 (출처: NVIDIA 웹사이트)

루빈은 이전 세대인 블랙웰과 비교해 의미 있는 성능 개선을 이뤄냈다. 학습 단계에서는 동일한 처리량을 기준으로 GPU 요구량을 최대 4분의 1 수준까지 줄였고, 추론 단계에서는 일정 수준의 지연 시간을 허용할 경우 토큰당 비용을 최대 10분의 1까지 낮췄다. 이는 단순한 벤치마크 수치 개선을 넘어, AI 활용 중심이 학습에서 대규모 실시간 추론으로 이동하고 있음을 보여주는 지표다.

이제 AI는 “한 번 학습하고 끝나는 모델”이 아니라, 24시간 내내 사용자와 에이전트, 다양한 시스템과 상호작용하는 상시 가동 인프라로 진화하고 있다. 초당 5경(50×10¹⁵)번의 계산을 수행할 수 있는 최대 50페타플롭스급 연산 성능 자체도 인상적이지만, 루빈의 진짜 강점은 와트당 처리 성능, 즉 전력 효율에서 더 분명하게 드러난다. 동일한 전력 조건에서 더 많은 연산을 처리하고, 같은 데이터센터 규모에서 더 많은 AI 워크로드를 수용할 수 있기 때문이다.

이 지점에서 ‘와트당 성능’은 핵심적인 기준이 된다. 오늘날 AI 인프라의 병목은 더 이상 GPU 수급만이 아니다. 전력 공급 한계, 냉각 비용, 데이터센터 증설 규제와 같은 현실적인 제약 속에서 단순히 ‘더 빠른 GPU’는 해답이 될 수 없다. 블랙웰이 AI 컴퓨팅의 규모를 키웠다면, 루빈은 그 규모를 지속 가능하게 만드는 단계로 끌어내린 아키텍처라고 볼 수 있다.

엔비디아의 새 추론 메모리 계층, ICMS

AI 산업이 학습 중심에서 추론 중심으로 이동하면서, GPU의 병목 지점도 달라지고 있다. 이제 한계는 연산 성능이 아니라 메모리 계층에서 발생한다. 대규모 언어 모델 추론에서 가장 큰 비용 요소는 모델 파라미터 자체가 아니라, 추론 과정에서 생성되고 유지되는 KV 캐시(Key-Value Cache, AI 작업 기억 장치)와 컨텍스트 상태다. 이 데이터는 초당 수천에서 수만 번 접근되며, 고가의 HBM(High Bandwidth Memory)을 지속적으로 점유한다. HBM 가격이 상승하는 환경에서 이러한 구조를 그대로 유지하는 것은, GPU 성능이 향상될수록 오히려 총 소유비용(TCO)이 악화되는 역설로 이어진다.

이 변화의 중심에 있는 것이 엔비디아의 추론 컨텍스트 메모리 저장소(ICMS, Inference Context Memory Storage)다. ICMS는 목적 자체가 다르며, 데이터를 저장해 두었다가 꺼내 쓰는 장치가 아니라, GPU가 계산을 이어 가기 위해 잠시 ‘기억하고 있어야 할 정보’를 네트워크 너머까지 확장해 주는 새로운 개념의 메모리 확장 방식이이다.

여기서 말하는 KV 캐시와 추론 컨텍스트는 AI가 답을 만들어 가는 과정에서 ‘지금까지 무슨 생각을 했는지’를 담고 있는 작업 상태에 해당한다. ICMS는 이 상태 정보를 저장소처럼 다루지 않고, GPU가 즉시 접근해 계속 계산을 이어 갈 수 있는 실행 중인 메모리 상태로 취급한다. 이는 장기 보관용 데이터가 아니다. 모델이 추론을 이어 가는 동안에만 잠깐 존재하는 작업용 정보로, 수 초에서 수 분 내에 생성되고 소멸된다.

NVIDIA ICMS 아키텍처 다이어그램 (출처: 세미 어낼리시스사의 조나던 나노스 X)

중요한 점은 ICMS가 HBM을 대체하려는 시도가 아니라는 사실이다. HBM은 여전히 GPU 내부에서 연산과 어텐션 서브 레이어 계산을 담당하는 핵심 메모리이며, 그 역할은 대체 불가능하다. ICMS가 해결하려는 문제는 HBM의 절대적인 성능 한계가 아니라, HBM이 지나치게 비싸고 물리적으로 제한적이라는 경제적 현실이다. 다시 말해 ICMS는 지금 당장 계산에 꼭 필요하지 않은 정보는 GPU 밖의 별도 계층으로 잠시 옮겨 두고, GPU는 핵심 계산에만 집중하도록 만드는 구조다. 이렇게 하면 같은 GPU로도 더 많은 AI 작업을 효율적으로 처리할 수 있다.

이 과정에서 SSD가 중요한 역할을 한다. SSD는 반도체 기반 저장장치로, 전원이 꺼져도 데이터를 유지하면서 기존 하드디스크보다 훨씬 빠르게 데이터를 읽고 쓸 수 있다. 비록 DRAM이나 HBM보다는 느리지만, 재계산에 드는 비용과 GPU가 아무 일도 하지 않고 대기하는 시간을 고려하면, 전체 시스템 차원에서는 경제적인 대안이 될 수 있다. 특히 KV 캐시 가운데 상대적으로 접근 빈도가 낮거나 재사용 가능한 부분을 플래시 계층으로 내려보내면, GPU는 동일한 HBM 용량으로 더 많은 동시 세션과 더 긴 컨텍스트를 처리할 수 있다. 이때 성능의 기준은 단일 토큰의 지연 시간이 아니라, 전체 시스템 차원의 처리량과 비용 효율이다.

만약 SSD를 NVMe(Non-Volatile Memory Express, 서버 내부에서 저장장치를 고속으로 연결하는 방식) 형태로 GPU가 장착된 서버 안에 설치하면, 데이터 이동은 PCIe(Peripheral Component Interconnect Express, 서버 내부 부품을 연결하는 고속 통로) 안에서 모두 처리된다. 이 경우 데이터가 네트워크로 나가지 않기 때문에, 네트워크 트래픽이나 광모듈 수요가 추가로 발생하지 않는다.

반면 SSD를 랙 단위로 분리해 별도의 저장 풀로 구성하거나 여러 랙이 공동으로 사용하는 구조에서는 접근 방식이 달라진다. 이때는 NVMe-oF(NVMe over Fabrics, NVMe를 네트워크를 통해 사용하는 방식)나 ICMS와 같은 구조가 필요해지고, GPU와 저장장치 사이의 데이터 이동은 RDMA(Remote Direct Memory Access, CPU 개입 없이 네트워크로 메모리에 직접 접근하는 기술) 기반 이더넷 패브릭을 통해 이루어진다.

특히 이러한 데이터 이동이 랙을 넘어 데이터센터 중심부(spine) 구간까지 확장될 경우, 트래픽이 빠르게 증가하면서 400G나 800G급 광 링크에 대한 수요도 함께 커질 수 있다.

ICMS는 스토리지가 아니라 메모리이며, 메모리라기보다는 GPU 플랫폼의 영향력을 네트워크와 랙 단위로 확장하는 장치다. SSD가 이 구조에 포함된다고 해서 HBM을 대체하는 것은 아니다. 대신 SSD는 GPU가 ‘사고(reasoning)를 이어가기 위해 필요한 기억’을 보다 저렴한 비용으로 보관하는 장소가 된다. 이 과정에서 데이터 이동은 늘어나고, 특정 구성에서는 광케이블 수요도 함께 증가할 수 있다. 그러나 그 모든 변화는 하나의 목적을 향한다. 바로 비싼 GPU를 더 오래, 더 많이, 더 효율적으로 쓰기 위함이다.

AI 데이터센터 구축이 본격화되면서 AI 서버 수요가 급증하고 있다. 여기에 GPU 한 개당 탑재되는 HBM 용량까지 빠르게 늘어나면서, 엔비디아는 이번에 아키텍처 자체를 크게 진화시켰다. 그 결과 하나의 서버 노드(서버를 구성하는 최소 단위. CPU·GPU·메모리·저장장치를 함께 묶은 하나의 ‘계산 덩어리’) 기준으로 보면, DRAM과 HBM을 합친 전체 메모리 용량이 과거의 일반 서버에 비해 수십 배까지 커졌다. 문제는 이 변화가 성능 향상과 동시에 메모리 비용과 시스템 가격 상승으로 이어질 가능성을 내포하고 있다는 점이다. ICMS는 진화의 방향을 가장 명확하게 보여주는 신호다. 추론 시대의 경쟁력은 더 이상 연산 능력만으로 결정되지 않는다. 누가 GPU의 기억을 가장 효율적으로 설계하느냐가 다음 AI 인프라 경쟁의 승패를 가르게 되기 때문이다.

차세대 추론 전장을 겨냥한 NVIDIA의 승부수, 그록 합병

그러한 점에서 볼 때, 엔비디아가 인공지능 추론 기술 스타트업인 그록(Groq)의 핵심 인력을 흡수한 결정은 선견지명에 가깝다. 이번 거래는 2019년 GPU 네트워크 기업 멜라녹스(Mellanox) 인수 이후 엔비디아 역사상 최대 규모로, 비독점 기술 라이선스 계약과 함께 핵심 인력을 확보하는 방식으로 진행됐다.

이러한 인력 흡수는 젠슨 황 대표가 구상하는 차세대 ‘AI 팩토리’ 개념과 맞닿아 있다. 더 이상 GPU 하나로 모든 워크로드를 처리하는 구조는 충분하지 않다. AI 작업을 단계별로 분해하고, 각 단계에 최적화된 연산 엔진을 배치한 뒤 이를 하나의 시스템으로 통합하는 인프라가 필요해졌기 때문이다. 차세대 AI 팩토리의 본질은 ‘더 빠른 칩’이 아니라 ‘더 잘 설계된 흐름(flow)’에 있다. 이는 데이터 수집부터 학습·추론·배포까지의 전 과정을 하나의 생산 라인처럼 연결하고, 네트워크·메모리·스토리지·자원 관리까지 포함한 전체 인프라를 함께 설계해야 한다는 의미다.

이 구조에서 CPU는 워크로드의 생명주기 관리와 자원 할당을 담당하고, GPU는 대규모 병렬 연산과 학습을 맡는다. DPU(Data Processing Unit)는 데이터 이동과 보안, 네트워크 오프로딩을 전담한다. 문제는 추론 단계다. 이 단계에서는 지연 시간의 안정성, 처리량의 예측 가능성, 에너지 효율이 중요해지는데, 이 지점에서 범용 GPU만으로는 한계가 드러나기 시작했다. 이 때문에 대규모 언어 모델을 보다 예측 가능하게 순차 처리할 수 있는 전용 ASIC(Application-Specific Integrated Circuit)이 필요해졌고, 이러한 요구가 엔비디아가 그록의 LPU(Language Processing Unit)에 주목하게 된 배경으로 해석된다.

GPU의 ‘허브 앤 스포크’ 접근 방식(왼쪽)보다 훨씬 빠르고 효율적인 그록 LPU의 프로그래머블 어셈블리 라인 아키텍처(오른쪽) (출처: 그록 LPU 블로그)

LPU는 학습(training)을 위한 프로세서가 아니라, 언어 모델의 순차적 추론, 즉 토큰을 하나씩 생성하는 디코드(decode) 단계에 특화된 프로세서다. 이 구간에서는 단순한 연산 성능보다 지연 시간(latency)의 안정성과 처리 흐름의 예측 가능성이 성능을 좌우한다. 이를 위해 LPU는 GPU와 전혀 다른 실행 방식을 채택했다. GPU가 실행 중 상황에 따라 연산 순서를 조정하는 동적 스케줄링과 캐시 구조에 의존하는 반면, LPU는 컴파일러가 모든 실행 순서를 사전에 결정하고 하드웨어는 이를 그대로 수행하는 결정론적(deterministic) 구조를 따른다. 이 방식에서는 캐시 미스나 예측 불가능한 지연 요소가 구조적으로 제거되며, 토큰 하나를 생성하는 데 걸리는 시간이 일정하게 유지된다.

메모리 구조의 차이도 결정적이다. GPU는 칩 외부에 위치한 고대역폭 메모리(HBM)에 크게 의존한다. 반면 LPU는 외부 HBM 대신 칩 내부에 대용량 온칩 SRAM(Static Random Access Memory)을 탑재했다. 이 구조는 메모리 접근 거리를 극단적으로 줄여, 토큰 생성 속도와 응답 시간을 안정적으로 유지할 수 있게 한다. GPU가 ‘다목적 작업장’이라면 LPU는 토큰 생성을 위해 설계된 ‘자동화 조립 라인’에 가깝다.

이 차이는 추론 과정의 단계 구분에서 더욱 분명해진다. 추론은 일반적으로 프리필(prefill) 단계와 디코드(decode) 단계로 나뉜다. 프리필 단계는 입력 문맥을 한 번에 처리하는 구간으로, 연산량이 크고 GPU에 유리하다. 반면 디코드 단계는 연산량보다 메모리 지연과 응답 속도가 중요해지며, SRAM 기반 아키텍처가 독보적인 강점을 가진다. 최근 기업 환경에서 빠르게 늘어난 AI 에이전트 워크로드는 하나의 요청이 여러 차례의 짧은 디코드 루프를 반복하는 형태를 띠고 있으며, 이 경우 배치 크기는 작아지고 지연 시간은 누적된다. 이러한 환경에서는 GPU 중심 구조의 비효율이 드러나지만, 초저지연·고대역폭 SRAM 구조는 오히려 강점이 된다.

차세대 루빈(Rubin) 아키텍처가 지향하는 것도 바로 이 지점이다. 엔비디아는 학습과 프리필, 고밀도 배치 추론, 초저지연 에이전트 추론과 사고 기반 디코드를 각각 최적화된 엔진으로 분해하고, 이를 하나의 시스템으로 통합하려 한다. 이 맥락에서 그록의 LPU는 단순한 보완재가 아니다. 메모리 공급 문제 때문이 아니라, 워크로드의 성격 자체가 바뀌었기 때문에 필요해진 아키텍처다. 토큰 생성 속도와 응답성이 곧 경쟁력이 되는 시대에서, LPU는 루빈 아키텍처가 완성되기 위해 반드시 필요한 퍼즐 조각에 가깝다.

GPU 이후의 전장: 엔비디아가 직면한 진짜 문제는 ‘메모리와 비용 구조’다

이러한 기술적 진화에도 불구하고, GPU 중심 AI 인프라가 안고 있는 구조적 비용 문제는 점점 더 분명해지고 있다. GPU는 고가의 하드웨어일 뿐 아니라, 전력 소비와 냉각, 네트워크 구성까지 포함하면 총 소유 비용(TCO)이 빠르게 증가한다. AI가 연구 단계를 넘어 상시 서비스와 추론 중심의 프로덕션 환경으로 확산될수록, 이 비용 구조는 더 이상 부차적인 문제가 아니다.

결국 이 모든 흐름은 하나의 질문으로 수렴한다. “엔비디아의 진짜 골칫거리는 무엇인가?” 그 답은 GPU 경쟁사도, 네트워크 장비 기업도 아니다. 가장 근본적인 문제는 메모리 비용과 메모리 확장성이다. 이 문제는 더 비싼 GPU를 판매하는 방식만으로는 해결할 수 없다. 그래서 엔비디아는 소프트웨어 최적화에만 의존하지 않고, 메모리 계층 자체를 재정의하는 방향을 선택했다.

오늘날 엔비디아의 지배력은 단일한 경쟁자에 의해 흔들리고 있는 것이 아니다. 구글의 TPU(Tensor Processing Unit, 구글이 자체 개발한 전용 AI 가속기), 아마존의 AWS 트레이니엄(클라우드 환경에서 AI 학습 비용 절감을 목표로 한 전용 칩), GPU 제조사 AMD의 대안적 GPU 로드맵, 중국 통신 장비 기업 화웨이의 수직 통합형 AI 인프라 전략, 그리고 한국을 포함한 각국의 소버린 AI 전략까지, 서로 다른 약점을 파고드는 다수의 추격자들이 동시에 등장하고 있다. 지금 벌어지고 있는 변화는 단순한 GPU 칩 경쟁이라고 보기 어렵다.

이 흐름은 “어떤 칩이 더 빠른가”라는 질문을 넘어선다. 핵심은 AI 데이터센터를 어떻게 설계할 것인가, 이를 어떤 방식으로 대규모로 배치할 것인가, 그리고 어떤 비용 구조로 운영해야 AI를 연구 실험이 아니라 산업 인프라로 지속 가능하게 만들 수 있는가에 대한 근본적인 재검토에 가깝다. 연산 성능뿐 아니라 전력 효율, 메모리 계층, 네트워크 구조, 운영 안정성, 총 소유 비용이 모두 동등하게 중요한 판단 기준으로 떠오르고 있다. 문제의 핵심은 더 이상 성능 경쟁 그 자체가 아니다. 진짜 경쟁은 국가와 민간이 함께 참여해, 산업 규모에서 지속 가능한 AI 컴퓨팅을 누가 먼저 구축할 수 있는가에 있다.

이 글을 쓴 서진호 칼럼니스트는 현재 AI 경영학회 이사(https://aiba.or.kr/)로, 마이크로소프트에서 테크니컬 에반젤리스트를 역임했으며, HPE 아시아 퍼시픽 인도지역에서 HPC&AI 프리세일즈 아키텍트로 근무했다.