딥시크의 쇼크, 그들만의 리그를 뒤집다
페이지 정보

조회 155회 작성일 25-02-24 13:57
본문
(이 칼럼에서는 DeepSeek 알고리즘 논쟁 등 세부적 이슈들은 굳이 논하지 않도록 하겠습니다)
먼저 AI 트렌드 세터들의 주목을 한눈에 받은 DeepSeek에 대해서 좀 알아볼까요?
DeepSeek(중국 명칭 深度求索(심도구색))는 중국 헤지펀드 회사 환팡퀀트(幻方量化) 소속의 인공지능 연구 회사 이름이자, 같은 회사에서 개발한 오픈 웨이트(Open-Weights) 언어 모델 제품군의 모델명입니다.
특히 작년 12월 발표된 DeepSeek-V3 모델은 서구권에서 개발된 LLM 모델과 경쟁할 수 있을 정도의 성능을 보여 많은 주목을 받았는데, 특히 V3를 개발하는 데 고작 80억 원 수준에 불과한 적은 비용이 들었다는 사실을 같이 홍보하면서, 수천억 원의 비용을 들여 엄청난 연산 자원을 축적해야만 고성능 AI를 개발할 수 있다고 믿어왔던 엔비디아와 미국 빅테크 주도의 물량 중심 시장의 고정관념을 깨뜨리는 계기가 되었습니다.
OpenAI, 구글, MS, 메타 등등 빅테크 선두 그룹들이 조 단위의 천문학적인 자금을 AI 개발에 투입하는 상황에서 이 발표는 워낙 충격적이라 학습에 필요한 자금을 축소하여 발표한 것이 아니냐는 의혹이 제기되기도 했습니다.
그 후 이 회사는 한술 더 떠 올해 1월에 발표된 추론 모델, DeepSeek-R1을 발표했는데요, 이 모델은 supervised fine-tuning 기법을 건너뛰고 오로지 강화학습 기법만으로도 뛰어난 추론 성능을 얻어낼 수 있음을 증명했다는 높은 평가를 받았습니다. 특히 장 높은 성능을 가졌다고 평가되던 최신 OpenAI o1 모델과 비교하여 수학, 영어, 코딩 부문에 있어 경쟁할 수 있는 수준의 성능을 갖추면서도, 최대 95%까지 더 저렴한 가격을 내세워 전 세계의 관심을 끌었습니다. 게다가 한술 더 떠서 발표한 논문에서 추론 학습 방법 전체를 공개해버렸기 때문에 AI 주도권을 갖기 위해 천문학적인 투자를 통해 허겁지겁 리드를 유지하려고 애쓰던 빅테크 중심의 추론 AI 섹터를 그야말로 폭탄을 던진 꼴로 만들어버렸습니다. 특히 엔비디아는 삼성전자 시총(340조)의 2배 이상이 이틀 만에 증발하기도 했습니다.

제가 세부 자료를 찾아보니, 겨우 2048개 NVIDIA H800 클러스터를 이용해 278만 8천 GPU 시간만에 671B에 달하는 대형 모델을 학습했다고 하는데 이 발표는 조사 결과 중국 특유의 과장으로 밝혀지기는 했지만 (업계 전문가는 약 5만 대 정도를 사용했다고 하더라고요) 그렇다고 하더라도 H800은 미국의 대(對)중국 수출 규제에 따른 중국 수출용 모델(H100을 중국 규제에 맞춰서 만든 저가형 모델)로, 원본인 H100 대비 NVLink 대역폭이 반토막 나고 전송 속도는 3%인 저가형 스펙다운 모델이기 때문에 충격적이기는 마찬가지입니다. 개발 비용은 오픈AI의 챗GPT 대비 약 5.6~5.8% 수준으로 정리되는 듯합니다.
난리가 났지요. 실제로, 비교적 적은 비용으로 논문의 결과가 재현된다는 것이 홍콩대 연구진에 의해 확인되었으며 벌써 수백 건의 학습 과정을 복제하려는 프로젝트들도 속속 생겨나고 있습니다. 학계에서는 DeepSeek의 성공 사례를 참조하여 DeepSeek의 완전한 복제보다는 DeepSeek의 접근 방식을 참고해 자체 모델을 전환하거나 추가로 개선하는 방향으로 진행되고 있는 케이스가 많다고 합니다. DeepSeek는 공개된 뒤 며칠 만에 애플 앱스토어에서 가장 많이 다운로드된 애플리케이션에 올랐다고 합니다.
IDC의 성능 집약적 컴퓨팅 및 전 세계 인프라 리서치 담당 부사장 피터 러튼(Peter Rutten)은 DeepSeek와 관련해 주목할 점이 있다며, AI가 더 크고, 더 많고, 더 빠른 아키텍처를 통해서만 개선될 수 있다는 이론에 기반한 현재의 AI 학습 접근 방식을 뒤흔든다고 했습니다. “AI 개발을 위한 알고리즘, 프레임워크, 소프트웨어에 대한 새로운 접근 방식은 더 낮은 인프라 비용으로 최신 버전의 챗GPT와 동등하거나 더 나은 결과를 제공한다. 이것은 AI 학습이 대규모 인프라 구축에 수십억 달러를 투자할 수 있는 하이퍼스케일러의 전유물이 될 필요가 없다는 것을 의미한다. 중소 규모의 AI 이니셔티브도 모델을 사용자 지정하거나 파인튜닝하는 것, 모델을 추론하는 등의 작업이 상당히 더 저렴해질 수 있다. DeepSeek가 개발한 기술로 앞으로 AI 워크로드는 다른 워크로드만큼 저렴해질 것이다.”라고 했습니다. 즉 DeepSeek의 접근 방식은 비용과 공간 측면에서 일반 기업도 대규모 AI 개발을 할 수 있음을 의미한다고 덧붙였습니다.
<참고: IDG - 딥시크(DeepSeek)가 촉발한 AI 시장의 지각 변동. 2025. 2. 3>
이처럼 초격차 투자 전략과 NVIDIA GPU 수출 통제 등으로 중국 AI의 추격을 방어하던 서방 세계들은 쇼크에 빠졌고, 부랴부랴 발등에 불이 떨어진 상황에서 이러한 DeepSeek의 충격파를 폄하하려는 의도로, 중국발 AI의 신뢰성을 보안 위협과 개인정보 유출, 그리고 기존 AI 빅테크들의 기술 유용 등을 거론하며 DeepSeek의 붐이 확산되는 것을 막기 위해 애쓰고 있습니다.
25년 1월 말, 오픈AI는 DeepSeek와 관련된 것으로 보이는 인물들이 오픈AI의 API(Application Programming Interface)를 활용해 대규모 데이터를 추출한 혐의를 제기했습니다. 즉 이미 대규모 투자를 통해 학습된 오픈AI의 정제된 데이터를 사용했다는 주장입니다만, 그간 인터넷의 모든 데이터를 무상으로 긁어모아 인공지능 모델을 만들어왔던 기존 기업들이기에 반응은 싸늘합니다.
그 외에 가 불러일으킨 충격을 애써 방어하기 위한 테크 리더 혹은 언론들의 주요 딥시크 공격 논지는 다음과 같습니다.
1. 개인정보 외에 기기 정보, 키보드 입력 패턴, IP 주소, 쿠키 등 광범위한 데이터 수집 2. 개인정보 수집을 거부할 수 있는 '옵트아웃(Opt-out)' 옵션을 제공하지 않아, 사용자들은 데이터를 제공하지 않으면 서비스를 이용할 수 없다. 3. DeepSeek의 데이터베이스가 노출되는 사고가 발생하면서 사용자 채팅 기록, API 인증 키 등 민감한 정보가 유출된 사례가 확인 4. DeepSeek의 데이터 수집 방식이 민감한 업무 정보나 국가 기밀이 중국으로 유출될 가능성을 내포 5. DeepSeek에 가장 민감할 수 밖에 없는
오픈AI는 DeepSeek가 "디스틸레이션(distillation)" 기법을 활용해 GPT-4 기반의 AI 모델을 개발했을 가능성이 높다고 지적했다. |
물론 충분히 근거 있고 상기해야 하는 내용이기는 하지만 맨 마지막의 정제된 데이터의 유출과 관련된 내용을 제외하고는, DeepSeek의 혁신에 대한 진정한 고찰이나 성공 요인을 되짚어보기보다는 DeepSeek 충격의 본질이 아닌 보안 이슈, 중국 폄훼 등으로 변죽만 울리는 분석으로 보입니다.
2025년 2월 말 시점 기준으로, 급하게 진행되던 DeepSeek 사태로 일어난 지금까지의 상황은 이렇게 요약될 수 있을 것 같습니다.
다음 칼럼에서는 이러한 DeepSeek 사태가 우리와 같은 솔루션 업계의 마케터들에게 주는 주요한 인사이트에 대해 말씀을 나누도록 하겠습니다.
- 이전글마이너리거의 판뒤집기 전략 25.02.24
- 다음글유비스톰, 전자서식 솔루션 'eForm v6' 출시 24.12.17