AI 텍스트 유사도 74.2%는 엄청난 수치입니다. 딥시크는 챗GPT를 과연 복제했을까요? 이 문제는 앞으로의 인공지능 시장에 대한 분석과 대비가 필요해보이는 내용입니다. DeepSeek와 ChatGPT 두 대형 인공지능 모델이 이번 내용에 대한 결과가 주목됩니다.

AI 모델 간 유사도 논란, 무엇이 문제인가?


2025년 4월, AI 거버넌스 분야에서 충격적인 발표가 나왔습니다.
표절 감지 전문 기업 카피리크스(Copyleaks)가 자사 AI 분류기를 활용해 딥시크-R1이 생성한 텍스트의 74.2%가 오픈AI의 챗GPT 출력과 유사하다고 발표한 것입니다.

이 수치는 단순히 우연의 일치로 보기엔 너무 높습니다. AI 모델 간의 유사도를 측정하는 건 쉽지 않지만, Copyleaks는 문체, 문장 구조, 어휘 선택 등을 기준으로 정밀한 분석을 진행했습니다. 심지어 이 분석은 클로드, 제미나이, 라마, 챗GPT 등을 학습한 분류기를 동원한 만장일치 배심원 시스템을 통해 99.88%의 정확도를 갖췄다고 합니다.

이 결과는 AI 기술의 저작권, 데이터 활용의 투명성, 윤리적 개발 기준 등에 대해 다시금 질문을 던지게 하는군요.

AI 모델의 일체율 조사 그래프
ChatGPT 모델별 비교 (출처 : 카피리크스)

딥시크는 진짜 GPT를 ‘베낀’ 걸까?

Copyleaks의 분석 결과는 AI 모델 간 유사도를 수치화해 보여줍니다.

모델명ChatGPT와의 유사도
DeepSeek-R174.2%
Mistral AI26%
Phi-40.7%
xAi0%

가장 높은 수치를 보인 딥시크는, 마치 GPT 모델을 증류했을 가능성이 있다는 분석을 피할 수 없게 되었습니다.
증류란 대형 모델을 얕은 구조의 소형 모델로 복제하면서도 성능을 유지하는 방식인데, GPT의 결과물을 그대로 활용했다면 이는 지식재산권 침해로 이어질 수 있겠죠.

Copyleaks는 딥시크가 GPT 모델을 몰래 베껴 개발 비용을 낮추고 빠르게 시장에 진입한 것 아니냐는 의혹까지 제기하고 있다고 합니다.

인공지능을 배우는 입장에서 본 딥시크 사건

나는 AI를 연구하고 실생활에 적용해보려는 블로거입니다.
이번 사건을 접하며 가장 먼저 떠오른 감정은 “이제 기술 자체만으로는 경쟁력이 되기 어렵구나”였습니다.

GPT 계열의 고성능 모델이 일반화되면서, 후발주자들이 이를 복제하거나 비슷하게 따라 하려는 시도는 분명 존재합니다.
하지만 그 과정이 투명하지 않고, 창작자의 권리를 무시한다면, 그것은 더 이상 혁신이 아닌것이죠.

실제로 많은 스타트업이 오픈AI API를 참고해 다양한 서비스를 만들고 있지만, 그 선을 넘지 않는 개발이 중요하다는 걸 이번 사건이 보여주고 있습니다.
이런 사례가 쌓이면 AI 기술 전반에 대한 신뢰가 무너지고, 결국 사용자들도 혼란을 겪게 될 것입니다.

앞으로 AI 업계에 필요한 것들

오픈AI는 이번 사건을 계기로 정부와 공조하여 딥시크에 대한 조사를 착수했으며,
2025년 4월 17일부터는 API를 이용하려면 신원 인증(ID Verification)을 거치도록 정책을 바꿨다고 합니다.
이는 AI 모델의 무단 추출과 남용을 막기 위한 일환인 것이죠.

앞으로 AI 업계에는 다음 세 가지가 꼭 필요하다고 생각합니다.

데이터 투명성 강화

어떤 데이터를 학습했는지, 그것이 합법적인 출처인지 명확히 밝혀야 합니다.

AI 콘텐츠의 출처 추적 기술

Copyleaks와 같은 표절 탐지 기술은 필수가 될 것입니다.
특히 교육・언론・콘텐츠 산업에선 더더욱 이죠.

정책 기반의 AI 윤리 가이드라인

기술의 발전보다 윤리 기준이 느리게 따라오는 현상을 줄이기 위해,
전 세계적인 협의체가 필요한 시점일 듯 합니다.

마치며

AI는 빠르게 발전하고 있고, 그만큼 도덕적 고민도 따라올 수밖에 없습니다.
딥시크 사태는 한 기업만의 문제가 아닐 것입니다.
기술을 어떻게 쓰고, 얼마나 정직하게 적용하느냐가 모두의 미래를 바꿀 수 있습니다.

AI 개발자든 사용자든, 더 나아가 정책 입안자까지도 이번 사건에서 배워야 할 것입니다.
우리가 책임 있는 방향으로 AI를 다룬다면, 앞으로의 기술은 훨씬 더 건강하게 진화할 수 있을 것입니다.
지금은 비판보다 투명한 개선을 요구할 때다.

작성자 | Dr.Lee

Similar Posts