Today
-
Yesterday
-
Total
-
  • 글로벌 AI 대전: 한국어 LLM 성능 분석 리포트
    LLM 이야기 2026. 1. 9. 17:05
    반응형

    글로벌 AI 대전: 한국어 LLM 성능 분석 리포트

     

     


    요약

    최근 대규모 언어 모델(LLM)의 성능이 상향 평준화가 되어서 그런지, 어떤 모델이 좋다는 의견이 이용자마다 분분한 편입니다. 그래서 주요 모델의 성능을 분석하기 위해, 국내 사용 환경을 고려한 대표적인 한국어 LLM 리더보드인 'Horangi: W&B Korean LLM Leaderboard 4'와 'Dnotitia LLM 한국어 리더보드'의 데이터를 기반으로 해서 모델 사이의 성능을 종합적으로 알아보았습니다. 분석 결과, 구글, 앤트로픽, OpenAI 등 미국 빅테크 기업의 모델들이 최상위권을 형성하며 기술적 우위를 보였으며, 한국의 주요 AI 기업들은 추격자 그룹을 형성하며 경쟁하고 있는 것으로 나타났습니다. 제조사 및 국가별 성능을 비교 분석하고, 글로벌 시장 내 국내 AI 기술의 현재 위치를 확인해서 향후 전망에 대한 의견을 드리기 위해서 작성했습니다만, 해당 리더보드에 공개되지 않은 AI 모델에 대해서는 정보가 부족하므로 이 데이터를 이용해서 어떤 모델이 우월하다며 일차원적으로 해석하지는 않아 주셨으면 합니다.

     

    주요 분석 결과:

    1. 글로벌 리더 그룹의 압도적 성능: 어찌 보면 당연한 이야기지만, 구글 제미나이(Gemini), 앤트로픽 클로드(Claude), OpenAI GPT 최신 모델들은 범용 언어 능력(GLP)과 가치 정렬(ALT) 성능 모두에서 가장 높은 점수를 기록하며 한국어 시장에서도 기술을 선도하고 있습니다.
    2. 국내 기업의 강력한 도전: LG 엑사원(EXAONE), SKT A.X, 업스테이지 솔라(Solar), 네이버 하이퍼클로바X(HCX), KT 믿음(Mi:dm) 등 국내 기업들의 모델들은 중상위권에 포진하여 글로벌 모델들과의 격차를 좁히고 있습니다. 특히 특정 성능 지표에서는 높은 경쟁력을 보여 국내 AI 생태계의 저력을 보여주고 있습니다.
    3. 중국 기업의 부상: 알리바바 클라우드의 Qwen 모델은 비영어권 모델 중 상위권에 오르며 미국 중심의 AI 시장에 의미 있는 경쟁자로 부상하고 있습니다.
    4. 한국어 특화 평가의 중요성: AI 개발을 하고 있거나, 도입을 고민하는 분들이라면 영어 중심의 벤치마크로는 평가하기 어려운 한국어의 고유한 언어적 특성과 사용 환경을 정확히 측정하기 위해, 국내 리더보드를 활용한 평가를 고려해 보는 것이 좋습니다. 산업군에 따라 국내 모델을 필수로 이용해야 할 경우도 있으므로, 이 데이터를 이용해서 선택에 도움이 되었으면 합니다.

    한국어 AI 선도 국가 및 기업 분석

    한국어 LLM 리더보드 데이터를 기반으로 해서, 한국어 AI 기술을 선도하는 국가 및 주요 기업들의 경쟁 구도를 알아보았습니다. 아무래도 업력 및 기술력의 격차가 있는 미국이 압도적인 선두를 유지하는 가운데 한국과 중국이 주요 경쟁자로 부상하는 양상을 보입니다.

     

     

    미국 AI 모델의 성능

    미국은 구글, 앤트로픽, OpenAI를 중심으로 LLM 기술의 최전선을 이끌고 있습니다. 이들 기업의 모델은 한국어 성능 평가에서도 최상위권을 독점하며 기술적 격차를 보여주고 있습니다.

    • Google: gemini-3-pro-preview 모델은 Horangi 리더보드에서 종합 점수 0.7693으로 최상위권에 올랐습니다. 범용 언어 성능과 가치 정렬 성능 모두에서 뛰어난 균형을 보여주었습니다. 현재는 조금 더 진보된 제미나이 3 프로 모델이 서비스되고 있기 때문에, gemini 웹 서비스 및 API를 활용한다면 약간 더 좋아진 성능을 경험할 수 있습니다.
    • Anthropic: claude-opus-4-5-20251101 모델은 종합 점수 0.7687을 기록하며 구글과 근소한 차이로 2위를 차지했습니다. 특히 범용 언어 성능에서 높은 점수를 받았습니다. 클로드 오푸스 4.5버전의 경우, 비싼 토큰 비용이라는 약점이 해결되었으므로 범용적인 활용이 가능할 듯합니다.
    • OpenAI: gpt-5.2-2025-12-11을 포함한 GPT 시리즈는 꾸준히 상위권에 이름을 올리며 강력한 성능을 입증했습니다. 유저들이 LLM 하면 가장 먼저 떠올리는 모델이다보니 무난한 선택지라는 생각이 듭니다. 다만, 타사의 성능 향상으로 인해 사용 환경에 따라 최적의 선택을 고민해 보는 것을 추천드립니다.
    • 기타 주요 기업: xAI(Grok), Meta(Llama), Mistral AI, Cohere 등의 모델들도 리더보드에 다수 포함되어 있습니다. 특히, 메타의 라마 모델은 오픈소스 LLM 중에서 독보적인 성능을 보이고 있으므로, 자체 LLM 구축을 원한다면 대체재가 별로 없다고 판단되네요. xAI의 그록은 추론 모델 한정으로 성능이 좋은 편이기 때문에, 비추론 모델은 상대적으로 추천하기 어려워 보입니다.

     

    대한민국 AI 모델의 성능

    한국은 통신사, IT 기업들을 중심으로 자체 LLM 개발에 성공하며 글로벌 시장의 강력한 추격자로 자리매김했습니다. Dnotitia와 W&B 리더보드 모두에서 다수의 국내 모델이 중상위권에 포진해 있습니다.

    • LG AI Research: EXAONE-4.0.1-32B 모델은 Horangi 리더보드에서 국내 모델 중 상위권에 오르며 기술력을 입증했습니다. 최근에는 LG에서 엑사원을 활용한 다양한 AI 서비스를 제공하며 실제 사용 사례를 쌓아나가는 모습을 보여주고 있습니다.
    • Upstage: solar-pro2-251215 모델은 뛰어난 성능으로 주목받는 국내 스타트업의 저력을 보여주었습니다. 모델 크기 대비 성능을 강조하는 최근 LLM 트렌드를 고려하면 주목할 만한 모델이라고 평가할 수 있겠습니다.
    • SKT, KT, Naver: 각각 A.X, Mi:dm, HCX 모델을 통해 통신 및 포털 기반의 AI 기술력을 선보이며 국내 AI 생태계를 이끌고 있습니다. 각자의 플랫폼 및 사업에서 서비스를 진행하고 있으나, 최상위권 모델에 비해서 성능 격차가 뚜렷하게 나타나는 편이라 사용자 입장에서는 가격 및 이용 환경에 따라 전략적으로 활용할 필요가 있습니다.

     

    비영어권 주요 경쟁자 중국 AI 모델

    중국의 알리바바 클라우드는 Qwen 시리즈를 통해 글로벌 시장에서 경쟁력을 입증하고 있습니다. Qwen3-32B와 같은 모델은 Horangi 리더보드에서도 준수한 성능을 기록하며 비영어권 모델 중 눈에 띄는 성과를 거두었습니다. 미국 중심의 기술 패권에 도전하고, 그 성과가 어느정도 나타나고 있는 중국 AI의 대표적인 예시라고 할 수 있겠습니다. 다만, 국내에서 활용하기 위해서는 지정학적 문제 등 고려할 사항이 많은 것이 흠입니다.


    제조사별 주요 모델 성능 비교

    Horangi 리더보드의 데이터를 기반으로 주요 제조사별 대표 모델의 성능을 비교하면 다음과 같습니다. 종합 점수는 범용 언어 성능(GLP)과 가치 정렬 성능(ALT) 양 쪽을 고려한 결과입니다.

     

    제조사 모델명 종합 점수 범용 언어 성능(GLP) 가치 정렬 성능(ALT)
    Google (미국) gemini-3-pro-preview 0.7693 0.7578 0.7808
    Anthropic (미국) claude-opus-4-5-20251101: high-effort 0.7687 0.7707 0.7667
    OpenAI (미국) gpt-5.2-2025-12-11 0.7505 0.7648 0.7363
    LG AI Research (한국) EXAONE-4.0.1-32B: enable-thinking 0.6555 0.5986 0.7123
    Upstage (한국) solar-pro2-251215 0.6387 0.5746 0.7028
    SKT (한국) A.X-4.0 0.6243 0.5306 0.7181
    Alibaba Cloud (중국) Qwen3-32B 0.5903 0.4767 0.7038

    source: Horangi: W&B Korean LLM Leaderboard 4 (2023.12.21 기준)

     

    • 최상위권 (Tier 1): Google, Anthropic, OpenAI의 모델들은 종합 점수 0.75 이상을 기록하며 최상위 그룹을 형성합니다. 언어 구사 능력(GLP)과 안전성(ALT) 모두에서 타 모델들을 압도하는 성능을 보여주며, 접근성 또한 좋기 때문에 항상 좋은 선택지라고 생각됩니다.
    • 경쟁 그룹 (Tier 2): LG, Upstage, SKT 등 국내 기업들과 Alibaba의 모델들은 0.6점대의 종합 점수를 기록하며 강력한 경쟁 그룹을 구성합니다. 특히 이 모델들은 가치 정렬(ALT) 성능에서 상대적으로 높은 점수를 받아 안전성과 윤리성을 중요하게 고려하는 경향이 있는 것으로 보입니다.

     


    국내 AI 기술 수준은 글로벌 시장에서 어느 정도의 위치일까요

    국내 AI 기술은 글로벌 시장에서 추격자(Fast Follower)의 위치에 있습니다. Dnotitia와 Horangi 리더보드의 데이터를 종합하면, 국내 LLM들은 전반적으로 글로벌 10위권 밖, 중상위권에 위치합니다. 이는 세계 최고 수준의 모델들과는 아직 기술적 격차가 존재함을 의미합니다. 그래서 특정 시장을 제외하고는 글로벌 LLM 모델을 대신해서 국내 AI 모델을 선택할 만한 기술적인 메리트는 크지 않은 상황입니다만, 국내 실정에 맞춘 데이터 주권 약속 및 특수 목적에 특화된 모델 제공 등 상황에 따라 국내 모델이 우위를 보이는 상황이 점점 늘어나고 있는 것을 고려해야 합니다. 다만, 해외 유저 입장에서는 모델 성능 향상으로 인해 국내 AI 모델에 대한 메리트가 갈수록 적어지는 만큼, 언제까지나 한국어 특화라는 강점 하나만 밀고 가기는 어려운 실정입니다.

     

    다만, 대기업과 스타트업 모두 자체 LLM을 개발하고 고도화하는 등 국내 AI 생태계는 매우 활발한 편이라는 점이 향후 개발을 기대할 만한 요인입니다. 국내 기업들은 한국어 데이터와 문화적 맥락에 대한 깊은 이해를 바탕으로 모델을 개발하므로, 특정 국내 서비스 및 애플리케이션에서 강점을 보일 잠재력이 크기도 합니다. 최상위권 모델들과의 '범용 언어 성능(GLP)' 격차를 줄이는 것이 핵심 과제이며, 이를 위해서는 기초 연구에 대한 지속적인 투자와 고품질 데이터 확보, 모델 아키텍처 혁신이 필요한 상황입니다.


    한국어 LLM 평가 방법론

    이 게시글이 참고한 두 리더보드는 한국어 LLM의 성능을 다각도로 평가하기 위한 방법론을 사용합니다. 자세한 내용은 각 리더보드 안내 및 아래 설명문을 참고해 주시기 바랍니다.

     

     Horangi: W&B Korean LLM Leaderboard 4

    W&B의 Horangi 리더보드는 모델의 성능을 두 가지 핵심 축으로 나누어 종합적으로 평가합니다.

    • 범용 언어 성능 (General Language Performance, GLP): 모델의 핵심적인 언어 처리 능력을 측정합니다. 예를 들어, 구문/의미 해석, 표현, 정보 검색, 일반/전문 지식, 수학/논리/추상적 추론, 코딩, 번역 등이 있습니다.
    • 가치 정렬 성능 (AI Alignment, ALT): 모델의 안전성과 신뢰성을 평가합니다.이는 제어성, 유해성 방지, 편향성 방지, 윤리/도덕, 환각 방지 등이 있습니다.

     

    Dnotitia LLM 한국어 리더보드

    Dnotitia의 리더보드는 영어 중심 벤치마크의 한계를 극복하고 한국의 실제 사용 환경을 반영하는 데 중점을 둔다고 안내하고 있습니다.

    • 평가 구성: 자체적으로 구축한 20개의 평가 항목을 사용하며, 모든 점수는 0에서 1 사이로 표준화됩니다.
    • 주요 평가 영역: 한국어 이해 및 생성 능력을 기반으로 실용적인 활용 사례인 평가(Assessment), 검색 증강 생성(RAG), 도구 사용(Tool-using) 성능을 집중적으로 측정합니다. 이 접근법은 모델이 실제 애플리케이션에서 얼마나 유용한지를 평가하는 데 효과적일 것으로 예상됩니다.

     

    source

     

     

    아래 제품 구매시 수수료를 지급받음

    반응형

    댓글

문의: jwkang3929@naver.com