-
요즘 자주 들리는 프롬 스크래치 논란, 어떤 뜻이길래 AI 모델을 처음부터 만든다는 의미로 쓰이는걸까LLM 이야기 2026. 1. 23. 15:55반응형

요약
프롬 스크래치(From Scratch)는 기존 코드나 모델을 활용하지 않고 기초 단계부터 직접 구축하는 개발 방식을 의미합니다. 특별한 용어는 아니고 관용적으로 활용되는 말이라서 지금까지는 크게 주목받지 않던 개념이었습니다만, 최근 국가대표 AI 개발 사업 및 국내 LLM 모델의 표절 논란이 주목받으며 이 용어가 많이 보도되고 있습니다.

최근 인공지능 관련 뉴스를 보다 보면 "프롬 스크래치로 개발했다"는 표현이 유독 자주 등장합니다. 특히 특정 AI 모델이 다른 모델을 참고했는지, 아니면 완전히 독립적으로 만들어졌는지를 두고 논쟁이 벌어질 때 이 말은 거의 빠지지 않습니다. 개발자가 아니라면 이 표현이 다소 추상적으로 느껴질 수 있답니다. 정말 말 그대로 아무것도 없는 상태에서 전부 새로 만든다는 의미일까요?
프롬 스크래치란
프롬 스크래치는 인공지능, 소프트웨어 개발, 시스템 설계 등 여러 기술 분야에서 사용되는 관용적인 표현입니다. 기존에 존재하는 코드, 모델, 아키텍처, 외부 프레임워크를 재사용하지 않고 기초 단계부터 직접 구현한다는 점을 표현하는 말이지요. 특정 알고리즘이나 시스템을 만들 때, 선행 구현체를 가져오지 않고 초기 상태에서 개발을 시작하는 방식은 현대 프로그래밍 업계에서 꽤나 어려운 일이라는 점을 생각해 본다면 기술력을 과시하기 위한 표현으로 더할 나위 없이 좋다는 느낌이 듭니다.
이 방식의 핵심은 결과물이 아니라 과정에 있습니다. 내부 메커니즘을 하나씩 직접 설계하고 구현해야 하기 때문에, 자연스럽게 구조와 원리에 대한 이해도가 높아지고, 이것이 개발 기술력으로 이어지게 됩니다. 그래서 프롬 스크래치는 상용 서비스보다는 학습 목적이나 연구 개발 초기 단계에서 자주 활용되는 말입니다. 요즘 이슈가 되고 있는 생성형 인공지능 모델을 기반으로 설명하자면, 기성 모델이나 사전 학습된 모델의 가중치를 사용하지 않는 것이 일반적인 특징입니다.
어디에서 실제로 활용되고 있을까
딥러닝과 머신러닝 분야에서는 프롬 스크래치 방식이 학습 및 자체 기술 개발용으로 많이 사용됩니다. 기존에 공개된 AI 모델(LeNet, GoogleNet, LLaMA, Qwen 등의 모델 등)을 참조하지 않고 신경망 구조를 활용해서 직접 AI 모델을 구현하는 사례가 여기에 해당합니다. 기성 모델이 제공하는 가중치를 쓰지 않기 때문에 학습 과정이 상당히 오래 걸리고, 성능도 기존 모델에 비해 높다고 장담하기 어렵습니다.
시스템 소프트웨어 영역에서도 프롬 스크래치는 익숙한 방식입니다. 운영체제 커널이나 컴파일러를 직접 구현해 보는 교육 과정이나, 타사 호환 시스템을 만들 때 특허를 회피하기 위한 접근이 대표적입니다. 기존 상용 운영체제를 참고하지 않고 최소 기능부터 쌓아 올리는 방식이기 때문에, 개발 기간이 길고 상당한 개발 지식을 요구합니다.
알고리즘 학습 분야에서도 프롬 스크래치가 활용됩니다. 정렬이나 탐색, 동적 계획법을 배울 때 기본 자료구조부터 직접 설계하며 구현하는 경우 학습 효과가 높습니다. 라이브러리를 호출하는 대신 내부 동작을 코드로 표현해 보는 과정 자체가 학습의 목적이 되기도 하지요.
보안과 임베디드 시스템에서는 조금 다른 이유로 프롬 스크래치가 선택됩니다. 외부 의존성을 줄이고, 신뢰할 수 있는 개발 산출물을 위해 커널이나 부트로더, 펌웨어를 직접 개발하는 전략이 활용됩니다. 이 때는 이미 알려진 취약점을 회피하기 위한 목적이 큰 편입니다.
생성형 AI에서 주목받는 이유

최근 GPT, LLaMA, Gemini 같은 대형 언어 모델이 공개되면서, 이 구조를 프롬 스크래치로 재현하거나 경량화 구현을 시도하는 연구가 늘어났습니다. LLaMA from scratch 프로젝트나 Minimal GPT 구현이 대표적인 사례입니다. 이들은 성능 경쟁의 목적도 있지만, 구조 이해와 재현 가능성에 초점을 둔 경우도 있습니다.

그런데 우리나라에서 프롬 스크래치가 사회적 이슈로까지 번진 계기는 AI 표절 논란입니다. 특정 모델이 기존 모델을 파인튜닝(Fine-tuning, 미세 조정)한 것인지, 아니면 독자적으로 처음부터 학습한 것인지를 둘러싸고 논쟁이 이어졌기 때문입니다. 독자 AI 파운데이션 모델 사업(이하 국가대표 AI 사업)에서 탈락한 네이버클라우드 하이퍼클로바 모델의 예시와, 업스테이지의 솔라 모델을 둘러싼 논란 역시 이 맥락에서 이해할 수 있습니다. 프롬 스크래치 여부는 이제 기술적인 선택에 국한되지 않고, 신뢰와 투명성의 문제로까지 확장되고 있습니다.
프롬 스크래치와 파인튜닝의 차이
프롬 스크래치는 기존 자산을 활용하지 않기 때문에 방대한 데이터와 긴 학습 시간이 필요합니다. 구조 설계의 자유도는 높지만, 안정적인 성능을 확보하기까지 시간이 오래 걸린다는 점이 특징입니다. 반면 파인튜닝이나 전이 학습은 이미 학습된 모델을 기반으로 하기 때문에 적은 데이터로도 빠르게 고성능의 모델을 얻을 수 있다는 특징이 있습니다. 다만 기존 모델의 학습 상황에 따라 제약을 받는다는 단점이 있습니다.
어느 방식이 더 낫다고 단정하기는 어렵습니다. 신규 기술 개발을 위한 연구 목적이거나 이번 국가대표 AI 사업과 같이 독자성 검증이 필요할 때는 프롬 스크래치가 의미를 가지며, 빠른 서비스를 위해 실용성과 효율이 중요한 상황에서는 파인튜닝이 현실적인 선택이 됩니다. 최근의 논쟁은 이러한 맥락을 이해한다면 왜 논쟁이 벌어졌는지를 쉽게 이해할 수 있을 것입니다.
프롬 스크래치라는 용어의 뜻에 목멜 필요는 없습니다. 단순히 처음부터 만든다는 의미에 국한해서 AI 모델을 이해하지 말고, 어떤 자원을 사용했고, 무엇을 직접 설계했으며, 어디까지가 독자 구현인지에 대한 설명을 폭넓게 이해하는 것이 중요하기 때문이지요. 개발자가 아니더라도, 인공지능과 소프트웨어가 사회 전반에 영향을 미치는 지금 같은 시기에는 이런 용어의 맥락을 이해해 두는 것만으로도 뉴스가 다르게 보일 수 있습니다. 프롬 스크래치라는 말이 등장할 때, 그 이면에 어떤 선택과 부담이 있었는지를 한 번쯤 떠올려 보면 좋겠습니다.
반응형'LLM 이야기' 카테고리의 다른 글
챗GPT 과제, '독'일까 '약'일까? 생성형 AI 활용 가이드 및 올바른 인용법 (1) 2026.01.16 글로벌 AI 대전: 한국어 LLM 성능 분석 리포트 (0) 2026.01.09 교사들을 '칼퇴'시킨다는 LG유플러스의 서비스 알아보기 (U+ 슈퍼스쿨) (0) 2026.01.05