ISSUE REPORT l 2026.00.00.  IS-231
월드 모델: 현실을 이해하는 AI의 진화     
World Models: The Evolution of AI Understanding Reality
한상열
이 보고서는 「과학기술정보통신부 정보통신진흥기금」에서 지원받아 제작한 것으로
과학기술정보통신부의 공식의견과 다를 수 있습니다. 이 보고서의 내용은 연구진의 개인 견해이며, 
본 보고서와 관련한 의문 사항 또는 수정·보완할
필요가 있는 경우에는 아래 연락처로 연락해 주시기 바랍니다.
소프트웨어정책연구소 가상융합연구실
한상열 책임연구원, syhan17@spri.kr
  CONTENT
    
Ⅰ. 서론 
P.1
Ⅱ. 월드 모델 개념 및 유형
P.2
III. 월드 모델 개발 동향
P.7
IV. 피지컬 AI와 월드 모델 
P.11
V. 정책적 시사점 
P.12
참고문헌
P.14
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
요 약 문
최근 월드 모델(World Model)은 인공지능이 단순한 언어·이미지 처리 단계를 넘어 물리 세계
의 구조와 동역학을 이해하고 미래 상태를 예측할 수 있도록 하는 핵심 기술로 부상하고 있다. 
이는 범용 인공지능(AGI)과 피지컬AI 실현을 위한 차세대 기반 기술로 평가되며, 로봇·자율주행·
가상융합 산업 전반에서 전략적 중요성이 확대되고 있다. 월드 모델은 인간의 멘탈 모델과 유사
하게 환경에 대한 이해와 미래 예측을 기반으로 다양한 시나리오를 사전에 시뮬레이션하고 최적
의 의사결정을 지원한다.
기술적으로 월드 모델은 명시적, 암묵적, 시뮬레이터 기반, 하이브리드형 등 다양한 패러다임으
로 발전하고 있으며, 비디오 생성, 자율주행, 자율 에이전트 등 목적별로도 세분화될 수 있다. 최
근 미국, 중국, 유럽, 한국 등 주요국의 기업들은 각각 실시간 3D 가상환경 생성, 자기지도 기반 
물리 예측, 합성 데이터 생성, 공간지능 구현 등 다양한 접근 방식으로 월드 모델 개발 경쟁을 
본격화하고 있다.
특히 월드 모델은 피지컬AI 발전의 핵심 병목인 데이터 부족과 사전 검증 문제를 해결하는 중
요한 대안으로 주목된다. 현실 세계에서 수집이 어려운 대규모 행동 데이터를 합성 데이터와 가
상 시뮬레이션으로 보완함으로써 로봇과 자율 시스템의 학습 비용을 줄이고, 위험한 실제 검증 
과정을 대체할 수 있다. 이를 통해 보다 안전하고 효율적인AI 시스템 개발이 가능해진다.
정책적으로 한국은 제조업 기반의 풍부한 산업 데이터를 활용해 제조 특화 물리 데이터셋과 
고충실도 가상환경을 구축하고, Sim-to-Real 정합성 확보, 도메인 특화 월드 모델 개발 등을 추
진할 필요가 있다. 또한 VLA, 시뮬레이션, 제조 데이터를 통합한 국가 차원의 연구개발 체계를 
마련함으로써 글로벌 월드 모델 경쟁력을 확보해야 한다.
결론적으로 월드 모델은 향후 AI 산업의 핵심 인프라이자 피지컬AI, 자율주행, 가상융합 발전
을 견인할 중요 기술로서, 기술 혁신과 산업 생태계, 국가 정책 차원의 선제적 대응이 요구된다.
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
Executive Summary 
Recent world models have emerged as a critical technology enabling artificial 
intelligence to move beyond simple language and image processing toward 
understanding the structure and dynamics of the physical world and predicting 
future states. They are increasingly regarded as next-generation foundational 
technologies for achieving Artificial General Intelligence (AGI) and Physical AI, while 
their strategic importance is expanding across robotics, autonomous driving, and 
virtual convergence industries. Similar to the human mental model, world models 
support proactive simulation of diverse scenarios and optimal decision-making by 
understanding environments and forecasting future outcomes.
Technically, world models are evolving across various paradigms, including explicit, 
implicit, simulator-based, and hybrid approaches, while also being specialized by 
application domains such as video generation, autonomous driving, and autonomous 
agents. Recently, leading companies across the United States, China, Europe, and 
South Korea have intensified competition in world model development through 
diverse approaches, including real-time 3D virtual environment generation, 
self-supervised physics prediction, synthetic data generation, and spatial intelligence 
implementation.
In particular, world models are gaining attention as an important solution to 
addressing two major bottlenecks in Physical AI development: data scarcity and 
pre-deployment validation challenges. By supplementing difficult-to-obtain real-world 
behavioral data with synthetic data and virtual simulations, world models can 
significantly reduce the cost of training robots and autonomous systems while 
replacing risky real-world testing processes. This enables the development of safer 
and more efficient AI systems.
From a policy perspective, South Korea needs to leverage its rich 
manufacturing-based industrial data to establish manufacturing-specialized physical 
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
datasets and high-fidelity virtual environments, while promoting Sim-to-Real 
alignment and domain-specific world model development. In addition, South Korea 
should secure global competitiveness in world models by establishing a national R&D 
framework that integrates VLA, simulation, and manufacturing data.
In conclusion, world models are expected to become a core infrastructure for the 
future AI industry and a key enabling technology driving the advancement of 
Physical AI, autonomous driving, and virtual convergence. As such, proactive 
responses at the levels of technological innovation, industrial ecosystem 
development, and national policy are essential.
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
1
I. 서론     
최근 월드 모델(World Model)은 범용 인공지능(Artificial General Intelligence, AGI) 
실현을 위한 핵심 연구 분야로 부상
AI 모델 연구개발 경쟁이 언어와 이미지를 이해하는 단계를 넘어 물리 세계를 
이해하고 변화까지 예측하는 단계로 확산 중 
-
대화 중심으로 활용되는 AI가 세상을 이해·예측하고 행동까지 수행할 수 있게 
된다면, 보다 범용적으로 활용 가능한 AGI로의 발전이 가능할 것으로 기대  
-
최근 엔비디아(Nvidia), 구글(Google)등 빅테크 기업이 월드 모델 개발을 
추진하는 가운데, AI 석학들이 주도해 창업된 월드랩스(World Labs), AMI
랩스(AMI Labs)도 월드 모델 개발을 목표  
  * “대형 언어 모델(Large Language Model, LLM)을 아무리 키워도 인간 수준의 
지능에는 도달할 수 없다.”, “AI가 인간 수준의 지능에 도달하기 위해서는 물리적 
세계를 학습하고 예측하는 새로운 구조가 필요하다” - 얀 르쿤(Yann LeCun, 
AMI랩스 창립자 겸 뉴욕대학교 교수) 
월드 모델은 물리 법칙과 환경 동역학에 대한 이해·예측 능력을 기반으로, 피지
컬 AI 구현을 가능하게 하는 핵심 기술로도 주목  
기존 로봇은 사전에 정의된 규칙이나 제한된 데이터에 의존하는 경우가 많아, 
새로운 환경이나 비정형 상황에 대한 유연한 대응에 한계가 존재
이에 따라 월드 모델은 물리 법칙과 인과관계를 로봇 내부에 내재화함으로써, 
환경을 이해하고 미래 상태를 예측하는 능력 확보에 기여
* 예를 들어, “컵을 기울이면 액체가 쏟아진다”는 물리적 개념을 학습한 로봇
은 컵의 형태나 액체의 종류가 달라지더라도 동일한 결과를 추론하고, 이를 
방지하기 위한 행동을 선택 가능 
이는 단순한 규칙 기반 수행을 넘어, 로봇이 세계의 작동 원리를 이해하고 상
황에 따라 자율적으로 판단·행동할 수 있도록 하는 기반을 제공
본 연구는 최근 부상하고 있는 월드 모델의 개념과 주요 유형, 관련 개발 동향, 피
지컬 AI와의 연계성을 분석하여 월드 모델 개발 활성화를 위한 정책적 시사점 제시  
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
2
1)
 Xie, N., Tian, Z., Yang, L., Zhang, X. P., Guo, M., & Li, J. (2025). From 2d to 3d cognition: A 
brief survey of general world models. arXiv preprint arXiv:2506.20134.
II. 월드 모델 개념 및 유형  
 1. 월드 모델 개념 
월드 모델은 AI가 복잡한 현실 세계의 구조와 동역학을 이해하고, 미래 상태를 예측하
여 이에 기반한 의사결정을 수행하도록 하는 개념 
사람은 세상의 변화와 결과를 사전에 예측할 수 있는 ‘멘탈 모델(Mental Model)’을 
내재적으로 보유
   * 실제로 가보지 않아도 “이 길로 가면 막힐 것 같다”라고 판단하거나, 특정 발언이 
상대방의 감정에 미칠 영향을 추론하는 등 미래 상황을 추측 
월드 모델은 이러한 인간의 멘탈 모델과 유사한 개념으로, 환경에 대한 통합적 이해와 
미래 예측을 기반으로 동적인 상황 변화에 능동적으로 대응하고 물리적 세계와의 상호
작용을 가능하게 하는 것을 목표 
-
특히, 다양한 미래 시나리오를 시뮬레이션하여 사전 대응 및 최적 의사결정 지원  
자율주행 자동차가 “앞 차가 급정지할 경우 충돌 위험이 증가한다”는 상황을 
사전에 예측하고, 이를 회피하기 위해 안전거리를 유지하는 전략 선택 
 2. 초기 월드 모델 연구  
D.Ha&J.S(2018)는 월드모델 관련 대표적 초기 연구로, 변이형 오토 인코더
(Variational Autoencoders, VAE)와 순환 신경망(Recurrent Neural Networks, 
RNN)을 결합한 구조 제안 
VAE는 복잡한 시각 정보를 핵심만 요약해서 기억할 수 있으며, RNN은 시간에 따른 
상태 변화를 예측할 수 있어 가보지 않는 길도 ‘시공간적 상상’을 통해 미리 예측 가능 
 레이싱 게임같은 복잡한 의사결정 시나리오에서도 전통적인 모델 기반 강화 학습 알
고리즘보다 높은 성능을 구현1)  
본 모델은 초기 모델로서, 세상을 압축해서 이해는 했으나, 그 형태가 불완전하고 
이해·예측·행동이 하나의 통합 시스템으로 학습되지 못한 한계가 존재  
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
3
2)
 Liu, B., Li, X., Zhang, J., Wang, J., He, T., Hong, S., ... & Wu, C. (2025). Advances and 
challenges in foundation agents: From brain-inspired intelligence to evolutionary, collaborative, 
and safe systems. arXiv preprint arXiv:2504.01990.
3)
 Zhu, Z., Wang, X., Zhao, W., Min, C., Li, B., Deng, N., ... & Huang, G. (2024). Is sora a 
world simulator? a comprehensive survey on general world models and beyond. arXiv preprint 
arXiv:2405.03520.
 3. 최근 발전 및 월드 모델 유형   
D.Ha&J.S(2018) 등 선행 연구에서 제시된 개념적 토대를 바탕으로 이후 연구에서는 
월드 모델 아키텍처가 지속적으로 발전하였으며, 본 절에서는 ‘패러다임별 유형’과 ‘목
적별 유형’으로 월드 모델 연구 소개  
(패러다임별 유형 분류) Liu et al.(2025)2)는 월드 모델을 “암묵적 패러다임 
(Implicit paradigm)”, “명시적 패러다임 (Explicit paradigm)”, “시뮬레이터 기반 
패러다임 (Simulator-Based paradigm)”, “기타 패러다임 (하이브리드 또는 지시 기
반)”으로 구분 
(목적별 유형 분류) Zhu et al.(2025)3)는 월드 모델을 “비디오 생성을 위한 월드 모
델(World Models for Video Generation)”, “자율주행을 위한 월드 모델(World 
Models for Autonomous Driving)”, “자율 에이전트를 위한 월드 모델(World 
Models for Autonomous Agents)”로 구분 
 A. 패러다임별 유형 분류 
(명시적 패러다임) 미래 예측을 가시적으로 보여주는 모델로서, AI가 예측을 할 때, 미
래에 보게 될 비디오 프레임 같은 고차원 데이터를 생성
“내일 날씨가 어떨까?”라는 질문에 내일의 기상도와 구름 사진을 직접 생성해서 보
여주는 방식  
AI가 예측하는 것을 눈으로 확인할 수 있어 해석 가능성(Interpretability)이 높으나, 
영상을 생성하면서 컴퓨팅 자원 소모 증가 
※ 예시모델: Diffusion 월드모델, DINO 월드모델 등 
(암묵적 패러다임) 실제 이미지나 영상을 만들지 않고, 대신 숫자로 된 추상적인 공간
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
4
4)
 Liu, C., Chen, Y., Liu, T., Gong, M., Cheng, J., Han, B., & Zhang, K. (2024). Discovery of the 
hidden world with large language models. Advances in Neural Information Processing Systems, 
37, 102307-102365.
(잠재공간(Latent Space) - “복잡한 데이터를 AI가 이해하기 쉬운 형태로 변환해 놓은 
내부 공간”)안에서만 결과가 어떻게 변할지 계산 
“내일 날씨가 어떨까?”라는 질문에 “기온 25도, 습도 40%” 등 데이터값만 가지고 
내부적으로 계산하는 방식 
이미지 생성 방식보다 상대적으로 계산 효율이 좋고 핵심 정보에 집중 가능하나, 내부 
작동 과정의 해석이 어렵고 도메인 지식이나 제약 조건 반영에 한계가 존재 
※ 예시모델: MuZero, Dreamer 등 
(시뮬레이터 기반 패러다임) 세상의 규칙을 스스로 배우는 대신, 사람이 만든 물리 엔
진이나 실제 세상을 그대로 이용  
“만약 핸들을 꺾으면?”라는 질문에 외부 시뮬레이터를 통해 결과를 파악 
세상의 물리 법칙이 이미 구현되어 있어 별도로 학습할 필요가 없으나, 시뮬레이터의 
정밀도가 높을수록 계산 비용이나 재정적 비용이 증가할 수 있으며, 특히 실제 환경에
서의 실험은 시간 소모와 위험 부담이 높음  
※ 예시모델: SAPIEN 등
(기타 패러다임(하이브리드 또는 지시 기반)) 암묵적 모델링과 명시적 모델링을 결합
하거나 외부 지식과 대형 언어 모델을 통합하는 방식  
COAT(Causal representatiOn AssistanT) 사례: LLM을 이용해 “이게 원인인
가”라고 추측한 뒤, 직접적인 상호작용 등을 통해 검증하거나 정교화4) 
하이브리드 방식은 낮선 환경에서도 유연하게 적응할 수 있는 장점이 있으나, AI가 내
부적으로 정보를 정리하고 업데이트하는 방식에서 일관성이 떨어질 수 있음  
※ 예시모델: AutoManual, COAT, WorldCoder, Genie 2, RoboDreamer 등
B. 목적별 유형 분류 
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
5
5)
 ‘인지적 불확실성’은 지식이나 정보의 부족에서 발생하며, ‘우연적 불확실성’은 현실 세계의 본질적인 무작위성
에서 기인 
6)
 Cosmos는 자율주행, 로봇, 휴먼 비디오 등 다양한 분야의 비디오 데이터로 학습하였기 때문에 파운데이션 모
델로서 볼 수 있음 
(비디오 생성을 위한 월드모델) 비디오를 생성하는 과정 자체를 통해 세상의 물리 법
칙과 동적 변화를 학습하는 모델 
비디오 콘텐츠를 생성하여 미디어 제작 및 예술적 표현에 유용하며, 통제된 환경에서 
방대한 데이터를 생성할 수 있어 AI 학습에 필요한 데이터 확보 부담 완화
아직 겪어보지 못한 시나리오에 대한 인과 관계를 정확히 파악하는데 한계가 존재하며, 
복잡한 물리현상을 정확히 구현하지 못하는 경우가 발생할 수 있고, 긴 고화질 비디오
를 생성하는데 필요한 시간 소요 부담
※ 예시모델: Google Genie, Imagen Video, Stable Video Diffusion 등 
(자율주행을 위한 월드모델) 미래 환경 변화를 예측하여 시공간적 상황을 이해하고, 
운행 과정에서 발생할 수 있는 불확실성을 완화하여 안전한 의사결정을 지원하는 모델 
주행 중 발생하는 다양한 불확실성(인지적·우연적 불확실성5))에 효과적으로 대응하고, 
특히 현실에서 접하기 힘든 ‘코너 케이스(Rare scenarios)’를 가상으로 생성하여 자
율주행 시스템의 안전성과 학습 효율 향상  
고속 급회전이나 유턴과 같은 비정형적인 차량 동작 제어의 어려움, 3D 공간 생성의 
일관성 부족, 그리고 실제 주행 데이터의 부족 등으로 인해 현실 적용에 제약 존재 
※ 예시모델: GAIA-1/GAIA-2/GAIA-3, DriveDreamer/Drive Dreamer2, Tesla 
World Model, Cosmos6) 등 
(자율에이전트를 위한 월드모델) 에이전트가 자신이 작동하는 맥락을 이해하고, 자신의 
행동이 초래할 결과를 예측하여 보다 합리적인 의사결정을 내리도록 지원  
에이전트가 실제 환경이 아닌 가상의 시나리오 속에서 학습하는 ‘상상 기반 학습
(Learning in imagination)’ 방식을 활용하여 시행착오에 따른 비용 절감 가능 
복잡하고 불확실한 환경 동역학을 충분히 이해하는 능력과 다양한 과제에 대한 일반화 
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
6
7)
 오일석(2026.4.2.), “월드 모델에 기반한 피지컬 AI”, 튜토리얼, AI·ICT Convergence Korea 2026 발표자료 인용 
8)
 Hao, S., Gu, Y., Ma, H., Hong, J., Wang, Z., Wang, D., & Hu, Z. (2023, December). 
Reasoning with language model is planning with world model. In Proceedings of the 2023 
Conference on Empirical Methods in Natural Language Processing (pp. 8154-8173).
9)
 이나연(2026.1.30.), “[현장] 피지컬 AI 시대, LLM이 곧 '월드 모델'…노빅 "기존 토대 활용해야"”, ZDNET Korea
10)
 Xing, E., Deng, M., Hou, J., & Hu, Z. (2025). Critiques of world models. arXiv preprint 
arXiv:2507.05169.
능력이 부족해, 복잡한 현실 환경과 새로운 작업에 유연하게 대응하는 데 한계
※ 예시모델: Genie, DreamerV3, JEPA 시리즈, UniSim, DayDreamer 등    
 
 참고 : LLM은 월드모델이 될 수 있는가?7) 
   
LLM이 단순히 텍스트를 생성하는 확률적 기계인지, 아니면 세계의 작동 원리를 
이해하는 월드 모델로 진화할 수 있는지에 대한 논쟁 진행 중  
(찬성) LLM은 언어를 매개로 세계 상태의 변화, 인과관계, 계획 등을 일정 
수준까지 모델링 할 수 있으며, 이러한 점에서 월드 모델의 기능을 부분적으로 
수행할 수 있다는 견해8) 
   * "언어 모델은 단순히 다음 단어를 예측하는 시퀀스 모델이지만, 텍스트뿐만 
아니라 비디오 프레임과 같은 시퀀스도 처리할 수 있다"... "이 과정에서 AI는 
인과관계나 물체 간 관계 등 세상이 작동하는 원리를 자연스럽게 학습한다" 
(피터 노빅 구글 연구총괄 겸 스탠퍼드대학교 인공지능연구소 위원)9)
(반대) LLM은 본질적으로 다음 토큰을 예측하는 방식에 의존하기 때문에, 진정한 
월드 모델이 요구하는 “물리적 세계 상태 전이”, “몸체(action)와 상호작용”, “장기 
시뮬레이션(imagination)” 능력 측면에서는 한계를 지닌다는 지적10)11)
   * "생성형 모델은 세계를 이해하지 못한 채 언어적 패턴을 모사하는 데 머물러 
있다"..."AI가 인간 수준의 지능에 도달하기 위해서는 물리적 세계를 학습하고 
예측하는 새로운 구조가 필요하다"(얀 르쿤)12)
(중립/혼합) LLM은 월드 모델의 일부 요소를 내포하고 있으나, 이를 완전한 형태로 
보기에는 한계가 있으며 향후에는 멀티모달 + 행동체(agentic) 통합이 필요하다는 
복합 관점13)
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
7
11)
 Mitchell, M., & Krakauer, D. C. (2023). The debate over understanding in AI’s large 
language models. Proceedings of the National Academy of Sciences, 120(13), e2215907120. 
12)
 남혁우(2025.10.27.), “얀 르쿤 "5년 내 LLM 한계…AI의 다음 혁명은 월드 모델"”, ZDNET Korea
13)
 Melanie Mitchell’s blog(2025.2.14.), “LLMs and World Models, Part 1”
14)
 https://deepmind.google/models/genie/
III. 월드 모델 개발 동향 
(미국) 엔비디아, 구글, 메타 등 빅테크 기업부터 스타트업까지 다양한 기업에서 월드 모
델 연구 주도 
(구글) 구글 딥마인드(Google DeepMind)에서 개발한 지니 3(Genie 3)는 텍스트 
프롬프트를 통해 실시간으로 상호작용 가능한 고화질 3D 가상 세계 생성14)
    - 720p 해상도의 그래픽을 실시간으로 렌더링하며, 물리 법칙이 적용된 일관된 환경
제공
    - 사용자가 생성된 세계의 특정 지점을 떠났다가 다시 돌아와도 이전에 생성되었던 
객체나 지형이 그대로 유지(약 1분 동안 기억)
    - 현실 세계에서는 재현하기 어렵거나 위험한 시나리오를 생성하여 AI 에이전트가 물
리 법칙을 배우고 대응하는 능력 개발에 활용 
  ※ 지니 3는 사실적인 가상 세계를 구현하지만, 에이전트의 정밀한 행동 및 상호작용, 
실제 장소와 텍스트의 정확한 묘사, 그리고 장시간의 시뮬레이션 유지 능력에서 여전
히 기술적 보완이 필요  
[그림1] 지니 3로 제작된 가상 세계 예시
출처: 구글 딥마인드 
(메타) 메타의 Fundamental AI Research(FAIR) 팀이 개발한 V-JEPA 2는 100만 
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
8
15)
 Assran, M., Bardes, A., Fan, D., Garrido, Q., Howes, R., Muckley, M., ... & Ballas, N. (2025). 
V-jepa 2: Self-supervised video models enable understanding, prediction and planning. arXiv 
preprint arXiv:2506.09985.
16)
 육지훈(2025.06.13.), “얀 르쿤의 야심작...메타 ‘V-JEPA 2’ 공개”
17)
 https://www.nvidia.com/ko-kr/ai/cosmos/#nv-accordion-6744152f25-item-2827ea322c
18)
 Agarwal, N., Ali, A., Bala, M., Balaji, Y., Barker, E., Cai, T., ... & Zolkowski, A. (2025). 
Cosmos world foundation model platform for physical ai. arXiv preprint arXiv:2501.03575.
시간 분량의 비디오 데이터와 소량의 로봇 상호작용 데이터를 자기 지도 학습 방식으
로 학습하여 물리 세계의 역동성을 이해하고 미래 상태를 예측하여 행동 계획 수립15) 
    - 메타에 따르면, V-JEPA2는 동작 이해와 인간 행동 예측에서 기존 모델보다 높은 
성능을 달성하였으며, 사전 학습된 V-JEPA2에 62시간 미만의 소규모 로봇 행동 
데이터를 추가 학습시켜 행동 예측이 가능함을 시현 
     * 새로운 환경과 사물에 대해 별도의 보상이나 훈련 없이도 ‘집고 옮기기
(pick-and-place) 작업을 65%~80% 사이의 성공률로 수행
  ※ V-JEPA 2는 장기 예측 시의 오차 누적과 계산 복잡성으로 인한 과업 계획의 한계, 
이미지 형태의 목표 지시 제약, 그리고 카메라 위치 변화에 따른 제어의 민감성 등 
주요 기술적 과제 해결 필요16)   
(엔비디아) 월드 파운데이션 모델(World Foundation Model)로 소개된 코스모스
(COSMOS) 모델은 로봇, 자율 시스템 같은 피지컬 AI 개발자가 물리적 세계의 법칙
을 이해하고 예측하는 시뮬레이션 환경 구축에 활용17)  
    - 월드 파운데이션 모델은 물리적 세계의 디지털 복사본으로, 피지컬 AI가 안전하게 
학습하고 실험할 수 있는 가상 환경을 제공 
    - 코스모스는 옴니버스(Omniverse)에서 제공한 3D 시뮬레이션을 인스트럭션
(Instruction) 영상으로 입력받아 피지컬 AI 모델을 훈련시킬 수 있는 사실적 합성 
데이터 생성  
     * 옴니버스에서 만들어진 자동차 운행 시뮬레이션을 기반으로 다양한 날씨나 시간 조
건으로 구분된 사실적 운행 합성 데이타를 생성하여 자율주행 자동차 학습에 사용 
  ※ 코스모스는 아직 초기 단계로서 물리적 세계를 신뢰할 수 있는 모사하는 시뮬레이터
로서 아직 부족한 점이 존재(생성된 비디오에서 표현된 물리 법칙의 오류 등)18)
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
9
19)
 Xing, E., Deng, M., Hou, J., & Hu, Z. (2025). Critiques of world models. arXiv preprint arXiv:2507.05169.
20)
 Minxiao Chang(2026.4.14.), “China’s edge over US in AI world models: abundant data, faster 
deployment, executive says”, South China Morning Post
21)
 월드 모델의 성능을 평가하는 업계 벤치마크 WorldArena 기준
(월드랩스) 월드랩스는 페이페이리(Fei-Fei Li) 스탠퍼드대 교수가 설립한 스타트업으로, 
AI가 언어를 넘어 물리적 세계를 이해하고 상호작용할 수 있도록 돕는 ‘공간지능(Spatial 
Intelligence’ 구현과 이에 필요한 월드 모델 개발에 집중 
    - 월드랩스의 월드 모델, ‘마블(Marble)’은 멀티모달 대규모 월드 모델(Multimodal 
Large World Model, LWM)으로 텍스트, 이미지, 비디오 등의 입력을 기반으로 
사용자가 그 안을 직접 돌아다닐 수 있는(1인칭 시점) 3차원 가상 공간을 생성 
    ※ 마블은 시각적으로 뛰어나지만 물리적 인과관계나 다중 에이전트 행동 등이 필요한 
과정을 수행하기에는 아직 초기 단계19)
[그림2] 마블 월드 모델의 멀티모달리티
            출처: 월드랩스 
(중국) 대규모 데이터 수집, 월드 모델과 산업 기반과의 조기 통합의 이점을 누리며 
월드 모델 개발 추진20)   
(GigaAI) Li Auto, Xpeng, BYD 등과 협력하며 비전 기반 자율주행 시스템을 개발해
온 기업으로, 본사가 개발한 월드 모델, ‘GigaWorld-1’이 시각적 품질, 물리법칙 준수 
및 3D 정확도 측면에서 구글과 엔비디아의 모델을 앞선 것으로 주장21)  
(알리바바) 알리바바 그룹 홀딩스의 지도 및 내비게이션 사업부인 아마프(Amap)는 월드 
모델 연구를 강화하고 있으며, 알리바바 클라우드는 AI 비디오 생성 도구인 비두(Vidu) 
개발사인 셩슈(SheungShu)의 세계 모델 개발에 2억 9천만 달러 규모 투자 주도 
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
10
22)
 David Matthews, Martin Greenacre(2026.1.6.), “Europe funds AI alternatives to large language models”
23)
 한불상공회의소(2026.3.16.), “유럽 역대 최대 10억 달러 시드 투자 유치: 프랑스 AI의 새로운 강자 AMI Labs의 부상”
24)
 문상현(2026.1.6.), “시뮬레이션을 넘어 검증으로…Wayve, 차세대 자율주행 평가 모델 GAIA-3 출시”, 테크데일리
25)
 과학기술정보통신부와 정보통신기획평가원 주도 ‘피지컬 AI 선도기술 개발’ 프로젝트는 ’26년 150억원 예산을 
투입하여, 피지컬 AI 강국 도약을 위한 3대 공통 기반기술 중 2개 기술(월드 모델 등) 확보 목표
26)
 최민지(2026.3.16.), “NC AI, 국내 ‘월드 모델’ 개발 박차 “글로벌 선도 모델 성능의 80% 성과””, 경향신문 
(텐센트) 자연어나 이미지만으로 3D 가상 세계를 생성할 수 있는 오픈 소스 월드 모델, 
“훈위안 3D 월드 모델 1.0(Hunyuan 3D World Model 1.0)” 발표 
(애지봇) 중국 로봇 스타트업으로 ’25년 글로벌 휴머노이드 로봇 출하량의 약 40%를 
점유하였으며, 합성 환경에서 대규모 로봇 훈련이 가능한 월드 모델 플랫폼 ‘'지니 인비
저너 2.0(Genie Envisioner 2.0)” 발표
(유럽) 대규모 언어모델의 한계를 넘어 물리적 세계를 이해하고 추론하는 월드 모델 등 
차세대 AI 기술 개발에 집중하여 미국 빅테크와 차별화된 기술 경쟁력 확보 목표22) 
(AMI랩스) 메타의 전 수석 AI 과학자인 얀 르쿤이 월드 모델 개발을 위해 설립한 프랑스 
기업으로 10억 달러 이상의 시드 투자 유치23) 
(웨이브) 영국의 자율주행 스타트업으로 생성형 세계 모델링을 활용해 자율주행 AI를 안
전하고 효율적으로 평가하는데 중점을 둔 월드 모델 개발24)
(스프린트) 독일 혁신기관인 스프린트는 물리 세계를 인지하고 추론하며 행동할 수 있는 
로봇공학·산업 자동화·자율 시스템 등을 중점 지원하며, 2032년까지 세계 최고 수준의 
프런티어 AI 연구소 3곳을 유럽 내에 설립 목표  
(한국) 국내 기업 중에서는 NC AI, 네이버 등이 월드 모델 연구 성과를 공개하고 있으며, 
정부는 피지컬 AI 정책의 일환으로 월드 모델 개발 지원25)  
(NC AI) 잠재공간에서 로봇 행동을 직접 생성하는 ‘월드 파운데이션 모델’을 개발하
였으며, 이를 실제 현장에 적용하기 위해 다양한 산업 분야에서 기술 실증(PoC)을 
병행 중26)  
(네이버-한국과학기술원-서울대학교) 서울을 기반으로 하는 도시 규모의 생성 모델 ‘서
울 월드 모델(Seoul World Model)’을 개발하였으며, 가상이 아닌 실제 도시를 그대로 
재현하고 탐색 가능하여 실제 도시와 일치하는 공간적 정확성과 시간적 일관성 확보27) 
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
11
27)
 박찬(2026.3.18.), “네이버, '서울 월드 모델' 공개..."실제 장면 기반으로 텍스트 탐험 가능"”, AI TIMES
28)
 피지컬 AI 정의: AI가 물리적 실체 안에 구현되어 센서와 액추에이터 등을 통해 현실 세계를 인식하고, 자율
적으로 판단·행동함으로써 환경과 유기적으로 상호작용할 수 있는 시스템(출처: 이해수 외.(2025)) 
29)
 권군오(2026), “피지컬 AI가 온다”, 글로벌콘텐츠  
IV. 피지컬 AI와 월드 모델  
피지컬 AI28)는 센서 데이터를 통한 상황 인지 및 최적 행동 결정이 핵심이며, 이를 위해 
VLA와 월드 모델이 시스템의 두뇌 역할 수행29)
VLA(Vision-Language-Action): 카메라를 통해 환경 인식(Vision) → 인간의 명령을 
이해하고 작업 해석(Language) → 로봇이 수행할 물리적 동작 생성(Action)의 순서로 
실행되며, 입력된 정보에 대해 즉각적인 행동 수행에 강점      
다만, VLA는 장기 계획 수립이나 미래 상태 예측에 한계가 존재하며, 월드 모델은 이를 
보완하여 VLA의 행동 안전성을 제고하고 실행 효율성 향상 
  * 로봇이 특정 객체를 집으라는 명령을 수신하면, VLA 모델은 실행 가능한 행동 후보군
을 도출하고, 월드 모델은 각 행동에 따른 전복 위험 등 미래 상태를 사전 예측함으로
써 가장 안전하고 정밀한 동작을 선택하도록 의사결정 지원 
피지컬 AI 발전의 주요 병목으로 지적되는 데이터 부족 및 사전 성능 검증 이슈에 대응하
는 데 있어, 월드 모델 기반의 합성 데이터 생성과 가상세계 시뮬레이션이 효과적인 대안
으로 활용 가능
(데이터 부족) 피지컬 AI 발전을 위해서는 로봇/자율주행차 등이 물리적인 세계에서 행
동하는 데이터가 대규모로 필요하나, 데이터 수집 시간 및 비용 소요 부담
   → 월드 모델은 로봇이나 자율주행차가 물리적인 세계에서 활동하는 다양한 가상 영상/
시나리오, 즉 대량의 합성 데이터를 제공하여 데이터 부족 문제 해결에 기여  
(사전 성능 검증) 실제 환경에서 로봇의 동작을 검증할 경우, 충돌이나 전도 등의 사고로 
인해 물리적 손상 및 경제적 손실이 발생할 가능성 존재
   → 월드 모델 기반 가상 시뮬레이션에서는 현실에서 발생하기 어려운 희귀 상황까지 포
함한 다양한 시나리오를 통해 로봇 동작의 잠재적 위험성을 사전에 검증 가능 
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
12
30)
 김영훈(2025.6.30.), “물리적(Physical) AI 시대를 여는 WFM(World Foundation Model)”, 컴퓨터월드 
31)
 “시스템 식별은 관측된 입력-출력 데이터를 바탕으로 물리적 현상을 기술하는 수학적 방정식(예: 미분방정
V. 정책적 시사점  
본 장에서는 앞서 분석한 내용을 기반으로 현재 월드 모델 관련 주요 이슈를 정리하고, 
이에 대응하기 위한 정책적 지원 방안을 제시 
한국은 제조 강점을 활용한 데이터 자산화와 기술적 정합성 확보, 도메인 특화 월드 모델
을 전략적으로 육성하고, 민·관·학 생태계를 구축해 글로벌 월드모델 경쟁력 확보 필요
A. [인프라] 대한민국 제조 자산을 활용한 데이터 자원 축적 
  - (이슈) 제조 로봇 등 피지컬 AI 구현에 필요한 월드 모델은 가상 시뮬레이션 생성의 기
반이 되는 실제 데이터 확보가 필요하나, 이에 따르는 시간·비용 부담 존재
  - (대안) 한국의 세계적 제조 밀도와 자동화 역량을 월드 모델 학습의 ‘천연 자원’으로 전환 
(제조 특화 물리 데이터 표준화) 고밀도 생산 현장에서 발생하는 물리적 행동 데
이터를 체계적으로 수집하여 ‘월드 모델용 제조 데이터셋’ 구축 
(고충실도 제조 가상 환경 구축) 실제 물리 법칙이 완벽히 동기화된 가상 환경을 
구축하고, 현실에서 수집하기 어려운 희귀 사례 합성 데이터 생성 및 학습 가속화
를 통해 현장 투입 즉시성 확보 
(실증 루프 완성) 현장 데이터 기반 학습 → 월드 모델 성능 증폭 → 현장 재배치
로 이어지는 선순환 실증 단지 조성   
B. [기술] 월드 모델의 확산과 실질적 적용을 위해 정합성 있는 세계 모델 개발  
   - (이슈) 현재 월드 모델은 복잡한 물리현장 구현의 부적합성, 장기 예측 오류 누적, 
3D 공간 생성 일관성 부족, 실제 환경과의 Sim-to-Real Gap 등으로 인해 산업 현
장 적용 시 신뢰성과 정밀성 확보에 한계 존재 
   - (대안) 가상 센서, 시스템 식별과 같은 물리 기반 기술과의 융합을 통한 정합성 확보30)  
(입력 데이터 정교화) 실제 센서로 측정이 어려운 물리 정보를 시뮬레이션으로 재
구성하는 가상 센서 활용 확대를 통해 시뮬레이션 및 예측 결과의 현실성 증대 
(물리적 정합성 구현) 시스템 식별(system identification)31) 기술과 월드 모델
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
13
식)을 추정하는 기술”
32)
 이승영(2026.4.9.), “From Intelligence to Action, 피지컬 AI의 전략적 진화 로드맵”, Physical AI 
Conference 2026  
33)
 신진우(2026.3.), “로봇 지능의 진화와 제조업 미래”, 동아비지니스리뷰 
의 통합을 통해 물리법칙에 기반한 생성 모델 구성  
(계산 효율성-실시간성 균형 확보) 복잡한 시공간 추론에 따른 높은 연산 요구와 
산업 현장의 실시간 처리 필요를 동시에 충족할 수 있는 모델 경량화 등 대안 개발 
(표준화와 플랫폼화) 여러 산업에 공통적으로 활용 가능한 월드 파운데이션 모델 
API, 데이터셋 포맷, 훈련 파이프라인, 평가 지표 등 마련으로 개발 및 기술 생태
계 성장 촉진 
C. [산업] 도메인 특화(Vertical) 월드 모델 육성  
   - (이슈) 월드 모델 개발을 구글, 메타 등 빅테크가 주도하고 있으며, 중국은 자국 산업 
기반을 중심으로 월드 모델 개발 추진 중   
   - (대안1) 세계 최고 수준의 로봇 밀도와 성장세를 보이는 방산 산업 등 국내 강점 분야에 
특화된 월드 모델 구축으로 글로벌 경쟁 우위 확보 및 범용 모델 개발을 위한 기술력 축적  
(물류, 서비스 등 민간 특화) 제품 포장 등 비정형 환경에서도 물리적 충돌을 예
측하고 회피하는 비정형 공정 특화 모델 개발 
(국방 특화) 전쟁 상황 속 신뢰 불가한 데이터 속에서도 스스로 상황을 재구성하고 판
단할 수 있는 강인함과 물리적 기만(위장, 가짜 표적) 구분이 가능한 신뢰성 확보32)  
(가상융합 특화) 물리 법칙이 작동하는 가상 공간을 자동 생성하는 월드모델 기술
을 활용해 가상융합 환경 구축 비용 절감   
   - (대안2) 국가 전략 차원의 공동 연구 플랫폼 구축    
(모델-시뮬레이션-데이터 구조 통합) 로봇의 자율행동을 생성하는 VLA, 시뮬레
이션이 가능한 월드모델, 한국형 제조 데이터를 하나로 엮는 국가 차원의 공동 
연구 플랫폼 구축33)  
 (추진안 예시) 과기정통부(월드모델 등 피지컬 AI 원천기술)·산업부(제조 AI, 테스트
베드)·중기부(중소·중견 기업 확산)가 공동 추진하고, 「대한민국 인공지능 행동계획」
에서 제시된 ‘제조 AI 2030(가칭) 전략’, M.AX 얼라이언스 연계를 통한 실행 기반 마련  
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
14
참고문헌
1. 국내문헌
[1]권군오(2026), “피지컬 AI가 온다”, 글로벌콘텐츠 
[2]김영훈(2025.6.30.), “물리적(Physical) AI 시대를 여는 WFM(World Foundation Model)”, 컴퓨터월드 
[3]남혁우(2025.10.27.), “얀 르쿤 "5년 내 LLM 한계…AI의 다음 혁명은 월드 모델"”, ZDNET Kore
[4]문상현(2026.1.6.), “시뮬레이션을 넘어 검증으로…Wayve, 차세대 자율주행 평가 모델 GAIA-3 출시”, 테크
데일리
[5]박찬(2026.3.18.), “네이버, '서울 월드 모델' 공개..."실제 장면 기반으로 텍스트 탐험 가능"”, AI TIMES
[6]신진우(2026.3.), “로봇 지능의 진화와 제조업 미래”, 동아비지니스리뷰 
[7]오일석(2026.4.2.), “월드 모델에 기반한 피지컬 AI”, 튜토리얼, AI·ICT Convergence Korea 2026
[8]이나연(2026.1.30.), “[현장] 피지컬 AI 시대, LLM이 곧 '월드 모델'…노빅 "기존 토대 활용해야"”, ZDNET 
Korea
[9]이승영(2026.4.9.), “From Intelligence to Action, 피지컬 AI의 전략적 진화 로드맵”, Physical AI 
Conference 2026  
[10]이해수, 유재흥, 안성원(2025.5.13.), “피지컬 AI의 현황과 시사점”, SPRi 이슈리포트 
[11]육지훈(2025.06.13.), “얀 르쿤의 야심작...메타 ‘V-JEPA 2’ 공개”
[12]최민지(2026.3.16.), “NC AI, 국내 ‘월드 모델’ 개발 박차 “글로벌 선도 모델 성능의 80% 성과””, 경향신문
[13]한불상공회의소(2026.3.16.), “유럽 역대 최대 10억 달러 시드 투자 유치: 프랑스 AI의 새로운 강자 AMI 
Labs의 부상”
2. 국외문헌
[1] Agarwal, N., Ali, A., Bala, M., Balaji, Y., Barker, E., Cai, T., ... & Zolkowski, A. (2025). 
Cosmos world foundation model platform for physical ai. arXiv preprint arXiv:2501.03575.
[2]Assran, M., Bardes, A., Fan, D., Garrido, Q., Howes, R., Muckley, M., ... & Ballas, N. (2025). 
V-jepa 2: Self-supervised video models enable understanding, prediction and planning. arXiv 
preprint arXiv:2506.09985.
[3]Ha, D., & Schmidhuber, J. (2018). World models. arXiv preprint arXiv:1803.10122, 2(3), 440.
[4]David Matthews, Martin Greenacre(2026.1.6.), “Europe funds AI alternatives to large language 
models”
[5]Hao, S., Gu, Y., Ma, H., Hong, J., Wang, Z., Wang, D., & Hu, Z. (2023, December). 
Reasoning with language model is planning with world model. In Proceedings of the 2023 
Conference on Empirical Methods in Natural Language Processing (pp. 8154-8173).
[6]Liu, B., Li, X., Zhang, J., Wang, J., He, T., Hong, S., ... & Wu, C. (2025). Advances and 
challenges in foundation agents: From brain-inspired intelligence to evolutionary, collaborative, 
and safe systems. arXiv preprint arXiv:2504.01990.
[7]Liu, C., Chen, Y., Liu, T., Gong, M., Cheng, J., Han, B., & Zhang, K. (2024). Discovery of the 
hidden world with large language models. Advances in Neural Information Processing Systems, 
37, 102307-102365.
[8]Melanie Mitchell’s blog(2025.2.14.), “LLMs and World Models, Part 1”
[9]Minxiao Chang(2026.4.14.), “China’s edge over US in AI world models: abundant data, faster 
deployment, executive says”, South China Morning Post
[10]Mitchell, M., & Krakauer, D. C. (2023). The debate over understanding in AI’s large 
SPRi 이슈리포트 IS-000월드 모델: 현실을 이해하는 AI의 진화
15
language models. Proceedings of the National Academy of Sciences, 120(13), e2215907120. 
[11]Zhu, Z., Wang, X., Zhao, W., Min, C., Li, B., Deng, N., ... & Huang, G. (2024). Is sora a 
world simulator? a comprehensive survey on general world models and beyond. arXiv preprint 
arXiv:2405.03520.
[12]Xie, N., Tian, Z., Yang, L., Zhang, X. P., Guo, M., & Li, J. (2025). From 2d to 3d cognition: 
A brief survey of general world models. arXiv preprint arXiv:2506.20134.
[13]Xing, E., Deng, M., Hou, J., & Hu, Z. (2025). Critiques of world models. arXiv preprint 
arXiv:2507.05169.
3. 기타
[1]https://deepmind.google/models/genie/ 
[2]https://www.nvidia.com/ko-kr/ai/cosmos/#nv-accordion-6744152f25-item-2827ea322c
[소프트웨어정책연구소]에 의해 작성된 [SPRI 보고서]는 공공저작물 자유이용허락 표시기준 
제4유형(출처표시-상업적이용금지-변경금지)에 따라 이용할 수 있습니다.
주      의
이 보고서는 소프트웨어정책연구소에서 수행한 연구보고서입니다. 
이 보고서의 내용을 발표할 때에는 반드시
소프트웨어정책연구소에서 수행한 연구결과임을 밝혀야 합니다.
월드 모델: 현실을 이해하는 AI의 진화 
경기도 성남시 분당구 대왕판교로 712번길 22 글로벌 R&D 연구동(B)
Global R&D Center 4F 22 Daewangpangyo-ro 712beon-gil, Bundang-gu, Seongnam-si, Gyeonggi-do
 
www.spri.kr