오픈AI, 전문 지식 업무와 장시간 에이전트 작업에 특화된 ‘GPT-5.2’ 출시
■
오픈AI가 일반 지식과 긴 컨텍스트 이해, 에이전트 도구 호출 등 전반적인 벤치마크 성능에서 큰 폭의 성능을 달성하며 복잡한 지식 업무와 장시간 에이전트 작업에 최적화된 GPT-5.2를 출시
■
GPT-5.2는 전문 작업 벤치마크 평가에서 AI 모델 최초로 인간 전문가 수준에 도달했으며, 민감한 질문에 대한 응답도 개선되고 18세 미만 청소년 보호를 위한 안전성도 강화
GPT-5.2 씽킹, 복잡한 전문 작업에서 인간 전문가 수준에 도달■
오픈AI(OpenAI)가 2025년 12월 11일 복잡한 지식 업무와 장시간 에이전트 실행 작업에서 뛰어난 성능을 제공하는 최신 AI 모델 ‘GPT-5.2’ 시리즈(인스턴트, 씽킹, 프로)를 출시
∙
속도와 성능의 균형을 맞춘 GPT-5.2는 일상 업무와 학습 전반에 적합하며 정보 탐색과 사용 방법 안내, 단계별 설명, 기술 문서 작성, 번역 등에서 GPT-5.1보다 향상된 결과를 제공
∙
추론 모델인 GPT-5.2 씽킹은 스프레드시트 서식 구성, 슬라이드 제작 등에서 큰 폭의 성능 향상을 보이며, 코드 작성, 긴 문서 요약, 업로드된 파일에 대한 질의응답 등에서 더욱 정확하고 체계적인 답변을 제공
∙
최상위 모델인 GPT-5.2 프로는 높은 품질의 답변을 요구하는 고난도 질문에서 가장 뛰어난 지능과 신뢰도를 제공하며, 초기 테스트에서 정확도가 높아지고 더욱 안정적인 성능을 나타내는 것으로 확인
■
GPT-5.2는 일반 지능과 긴 컨텍스트 이해, 에이전트 도구 호출 등 전반적인 벤치마크 성능 평가에서 큰 폭의 발전을 달성했으며, 복잡한 실제 작업을 처음부터 끝까지 수행하는 능력도 크게 향상
∙
GPT-5.2 씽킹은 전문 작업(GDPval) 벤치마크 평가에서 70.9%를 기록해 AI 모델 최초로 인간 전문가 수준에 도달했으며, 소프트웨어 엔지니어링(SWE-Bench Pro)과 과학(GPQA Diamond)에서 신기록을 달성*
* SWE-Bench Pro: GPT-5.2 Thinking(55.6%), GPT-5.1 Thinking(50.8%)
GPQA Diamond(도구 미사용): GPT-5.2 Pro(93.2%), GPT-5.2 Thinking(92.4%), GPT-5.1 Thinking(88.1%)
∙
내부 분석 결과, GPT-5.2 씽킹은 GPT-5.1 씽킹 대비 오류가 포함된 응답 비율이 약 38% 감소해 연구나 글쓰기, 분석 등의 전문 지식 작업에서 실수가 줄고 일상 업무에서는 더욱 안정적으로 활용 가능
∙
GPT-5.2 씽킹은 긴 컨텍스트 추론에서도 GPT-5.1보다 정확도가 대폭 향상되어*, 보고서나 계약서, 연구 논문 등 수십만 개 토큰에 달하는 장문의 문서를 다루는 업무에서 일관성과 정확성을 유지
* 긴 컨텍스트 분석(MRCRv2, 4 needles) 256K 토큰 입력 기준: GPT-5.2 Thinking(98%), GPT-5.1 Thinking(42%)
∙
도구 호출 정확도도 크게 향상되어* 여러 단계를 거쳐 해결되는 복잡한 고객 서비스 문의 사례에서 여러 에이전트에 거친 전체 워크플로를 더욱 효과적으로 조율하여 GPT-5.1보다 완성도 높은 결과를 제공
* 고객 지원용 도구 사용(Tau2-bench Telecom): GPT-5.2 Thinking(xhigh)(98.7%), GPT-5.1 Thinking(none)(47.8%)
■
오픈AI는 GPT-5.2의 안전성도 더욱 강화하여, 자살이나 자해 등 위험 징후를 나타내는 질문에 대하여 더욱 적절히 대응하도록 기능을 개선했으며, 18세 미만 사용자에 대한 보호 조치도 확대
∙
18세 미만 사용자의 민감 콘텐츠 접근을 제한하기 위한 연령 예측 기술을 도입하기 시작해, 기존 청소년 사용자 외에도 18세 미만으로 추정되는 사용자에게는 콘텐츠 보호 조치가 자동으로 적용된다고 강조