슈퍼마리오 게임으로 AI 성능 따져봤더니 추론 모델이 비추론 모델보다 성과 낮아 | 비맥스테크놀로지
안녕하세요!
Digital 시대를 만들어가는 Embedded System과 산업용 컴퓨터 및 Display Solution 전문 기업 비맥스테크놀로지입니다!
슈퍼마리오 브라더스 게임으로 인공지능(AI) 모델들의 성능을 따져 본 연구 결과가 공개됐다고 테크크런치 등 외신들이 3일(현지시간) 보도했습니다.
보도에 따르면 미국 캘리포니아대학 샌디에이고 캠퍼스 '하오 AI랩'(Hao AI Lab) 연구진은 최근 슈퍼마리오 브라더스 게임에 AI를 투입했습니다.

슈퍼마리오 게임으로 AI 모델의 성능을 비교한 연구 결과가 나왔다. (영상=미 캘리포니아 대학 샌디에이고 캠퍼스 하오AI랩)
그 결과 앤드로픽의 클로드 3.7이 가장 좋은 성과를 보였고 클로드 3.5가 그 뒤를 이었습니다. 반면 구글 제미나이 1.5 프로와 오픈AI GPT-4o는 성능이 떨어졌습니다.
여기서 사용된 슈퍼마리오 게임은 1985년 출시된 오리지널 슈퍼마리오 브라더스는 아닙니다. 에뮬레이터에서 게임을 실행했고 ‘게이밍에이전트’(GamingAgent)라는 프레임워크와 통합시켜 AI가 마리오를 실제로 제어할 수 있도록 했습니다.
연구진이 개발한 게이밍에이전트는 AI에 "장애물이나 적이 가까이 있으면 왼쪽으로 이동/점프해 피하라"와 같은 기본 지침과 게임 내 스크린샷을 제공해 학습시켰습니다. 이후 파이썬 코드형태로 입력 값을 생성해 AI가 마리오를 제어할 수 있도록 했습니다.
연구진은 각각의 AI 모델이 복잡한 작전을 계획하고 게임플레이 전략을 개발하도록 훈련시켰습니다. 흥미롭게도 연구진은 오픈AI의 o1과 같은 추론 모델이 비추론 모델보다 슈퍼마리오 게임 플레이 시 성과가 나쁘다는 것을 발견했습니다.
추론 모델이 이런 게임을 하는 데 더 불리한 이유 중 하나는 추론 모델의 경우 행동을 결정하는 데 보통 몇 초의 시간이 걸리기 때문입니다. 슈퍼 마리오 브라더스 게임은 타이밍이 중요한 게임으로 단 1초 만에 안전하게 점프하냐 추락하냐가 결정됩니다.
게임은 수십 년 동안 AI 성능을 벤치마킹하는 데 사용됐으나 일부에서는 AI의 게임 기술과 AI 성능 사이의 관련성에 의문을 제기해 왔습니다. 현실 세계와 달리 게임은 추상적이고 비교적 단순하며, AI를 훈련하는 데 이론적으로 무한한 양의 데이터를 제공합니다.
안드레이 카파시(Andrej Karpathy) 오픈AI 창업자이자 연구과학자는 이에 ‘평가 위기’(evaluation crisis)라고 지적하며 "지금 당장 어떤 [AI] 지표를 살펴봐야 할지 잘 모르겠다”고 밝히기도 했습니다.
출처: 지디넷코리아
비맥스테크놀로지는 원하시는 사양으로 완성 후 철저한 검사를 통해 최적의 PC를 고객님들께 제공해 드리고 있습니다.
*넓은 온도 범위 및 견고한 임베디드 팬리스 컴퓨터
*다중 GigE / PoE 포트가 있는 머신 비전 플랫폼
*GPU 엣지 AI Computing(컴퓨팅) 차내 팬리스 PC
*초소형 팬리스 컨트롤러
*감시 / 비디오 분석 컴퓨터 시스템
혹시나 더 궁금하신 점이나 문의사항이 있으시면 비맥스테크놀로지로 문의해 주세요!