인류 최후의 시험 HLE, AI 성능 평가의 새로운 기준

IT&Computer

인류 최후의 시험 HLE, AI 성능 평가의 새로운 기준

Seeker시커 2025. 2. 22. 09:25

인공지능(AI) 기술이 빠르게 발전하면서, AI의 지능 수준을 정확하게 평가하는 것이 중요해졌습니다. 최근 '인류 최후의 시험(Humanity's Last Exam, HLE)'이라는 새로운 벤치마크가 등장하여 주목받고 있습니다. 이번 글에서는 HLE가 무엇인지, 어떻게 평가하는지, 그리고 최근 AI 모델들의 성적에 대해 알아보겠습니다.

인류 최후의 시험(HLE)이란?

HLE는 AI 모델의 지적 능력을 인간 수준에 얼마나 근접하게 평가할 수 있는지를 측정하기 위해 개발된 테스트입니다. AI 안전 연구자인 댄 헨드릭스(Dan Hendrycks)와 스케일 AI(Scale AI)가 협력하여 구축한 이 시험은, 기존의 벤치마크보다 훨씬 어려운 문제들로 구성되어 있습니다.

평가 방법

HLE는 다양한 분야의 복잡한 문제들을 포함하며, AI 모델이 이러한 문제를 얼마나 정확하게 해결하는지를 평가합니다. 시험 문제는 지속적으로 업데이트되며, 공개 검토 기간을 통해 시험의 완성도를 높이고 있습니다. 이를 통해 AI의 지적 능력을 종합적으로 측정하고, 인간 수준의 일반 지능(AGI)에 얼마나 가까워졌는지를 판단합니다.

최근 AI 모델들의 성적

최신 AI 모델들도 HLE에서 높은 성과를 내지 못하고 있습니다. 예를 들어, 오픈AI의 'o1'과 딥시크의 'R1'은 정답률이 10%에도 미치지 못했습니다. 이는 현재의 AI 기술이 아직 인간의 지적 능력에 도달하지 못했음을 보여줍니다.

그러나 일부 모델은 주목할 만한 성과를 보이고 있습니다. 일론 머스크의 '그록3(Grok3)'는 최근 AI 챗봇 성능 평가에서 GPT-4o와 Gemini-2 Pro를 제치고 1위를 차지했습니다. 이는 AI 기술이 지속적으로 발전하고 있음을 시사합니다.

'인류 최후의 시험'은 AI의 지적 능력을 평가하는 데 중요한 기준이 되고 있습니다. 비록 현재의 AI 모델들이 이 시험에서 높은 성과를 내지 못하고 있지만, 이러한 평가를 통해 AI 기술의 한계를 파악하고, 앞으로의 발전 방향을 설정하는 데 큰 도움이 될 것입니다. AI 기술이 더욱 발전함에 따라, 언젠가는 이 시험에서 인간과 동등하거나 그 이상의 성과를 내는 날이 올 것으로 기대됩니다.