인공 지능은 세계 역사를 얼마나 이해할까?

문광주 기자 / 기사승인 : 2025-01-24 10:29:52
  • -
  • +
  • 인쇄
4분 읽기
- 대학 수준의 역사 지식을 바탕으로 GPT, Gemini 및 Llama를 테스트
- 결과: Llama-3.1-8B의 경우 33%의 정답률부터 GPT-4-Turbo의 경우 46%까지 다양
- 대규모 언어 모델은 아직 박사 수준의 고급 역사 연구에 필요한 심층적 이해가 없다
- 1500년경부터 현대 역사에 특히 약점, 남부 아프리카나 오세아니아 지역 특히 취약

역사 문제에 인공 지능은 얼마나 뛰어났는가?
연구원들은 대학 수준의 역사 지식을 바탕으로 GPT, Gemini 및 Llama를 테스트했다.


인공 지능은 세계 역사를 얼마나 알고 이해할까? 연구자들은 박사 수준의 전문가 시험을 통해 이를 처음으로 검증했다. 그것은 역사적 사실에 대한 것이지만, 해석과 모순에 대한 것도 있었다. 결과: GPT-4, Gemini, Llama의 테스트된 변형은 문제의 33~46%만 올바르게 답했다. 전문가 수준의 지식으로는 너무 낮은 점수다. AI 모델은 현대사에서 특히 성과가 좋지 않았지만, 아프리카와 오세아니아 등 일부 지역에서도 마찬가지였다. 

▲ 다양한 시간과 지역에 대한 GPT-4-Turbo의 역사 테스트 결과다. © Complexity Science Hub

인공 지능은 지난 2년 동안 급속한 발전을 이루었다. 이제 그들은 많은 지식 작업에서 우리 인간보다 더 뛰어난 성과를 보이고, 튜링 테스트를 통과했으며, 일상생활에 도움을 주고 창의적이다. 그러나 단점은 AI 시스템은 환각을 겪고, 의도적으로 거짓말을 할 수 있으며, 세상을 실제로 이해하지 못한다는 것이다. 도덕적으로나 정치적으로 폭발적인 주제에 대해 그들의 답변은 종종 중립적이지 않다. 그런데도 많은 사람이 AI가 생성한 정보에 점점 더 의존하고 있다.

역사적 지식에 대한 새로운 벤치마크

하지만 대규모 언어 모델(LLM)에 대한 역사적 지식과 이해는 어떨까? 비엔나의 복잡성 과학 허브의 야콥 하우저와 그의 동료들이 최근 이를 조사했다. 이전 테스트와는 달리, 그들은 박사과정 학생 수준의 역사적 지식을 테스트하는 벤치마크를 사용했으며, 단순한 일반 지식을 넘어섰다. 이 데이터베이스는 전 세계 600개 사회에 대한 역사적 지식을 담고 있으며, 3만6000개 이상의 데이터 포인트와 2,700개 이상의 과학 논문을 보유하고 있다.

연구자들은 "우리 데이터베이스에 포함된 정보는 기본적인 사실부터 특정 종교 및 이념 체계와 같은 매우 복잡한 주제까지 다양하다"며 "후자의 경우, 다양한 해석, 뉘앙스, 역사적 맥락을 고려하는 것도 중요하다"고 설명했다. 역사적 정보는 1만 년 전부터 현재까지의 범위에 있으며 전 세계 모든 지역의 문화를 포함한다.

테스트에 사용된 7개의 AI 모델

역사 시험의 후보는 Google의 OpenAI 모델 3개(GPT-3.5, GPT-4-Turbo, GPT-4o), Llama의 3개 버전, Gemini-1.5flash였다. 테스트를 위해 하우저와 그의 팀은 각각 4가지 답이 가능한 객관식 문제를 만들었다. 각 AI에게는 처음에 원리를 설명하기 위해 4개의 예제 과제가 주어졌다. 연구자들은 "우리는 또한 LLM에게 역사가처럼 응답하도록 요청하여 개인화를 사용했다"고 보고했다. 이를 통해 AI 모델의 성능이 향상되는 경우가 많다.

AI 모델의 임무는 올바른 답을 선택하는 것이었다. 또한 요청된 정보가 확실한 사실적 증거에 근거한 것인지, 아니면 가설이나 모순된 해석에 근거한 것인지도 명시해야 한다. Hauser는 "우리는 이러한 LLM이 역사적 전문 지식을 처리하는 능력이 얼마나 좋은지 평가하기 위한 벤치마크를 설정하고 싶었다"고 설명했다.

"놀랍게도 나쁜 결과"

Complexity Science Hub의 공동 저자인 Peter Turchin은 "놀라운 결과 중 하나는 이러한 모델이 실제로 얼마나 형편없이 수행되었는지였다"고 말했다. 결과는 Llama-3.1-8B의 경우 33%의 정답률부터 GPT-4-Turbo의 경우 46%까지 다양했다. 연구자들은 "대규모 언어 모델의 성능이 단순한 추측보다 나았지만, 전문가 수준의 역사 지식수준보다 여전히 훨씬 낮다"고 말했다.

인공 지능은 1500년경부터 현대 역사에서 특히 약점을 보였다. 이 기간 어떤 모델도 40%에 약간 못 미치는 성과를 거두지 못했다. “이것은 LLM이 초기 시대의 제한된 역사적 지식을 잘 처리할 수 있다는 것을 시사한다. 또한 그들은 최근 역사의 더 큰 복잡성에 문제가 있다고 Hauser와 그의 팀은 설명했다. 특히 현대에는 상반되는 흐름, 포괄적인 발전, 복잡한 상호 관계가 중요한 역할을 한다.

심층적 이해 부족

"이 연구의 주요 발견은 인상적인 역량에도 불구하고 대규모 언어 모델은 아직 박사 수준의 고급 역사 연구에 필요한 심층적 이해가 없다는 것이다"고 런던 대학교의 수석 저자 R. Maria del Rio-Chanona가 말했다. "그들은 기본적인 사실을 전달하는 데는 뛰어나지만, 더 섬세한 역사적 조사에 관해서는 아직 그 수준에 미치지 못한다.”

연구팀은 그 이유가 주로 역사적 맥락의 복잡성에 있다고 생각하는데, 이를 위해서는 종종 기본적인 사회적, 경제적, 이념적 요인에 대한 이해가 필요하다. 델 리오-차노나는 "역사는 종종 사실의 모음으로 여겨지지만, 때로는 이를 이해하려면 해석이 필요하다"고 말했다.

GPT 등이 더 많이 학습해야 할 지역

일부 부족은 현재 AI 시스템의 교육 데이터에 기인할 수도 있다. 거의 모든 AI 모델은 특정 대륙의 역사 측면에서 차이를 보였다. 북미 및 중미의 경우 성능이 일반적으로 남부 아프리카나 오세아니아보다 뛰어났다. 이는 훈련 데이터의 불균형을 반영한다. 대부분 데이터가 유럽과 북미에서 나오기 때문에 이 지역에 대한 역사적 정보가 더 많이 포함되어 있기 때문이다.

그러나 AI 시스템을 위한 타깃형 "억류:앉아서 더 많이 학습하는 것"이 도움이 될 수 있다. Hauser와 그의 동료들은 "공개적으로 이용 가능한 데이터 세트는 LLM의 역사적 지식을 확장하는 데 중요한 단계가 될 수 있다"고 썼다. "우리는 GPT-4o3와 같은 새로운 LLM 모델을 테스트하여 이 연구에서 확인된 격차를 메울 수 있는지 확인하고 싶다”고 덧붙였다.
(NeurIPS Conference, 2024; Preprint)
출처: Complexity Science Hub

[더사이언스플러스=문광주 기자]

[저작권자ⓒ the SCIENCE plus. 무단전재-재배포 금지]

  • 글자크기
  • +
  • -
  • 인쇄
뉴스댓글 >

주요기사

+

많이 본 기사

Basic Science

+

AI & Tech

+

Photos

+