ChatGPT(챗지피티) (3) "언어 모델의 성과와 한계"

문광주 기자 / 기사승인 : 2023-03-08 11:23:39
  • -
  • +
  • 인쇄
4'30" 읽기
- AI 시스템은 내용을 제대로 이해하지 못한 채 인간의 말과 의사소통을 모방
- 언어 모델 GPT-3 또는 GPT-3.5가 특히 상식과 일상적인 물리학에 관한 질문과 관련해 때때로 불명예스럽게 실패하는 이유
- GPT-3는 비범한 기술이지만 오래된 타자기만큼 지능적이고, 의식적이며, 교활하고, 통찰력 있고, 예리하거나, 민감하다.

언어 모델의 성과와 한계: ChatGPT는 스마트한가요?


특히 인공 지능과 챗봇에 관해서는 튜링 테스트로 모든 것을 측정하는 경우가 많다. 그것은 1950년대에 이미 디지털 컴퓨터의 지능을 평가하는 방법에 대한 문제를 다루고 있던 컴퓨터 선구자이자 수학자 Alan Turing 으로 거슬러 올라간다. Turing에게 중요한 것은 두뇌나 프로세서가 결과에 도달하는 방식이 아니라 결과가 나온 것이다. 튜링은 1952년 라디오 쇼에서 "우리는 두뇌가 차가운 죽과 같은 일관성을 지니고 있는지 상관하지 않지만, 컴퓨터는 그렇지 않다"고 말했다. 

▲ 튜링 테스트는 인간 테스터가 AI 또는 인간과 통신하는지 구분할 수 없으면 통과된다. pixabay

이에 따라 컴퓨터 선구자 튜링은 테스트로 일종의 모방 게임을 제안했다. 보이지 않는 파트너와의 대화에서 사람이 대답하는지 컴퓨터 프로그램이 대답하는지 알 수 없다면 프로그램은 지능적인 것으로 간주되어야 한다. 튜링은 2000년이 되면 컴퓨터가 5분 테스트를 치르는 사람들의 30퍼센트 이상을 성공적으로 속일 것이라고 예측했다. 몇 년 전까지만 해도 모든 AI 시스템이 이 테스트에 실패했다. Turing은 틀렸다는 의미다. 하지만 지금은?

ChatGPT가 튜링 테스트를 통과할까

ChatGPT 등을 사용하면 2023년 초에 나타난 것처럼 매우 복잡한 과학적 주제가 있는 경우에도 이러한 AI 시스템의 제품을 인공 제품과 구별하기가 점점 더 어려워지고 있다. 미국 노스웨스턴 대학의 캐서린 가오가 이끄는 팀은 ChatGPT에 의료 기사에 대한 요약, 이른바 초록을 작성하는 작업을 설정했다. AI는 제목과 저널만 정보로 받았을 뿐, 훈련 데이터에 포함되지 않아 전문 논문을 알지 못했다.

ChatGPT에서 생성된 초록은 매우 설득력이 있어 숙련된 검토자조차도 GPT 텍스트의 약 1/3을 인식하지 못했다. Gao는 "저희 검토자들은 일부 초록이 가짜라는 것을 알고 있었기 때문에 처음부터 의심했다”라고 말했다. AI 시스템은 과학적 어법을 모방했을 뿐만 아니라 그 초록도 내용 면에서 놀라울 정도로 설득력이 있었다. AI가 생성한 텍스트를 인식하도록 특별히 설계된 소프트웨어도 ChatGPT 텍스트의 약 1/3을 인식하지 못했다.

다른 연구에 따르면 ChatGPT는 일부 학업 테스트에서도 꽤 잘 수행됐다. 그중에는 미국 법률 시험과 의사면허시험 USMLE(US Medical Licensing Exam)이 있다. 의사면허시험은 세 부분으로 돼 있는데 의대생 2년 차, 4년 차, 그리고 졸업 후에 완료해야 한다. 이 테스트 대부분의 실행에서 ChatGPT는 이 테스트를 통과한 것으로 간주되는 임계값인 60% 이상이었다.

진짜 지식 없이 쓰기

이것은 ChatGPT 등이 정말 지능적이라는 것을 의미할까? Turing 테스트의 제한된 정의에 따르면 그럴 수도 있지만 전통적인 의미는 아니다. 이러한 AI 시스템은 내용을 제대로 이해하지 못한 채 인간의 말과 의사소통을 모방하기 때문이다. Oxford Internet Institute의 Luciano Floridi와 이탈리아 IBM의 Massimo Chiratti는 "Google이 우리의 쿼리를 '읽은 다음' 관련 답변을 제공하는 것과 같은 방식으로 GPT-3도 콘텐츠에 대한 더 깊은 이해 없이 텍스트를 작성한다"고 설명한다. "GPT-3는 주어진 프롬프트와 통계적으로 일치하는 텍스트를 생성한다."

따라서 Chat-GPT는 콘텐츠에 대해 아무것도 "알지" 않고 음성 패턴만 매핑한다. 이것은 또한 AI 시스템과 그 언어 모델 GPT-3 또는 GPT-3.5가 특히 상식과 일상적인 물리학에 관한 질문과 관련하여 때때로 불명예스럽게 실패하는 이유를 설명한다. 2018년 기술 기사에서 Tom Brown이 이끄는 OpenAI 연구원은 "GPT-3는 다음과 같은 유형의 질문에 특별한 문제가 있었다. 치즈를 냉장고에 넣으면 녹을까요?"라고 말했다.

컨텍스트 이해 및 Winograd 테스트

고급 언어 모델도 인간 언어와 그 고유특성에 여전히 어려움이 있다. 이것은 소위 Winograd 테스트에서 표시된다. 이것은 문법적으로 모호한 참조의 경우 인간과 기계가 여전히 문장의 의미를 올바르게 이해하는지 테스트한다. 예: "시장은 공격적인 시위자들이 폭력을 옹호했기 때문에 허가증 발급을 거부했다." 문제는 ‘누가 폭력을 퍼뜨리는가’였다.
▲ 언어 모델 GPT-3은 일부 언어 작업에서 인간보다 훨씬 더 못하지만 다른 작업에서는 우리의 성능을 달성한다. © hirun/ 게티 이미지

여기에서 "시위대"가 정답임에 틀림없다는 것은 맥락에서 인간에게 분명하다. 이것은 공통 언어 패턴을 평가하는 AI의 경우 훨씬 더 어렵다. OpenAI의 연구원들도 2018년 언어 모델을 테스트할 때 발견했다(arXiv:2005.14165 ). 더 까다로운 Winograd 테스트에서 GPT-3는 70~77%의 정답을 달성했다. 그들이 보고하는 것처럼. 인간은 이 테스트에서 평균 94%를 달성했다.

독해력 다소 보통

작업 유형에 따라 GPT-3는 다양한 작업 형식을 기반으로 하는 언어 이해 및 지식의 복잡한 텍스트인 SuperGLUE 벤치마크에서도 매우 다르게 수행된다. 여기에는 말장난과 찻주전자 작업 또는 다음과 같은 사소한 작업이 포함된다. 내 몸이 잔디에 그림자를 드리운다. 질문: 이것의 원인은 무엇입니까? A. 해가 떴다. B: 잔디를 깎았다. 그러나 SuperGLUE 테스트에는 이전에 주어진 텍스트에 대한 이해를 테스트하는 수많은 질문도 포함되어 있다.

GPT-3는 간단한 지식 질문 및 일부 읽기, 이해 작업을 포함해 이러한 테스트 중 일부에서 양호 또는 보통 점수를 받았다. 반면에 AI 시스템은 찻주전자나 소위 자연어 추론 테스트(NLI)에서 다소 완만하게 수행된다. 이 경우 AI는 두 개의 문장을 받아 두 번째 문장이 첫 번째 문장과 모순되는지, 확인하는지 또는 중립적인지를 평가해야 한다. 가중 버전(ANLI)에서 AI는 텍스트와 내용에 대한 오해의 소지가 있는 가설을 얻고 이제 자체적으로 올바른 가설을 세워야 한다.

그 결과, 작업에 도움이 되도록 여러 개의 정답 샘플 작업을 받은 GPT-3 버전도 이 테스트에서 40% 이상의 정답을 관리하지 못했다. "이러한 결과는 언어 모델에 대한 NLI(Natural-Language-Inference-Test)가 여전히 매우 어렵고 여기에서 진전을 보이기 시작했음을 나타낸다"고 OpenAI 연구원은 설명했다. 그들은 또한 이러한 AI 시스템이 지금까지 순전히 언어 기반이었고 예를 들어 비디오 또는 물리적 상호 작용의 형태로 우리 세계에 대한 다른 경험이 부족하다는 사실에 기인한다.

진짜 인공지능으로 가는 길?

그러나 이것이 인공지능의 발전에 의미하는 바는 무엇일까? 기계의 두뇌는 이미 우리의 능력에 가까워지고 있을까? 아니면 곧 추월할 것인가? 이에 대한 의견은 지금까지 크게 달랐다. LMU(Ludwig Maximilian University of Munich)의 AI 연구원 Volker Tresp는 "때때로 시스템이 잘못된 답변을 제공하거나 질문을 올바르게 이해하지 못하더라도 여기에서 달성한 기술적 성공은 경이적이다"고 말했다. 그의 견해에 따르면 GPT-3 또는 GPT 3.5와 같은 시스템을 사용한 AI 연구는 실제 인공지능으로 가는 길에 중요한 이정표에 도달했다.

그러나 Floridi와 Chiratti는 GPT-3로 테스트한 후 상황을 매우 다르게 보고 있다.
"우리의 결론은 간단하다. GPT-3는 비범한 기술이지만 오래된 타자기만큼 지능적이고, 의식적이며, 교활하고, 통찰력 있고, 예리하거나, 민감하다"며 "일반적인 형태의 인공 지능의 시작으로 모든 GPT-3를 해석하는 것은 정보가 없는 공상 과학 소설일 뿐이다.“
(계속)

[더사이언스플러스=문광주 기자]

[저작권자ⓒ the SCIENCE plus. 무단전재-재배포 금지]

  • 글자크기
  • +
  • -
  • 인쇄
뉴스댓글 >

주요기사

+

많이 본 기사

Basic Science

+

AI & Tech

+

Photos

+