사전 훈련된 생성 변환기의 원리 : ChatGPT는 어떻게 작동하나요?
ChatGPT는 특히 언어 영역에서 인상적인 기술로 인해 눈에 띄는 새로운 인공지능의 한 대표일 뿐이다. LaMDA, OPT-175B, BLOOM 등이 ChatGPT보다 덜 공개되더라도 Google 및 기타 OpenAI 경쟁업체도 이러한 시스템에서 작업하고 있다. 그러나 이러한 AI 시스템의 기본 원리는 유사하다.
![]() |
▲ ChatGPT 및 Co는 인공 신경망을 기반으로 한다. 피드백을 기반으로 네트워크의 링크에 가중치를 부여하여 학습한다. © Andrii Shyp/ 게티 이미지 |
대부분의 최신 AI 시스템과 마찬가지로 인공 신경망은 ChatGPT와 그 동료들의 기반을 형성한다. 이들은 컴퓨팅 노드가 여러 계층에서 상호 연결된 네트워크 시스템을 기반으로 한다. 우리 두뇌의 뉴런 연결과 마찬가지로 올바른 결정으로 이어지는 각 연결은 훈련 시간 동안 더 많은 가중치를 부여한다. 즉, 네트워크가 학습한다. 그러나 우리의 뇌와 달리 인공 신경망은 시냅스와 기능적 신경 경로를 최적화하지 않고 입력과 입력 사이의 신호 경로와 상관관계를 최적화한다.
ChatGPT 기반 AI 시스템 GPT-3 또는 GPT 3.5는 소위 생성 변환기에 속한다. 원칙적으로 이들은 일련의 입력 문자를 출력과 다른 문자열로 변환하는 데 특화된 신경망이다. GPT-3과 같은 언어 모델을 사용하면 문자열이 텍스트의 문장에 해당한다. 수백만 개의 텍스트를 기반으로 한 교육을 통해 AI는 문법 및 내용 측면에서 입력된 질문 또는 작업과 가장 일치하는 단어 시퀀스를 학습한다. 원칙적으로 변환기의 구조는 사람의 음성을 통계 모델로 매핑한다.
교육 기록 및 토큰
이 학습을 최적화하기 위해 ChatGPT 뒤에 있는 생성 변환기는 다단계 교육을 거쳤다. 이름에서 알 수 있듯이 GPT(Generative Pre-trained Transformer)이다. 이 AI 시스템을 교육하기 위한 기반은 수백만 개의 텍스트로 구성되며, 그중 82%는 다양한 인터넷 콘텐츠 모음에서, 16%는 책에서, 3%는 Wikipedia에서 가져온다.
그러나 Transformer는 내용을 기반으로 이러한 텍스트를 "학습"하지 않고 일련의 문자 블록으로 학습한다. “우리 모델은 텍스트를 토큰으로 분해하여 텍스트를 처리하고 이해한다. 토큰은 전체 단어, 단어의 일부 또는 문자일 수 있다”고 OpenAI는 설명했다. GPT-3의 경우 훈련 데이터 세트에는 4,100억 개의 토큰이 포함된다. 언어 모델은 통계적 평가를 사용하여 어떤 문자가 특히 자주 어떤 조합으로 함께 나타나는지 기록하고 기본 구조 및 규칙에 대한 결론을 도출한다.
![]() |
▲ GPT(Generative Pre-trained Transformer)의 기본 구조. © Marxav/gemeinfrei |
다음 단계는 안내 교육이다. OpenAI는 "우리는 문자열에서 다음에 오는 내용을 모델이 예측하도록 하여 모델을 사전 교육한다"며 "예를 들어, 그들은 다음과 같은 문장을 완성하는 법을 배운다. 왼쪽으로 도는 대신 그녀는 ________로 돌았다"고 말했다. AI 시스템은 올바르게 수행하는 방법과 피드백에 대한 예를 받는다. 시간이 지남에 따라 GPT는 구조에서 특정 조합 및 문자열 번역에 다른 것보다 더 많은 가중치를 부여하여 언어 및 의미 관계에 대한 "지식"을 축적한다.
이 교육은 ChatGPT 뒤에 있는 AI 시스템의 마지막 단계로 "인간 피드백을 통한 강화 학습"(RLHF)으로 알려진 것으로 이어진다. 여기에서 인간의 작업 프롬프트에 대한 GPT의 다양한 반응을 평가하고 이 분류를 학습 자료로 다른 신경망인 보상 모델에 제공한다. 그런 다음 이 "보상 모델"은 비교를 사용하여 어떤 출력이 어떤 입력에 대해 최적인지 학습한 다음 추가 교육 단계에서 이를 원래 언어 모델에 가르친다.
OpenAI는 "이 과정을 GPT-3에서 이미 가지고 있지만 훈련 프롬프트만으로는 동원하기 어려웠던 기술을 발휘하는 것으로 생각할 수 있다"고 설명했다. 이 추가 학습 단계는 언어 출력을 부드럽게 하고 사용자 인터페이스의 입력에 더 잘 적응시키는 데 기여한다.(계속)
[더사이언스플러스=문광주 기자]
[저작권자ⓒ the SCIENCE plus. 무단전재-재배포 금지]
+
+
중성미자: 필사적인 발신자 추적 (1) "IceCube 관측소의 중성미자 위치 추적"
중성미자: 필사적인 발신자 추적아이스큐브(IceCube) 관측소팀, 우주 방사선의 근원을 ...
+
+