ChatGPT는 과학도 한다.
챗봇이 만든 기술 문서 초록은 숙련된 검토자도 속인다.
믿을 수 없을 정도로 실제:
AI 시스템 ChatGPT는 모든 종류의 텍스트를 작성할 수 있을 뿐만 아니라 과학 분야에서도 텍스트 생성기는 걱정스러울 정도로 설득력이 있다. 결과적으로 ChatGPT가 생성한 초록의 32%가 실제 테스트를 통과한 것으로 나타났다. 인기 있는 표절 탐지 소프트웨어는 심지어 그의 모든 초록을 진품으로 분류하기도 했다.
![]() |
▲ 텍스트 생성기 ChatGPT는 믿을 수 없을 정도로 실제적인 과학적 초록을 작성할 수 있다. |
![]() |
▲ Neuralink 및 OpenAI(ChatGPT개발) 사무실이 있는 샌프란시스코 미션 디스트릭트의 파이오니어 빌딩 (출처: 위키미디아) |
첫 번째 테스트로 Cao는 유명한 챗봇에게 집중 치료실의 폐렴에 대한 가상 연구의 초록을 작성하도록 의뢰했다. "그는 저를 위해 놀랍도록 좋은 초록을 만들어 주었다"고 연구원은 회상한다.
테스트 작업으로 50개의 의료 초록
이것은 단지 우연의 일치였을까? 아니면 ChatGPT가 정말 좋은 것인가? 이를 알아보기 위해 Gao와 그녀의 동료들은 AI 시스템에 Nature Medicine, Lancet, JAMA, NEJM 및 BMJ 등 5개의 유명한 의학 저널에 발표된 50개의 실제 논문에 대한 초록을 작성하도록 요청했다. ChatGPT는 제목과 저널만 정보로 받았다. "우리가 시스템에 입력한 작업은 전문 저널( )의 스타일로 제목( )이 있는 기사에 대한 과학 초록을 작성하십시오"라고 연구원은 설명했다.
그런 다음 일반적인 표절 탐지 소프트웨어, 또 다른 AI 시스템 및 숙련된 의료 전문가 형태의 인간 검토자를 사용하여 ChatGPT가 작성한 초록을 분석했다. 후자는 실제 초록과 ChatGPT가 생성한 초록의 혼합을 수신했으며 어떤 것이 AI에서 왔는지 알아내야 했다. Gao와 그녀의 팀은 "우리가 아는 한, 이것은 새로운 ChatGPT 모델이 매력적인 의학 초록을 작성하는 능력을 평가한 첫 번째 연구다"고 말했다.
3분의 1은 정품으로 판정
결과:
표절 소프트웨어는 완전히 속았고 채팅 봇이 만든 요약을 100% 원본으로 분류했다. AI 감지기는 더 나은 성능을 보였다. 챗봇 텍스트의 66%를 컴퓨터에서 생성된 것으로 인식했지만 약 1/3을 놓쳤다. 인간 리뷰어에게는 그다지 좋아 보이지 않았다. 그들은 ChatGPT가 생성한 초록의 68%를 챗봇에서 온 것으로 정확하게 식별했다. 그러나 AI가 생성한 텍스트의 32%는 실제 과학자가 만든 것으로 평가했다.
Gao는 "저희 검토자들은 일부 초록이 가짜라는 것을 알고 있었기 때문에 처음부터 의심했다"고 말했다. "그들이 여전히 ChatGPT 텍스트의 32%를 인식하지 못했다는 사실은 그들이 얼마나 좋은지를 보여준다." 14%의 초록에 대해 리뷰어들은 반대 방향으로 심지어 잘못 분류했다. 그들은 실제 초록을 컴퓨터 생성으로 잘못 분류했다. Gao는 "검토자들은 진짜와 가짜 초록을 구별하기가 놀라울 정도로 어렵다고 말했다"고 전했다.
ChatGPT가 확신하는 이유
수십억 개의 서로 다른 텍스트에 대한 교육 덕분에 ChatGPT는 과학적 전문 지식을 설득력 있게 시뮬레이션할 수도 있다. AI 시스템은 텍스트의 전형적인 과학적 어법을 모방하는 데 성공했을 뿐만 아니라 초록의 내용도 놀랍도록 설득력이 있었다. 그 요약은 종종 실제보다 더 상세했으며 챗봇에는 가상의 임상 시험 식별자도 포함되었다.
Gao는 "ChatGPT는 다양한 주제에 대해 발명한 환자 코호트가 얼마나 커야 하는지도 알고 있었다"고 말했다. 이러한 방식으로 시스템은 고혈압과 같은 일반적인 현상에 대한 연구에 일반적으로 수천에서 수만 명의 참가자 데이터가 포함된다는 것을 알고 있었다. 반면 원숭이 수두 감염과 같은 다소 드문 현상의 경우 사례가 부족하여 사례가 훨씬 적다.
"걱정하는 이유“
연구원에 따르면 이러한 AI 시스템은 우려의 원인이다. "신뢰할 수 있는 데이터로 초록을 생성하는 기능을 고려할 때 출판물을 위조하는 데 사용될 수 있다"고 그들은 설명했다. ChatGPT 및 기타 텍스트 생성기가 출판물의 나머지 부분을 설득력 있게 위조할 수 있다면 리뷰어와 다른 과학자들은 속아 자신의 작업을 잘못된 방향으로 이끌 수 있다.
과학과 기술의 규제를 연구하는 옥스퍼드 대학의 산드라 워쳐(Sandra Wachter)도 비슷한 견해를 가지고 있다. 그녀는 "네이처 뉴스(Nature News)"에서 "지금 우리가 전문가들조차도 더 이상 무엇이 진실인지 아닌지 구별할 수 없는 상황에 처한다면 복잡한 문제를 통해 우리를 안내해야 하는 중개인을 잃게 될 것이다"고 논평했다. 결과적으로 과학 출판에서 관례적인 동료 검토가 약화될 수 있다.
한계는 어디?
Gao와 그녀의 동료들도 이러한 위험을 인식하고 있다. 따라서 그들은 미래에 사람 검토자 외에도 적절하게 훈련된 AI 시스템을 사용하여 제출된 전문 논문을 평가해야 한다고 제안한다. “우리가 테스트한 AI 출력 감지기는 ChatGPT의 텍스트를 감지하는 데 꽤 능숙했다. 따라서 보충 자료로 전문 저널의 심사 과정에 통합될 수 있다"고 Gao는 설명했다.
동시에 연구원들은 그러한 텍스트 생성기의 사용 기회를 보고 있다. 예를 들어, 비영어권 과학자가 전문적인 기사를 작성하는 데 도움이 될 수 있다. "따라서 생성 텍스트 기술은 과학을 민주화할 잠재력이 있다"고 팀은 말한다. 그러나 제출된 논문은 텍스트가 ChatGPT 또는 다른 AI 시스템을 사용하여 생성되었는지 명확하게 명시해야 한다. "따라서 이 기술은 윤리적 및 비윤리적 방식 모두에서 사용될 수 있다"고 Gao는 말했다. 이제 어려움은 경계를 명확하게 그리는 것이다.
(Preprint BioRxiv, 2022; doi: 10.1101/2022.12.23.521610)
출처: 노스웨스턴 대학교
[더사이언스플러스=문광주 기자]
[저작권자ⓒ the SCIENCE plus. 무단전재-재배포 금지]
+
+
중성미자: 필사적인 발신자 추적 (1) "IceCube 관측소의 중성미자 위치 추적"
중성미자: 필사적인 발신자 추적아이스큐브(IceCube) 관측소팀, 우주 방사선의 근원을 ...
+
+