ChatGPT(챗지피티) (5) ＂법의 회색 영역: 저작권과 표절의 문제＂

ChatGPT(챗지피티) (5) "법의 회색 영역: 저작권과 표절의 문제": 문광주 기자 / 기사승인 : 2023-03-18 16:27:15

3'50" 읽기
- 영국에서는 순전히 컴퓨터로 생성된 공연이 저작권으로 보호받을 수 있다.
- EU에서는 이러한 저작물이 인간의 개입 없이 생성된 경우 저작권이 적용되지 않는다.
- 아티스트와 사진 에이전시는 이미 Stable Diffusion 및 Midjourney와 같은 GPT 시스템을 기반으로 하는 일부 텍스트-이미지 생성기에 대해 저작권 침해로 소송을 제기하고 있다.

법의 회색 영역: 저작권과 표절의 문제

ChatGPT와 같은 AI 시스템뿐만 아니라 이미지 및 프로그램 코드 생성기도 수많은 새로운 콘텐츠를 생성한다. 그러나 누가 이러한 텍스트, 이미지 또는 스크립트를 소유하고 있을까? GPT 시스템의 제품에 대한 저작권은 누구에게 있을까? 소스 취급은 어떻게 규제될까?

▲ AI의 허위 진술과 그 결과에 대한 책임은 누구에게 있을까? 그리고 저작권은 어떤가? © hirun/ 게티 이미지

법적 지위 불분명

지금까지 AI가 생성한 텍스트, 예술 작품 또는 기타 제품의 상태에 대한 통일된 규정은 없었다. 영국에서는 순전히 컴퓨터로 생성된 공연이 저작권으로 보호받을 수 있다. 반면 EU에서는 이러한 저작물이 인간의 개입 없이 생성된 경우 저작권이 적용되지 않는다. 다만, AI를 개발·운영하는 업체에서 사용 권한을 제한할 수 있다. OpenAI는 지금까지 ChatGPT에서 생성된 텍스트의 무료 사용을 허용했으며 재판매, 인쇄 또는 광고에 사용될 수도 있다.

언뜻 보기에 이것은 명확하고 사용자에게 매우 실용적이다. 진짜 문제는 더 깊은 곳에 있다. ChatGPT의 텍스트에는 그가 정보를 얻은 출처가 표시되지 않는다. 특정 요청이 있더라도 AI 시스템은 이에 대한 정보를 제공하지 않는다. 예를 들어 이에 대한 ChatGPT의 일반적인 응답은 "특정 출처에서 나온 것이 아니라 다양한 아이디어와 접근 방식을 요약한 것이다"이다.

트레이닝 데이터의 문제

그러나 그것은 또한 사용자가 언어 모델이 완전히 새롭고 독립적으로 텍스트를 컴파일했는지 또는 학습 데이터에서 텍스트를 의역하거나 표절하지 않았는지 알 수 없음을 의미한다. 교육 데이터에는 저작권으로 보호되는 텍스트도 포함되어 있기 때문에 극단적인 경우 사용자가 알지 못하거나 의도하지 않은 상태에서 작성자 또는 게시자의 저작권을 위반하는 AI 생성 텍스트로 이어질 수 있다.

지금까지 회사는 저작권으로 보호되는 텍스트를 텍스트 또는 데이터 마이닝에 사용하는 경우 저자나 게시자의 명시적인 허가 없이 사용할 수 있었다. 이는 예를 들어 우선 순위 또는 연결을 식별하기 위해 많은 양의 데이터에 대한 통계적 평가를 의미한다. 이러한 "빅 데이터"는 특히 금융 부문, 마케팅 또는 과학 연구(예: 의학 주제)에서 사용된다. 그러나 이러한 방법을 사용하면 소스 데이터의 내용이 직접 재생산되지 않는다. 이것은 GPT 시스템과 다르다.

아티스트와 사진 에이전시는 이미 Stable Diffusion 및 Midjourney와 같은 GPT 시스템을 기반으로 하는 일부 텍스트-이미지 생성기에 대해 저작권 침해로 소송을 제기하고 있다. AI 시스템은 보호된 작품의 일부를 콜라주에 사용했다. OpenAI와 Microsoft는 AI 기반 프로그래밍 도우미 Copilot에 대해 답변해야 한다. 여기에서 요금은 소프트웨어 불법 복제다.

ChatGPT 등은 표절할까?

Pennsylvania State University의 연구원들은 최근 ChatGPT와 같은 언어 모델도 표절을 일으키는지 보다 자세히 조사했다. 이를 위해 그들은 표절 탐지에 특화된 소프트웨어를 사용하여 세 가지 유형의 표절에 대해 GPT-2 언어 모델의 다양한 변형에서 21만 개의 AI 생성 텍스트와 학습 데이터를 확인했다. 이 AI의 교육 데이터 세트는 공개적으로 액세스할 수 있기 때문에 GPT-2를 사용했다.

테스트를 위해 그들은 문장이나 텍스트 구절의 축어 채택을 위해 AI 시스템의 제품을 확인했다. 둘째, 그들은 원문의 일부를 약간 바꾸거나 재배열한 단락을 찾았다. 그리고 표절의 세 번째 형태로 팀은 소프트웨어를 사용하여 아이디어 탈취를 검색했다. 원문의 핵심 내용을 요약하여 압축한 형태로 재생산한다.

말 그대로 인수에서 아이디어 절도까지

검토 결과 테스트된 모든 AI 시스템이 텍스트에서 세 가지 유형의 표절을 생성한 것으로 나타났다. 팀 보고서에 따르면 축어적 인계는 평균 483자에 달했으며, 가장 긴 표절 텍스트는 5천자 이상이었다. 문자 그대로의 표절 비율은 언어 모델에 따라 0.5%에서 거의 1.5% 사이로 다양했다. 반면에 의역된 섹션은 평균 0.5% 미만이었다.

아이러니하게도 가장 큰 학습 데이터 세트와 가장 많은 매개 변수를 기반으로 하는 GPT 언어 모델이 가장 많은 표절을 생성했다. 제1저자 이주영은 "일반적으로 언어 모델이 클수록 기능이 더 커진다"며 "그러나 지금 밝혀진 바와 같이 이것은 교육 데이터 세트의 저작권을 희생할 수 있다"고 설명했다. 이는 ChatGPT와 같은 최신 AI 시스템이 연구원이 테스트한 모델보다 훨씬 더 큰 데이터 세트를 기반으로 하기 때문에 특히 관련이 있다.

"GPT의 제품이 매력적이고 언어 모델이 특정 작업에 유용하고 생산적이더라도 실제로는 그러한 텍스트 생성기가 제기하는 윤리 및 저작권 문제에 더 많은 주의를 기울여야 한다"고 미시시피 대학교의 공동저자 Thai Le가 말했다.

법적 질문이 열려 있다.

일부 과학 저널은 이미 명확한 입장을 취했다. "Science"나 "Nature" 그룹의 저널에서는 그러한 AI 시스템에 의해 생성된 텍스트나 그래픽의 원고는 허용되지 않는다. ChatGPT 등도 공동 저자로 지명되지 않을 수 있다. 미국의학협회(AMA)의 의학저널에 대한 사용은 허용되지만, 어떤 텍스트 부분이 어떤 인공지능 시스템에 의해 생성 또는 편집되었는지 정확히 선언되어야 한다.

그러나 저자의 문제 외에도 LMU(뮌헨 루드비히 막시밀리안) 대학의 AI 연구원 Volker Tresp는 다음과 같이 강조하면서 “새로운 AI 성과로 우리는 이와 같은 질문을 해결해야 한다. 차별적인 발언을 하여 시스템이 훈련 데이터를 기반으로 결합한 것을 재생산만 하는 AI에 대한 책임은 누구에게 있을까? AI의 추천으로 발생한 치료 오류는 누가 책임져야 하는가?” 지금까지 이러한 질문에 대한 답이 없거나 부족했다. (끝)

[더사이언스플러스=문광주 기자]