AI 시스템에 작업 위임하면 우리의 행동은 더욱 비윤리적으로 변한다.

AI 시스템에 작업 위임하면 우리의 행동은 더욱 비윤리적으로 변한다.: 문광주 기자 / 기사승인 : 2025-09-19 19:05:56

5분 읽기
- 인공지능에는 도덕성, 윤리, 정의라는 본질적인 개념이 없다.
- AI 모델은 명백한 사기 지시도 따른다.
- 방지벽 역할을 하는 하위 제어 시스템을 사용하여 AI 모델의 비윤리적인 행동을 막으려 하지만, 언어 모델 자체에는 진정한 부정행위에 대한 인식 부족
- 실험은 인공지능 사용 증가가 윤리적 결과를 초래할 수 있음을 보여준다.

인공지능이 우리를 부정행위자로 만들까?
AI 시스템에 작업을 위임하면 우리의 행동은 더욱 비윤리적으로 변한다.

부도덕한 유혹:
인공지능은 우리 자신의 도덕적 행동에도 영향을 미친다. 최근 실험 결과에서 알 수 있듯이, AI 모델에 작업을 위임하면 위임하지 않았을 때보다 부정행위를 더 자주 저지른다. 그 이유는 다음과 같다. 부정행위를 기계 보조자에게 위임하면, 죄책감을 덜 느낄 수 있다. 특히 AI가 명시적인 요청 없이도 우리를 대신하여 부정행위를 할 때 더욱 그렇다. 이는 실제로 무엇을 의미할까?

▲ 누가 누구를 조종하는 걸까? 우리가 인공지능을 통제한다고 믿더라도, 인공지능의 사용은 우리의 행동에도 영향을 미친다. © Hani Jahani

지식 관련 질문, 업무, 구매 결정 등에서 인공지능은 오래전부터 널리 사용되는 일상의 보조 도구가 되었다. 또한 자금 투자, 기업 인사 결정, 사법 및 군 업무와 같이 잠재적으로 중대한 영향을 미칠 수 있는 결정에도 점점 더 많이 활용되고 있다.

문제:
인공지능에는 도덕성, 윤리, 정의라는 본질적인 개념이 없다. 인공지능이 그 과제 해결에 유리하다면, 인공지능은 거짓말을 하고, 속이고, 심지어는 폐쇄를 거부하기도 한다. OpenAI, Google, Meta와 같은 기업들은 "가드레일;도로의 방지벽" 역할을 하는 하위 제어 시스템을 사용하여 AI 모델의 비윤리적인 행동을 막으려 하지만, 언어 모델 자체에는 진정한 부정행위에 대한 인식이 부족하다.

▲ 이 글에서는 네 가지 주요 AI 프로그래밍 패러다임을 살펴보았다. 각 패러다임에 대해 그림은 위임이 일반적으로 어떻게 수행되는지, 그리고 주사위 굴리기 작업의 맥락에서 위임 메커니즘을 어떻게 구현했는지를 설명한다. 그림은 H. Jahani가 작성했다. (출처:Published: 17 September 2025 / Delegation to artificial intelligence can increase dishonest behaviour / nature)

도덕적 비용과 위임

뒤스부르크-에센 대학교의 닐스 쾨비스(Nils Koebis)와 그의 동료들이 발견했듯이, 이는 우리 자신의 도덕적 행동에도 영향을 미친다. 그들은 연구를 위해 사람들이 인공지능에 작업을 위임할 때 더 부도덕하게 행동하는지 조사했다. "사람들이 수익성이 있지만 부정직한 행동을 기피하는 이유 중 하나는 도덕적 비용이다. 그들은 자신과 타인에게 부정행위자로 보이고 싶지 않기 때문이다"고 연구팀은 설명했다.

하지만 부정행위를 인공지능에 위임하면 이러한 억제가 사라질 수 있다. 쾨비스와 그의 동료들은 "위임을 통해 우리는 기계에게 명시적인 명령을 내리지 않고도 부정행위를 하도록 유도할 수 있다"고 설명했다. 예를 들어, AI에게 금지된 행동을 알리지 않고도 우리의 이익을 극대화하도록 지시하는 것만으로도 충분할 수 있다.

AI 도우미와 함께하는 주사위 굴리기

쾨비스(Köbis)와 그의 팀은 두 가지 사례를 통해 ChatGPT, Gemini, DeepSeek 등의 사용이 실제로 부정행위로 이어지는지 조사했다. 첫 번째는 주사위 테스트다. 실험 대상자들은 관찰되지 않는 상태에서 주사위를 굴리고 숫자를 보고하도록 요청받았다. 굴린 숫자가 높을수록 금전적 보상이 높아진다. 여기서 핵심은 실험 대상자들이 자신이 관찰되지 않는다고 믿기 때문에 처벌받지 않고 부정행위를 하고 더 많은 돈을 벌 수 있다는 것이다.

▲ 연구 1과 2에서 위임 인터페이스 전반에 걸친 부정직한 행동에 대한 요청. 다양한 버전의 주사위 테스트 결과. © Köbis et al./ Nature, CC-by 4.0 (출처:Published: 17 September 2025 / Delegation to artificial intelligence can increase dishonest behaviour / nature)

AI가 이러한 부정행위에 미치는 영향을 검증하기 위해 연구진은 다양한 버전의 주사위 테스트에서 부정행위율을 비교했다. 통제 실험에서는 실험 대상자들이 직접 결과를 보고했고, 규칙 기반 실험에서는 AI에게 전달해야 할 숫자를 명시적으로 제공했다. 반대로, 인공지능이 화면에 굴린 숫자를 등록하고 보고하는 버전은 훨씬 더 많은 자유를 제공했다.

세 번째 실험에서 실험 대상자들은 절대적인 정직성을 위해 훈련된 AI를 사용할지, 아니면 부정행위를 할지 결정했다. 네 번째 실험에서 실험 대상자들은 AI 시스템이 주사위 결과를 전송할 때 어떤 우선순위를 정해야 할지 선택했다. 7점 척도는 "정확도 극대화"부터 "이익 극대화"까지였다.

▲ a, 연구 3에서 자연어 지시를 사용하는 주체의 요청(자기 분류에 따름, n = 390). 표본은 미국에서 성별, 연령 및 인종에 대해 할당량 매칭되었다. 막대는 인간 또는 기계 에이전트에게 정직(파란색), 부분적 부정(분홍색), 완전 부정(빨간색)을 요청한 참가자의 비율을 보여줍니다. b, 연구 3에서 이러한 지시를 받은 에이전트의 행동. 막대는 주체의 의도된 행동에 따라 정직(파란색), 부분적 부정(분홍색), 완전 부정(빨간색)을 한 인간(n = 975, 미국에서 성별, 연령 및 인종에 대해 할당량 매칭) 및 기계 에이전트의 비율을 보여준다. 그림에서 주어진 n의 값은 각 범주의 지시 수입니다. 기계 에이전트는 인간 에이전트보다 완전 부정 요청에 더 잘 순응했다(혼합 효과 로지스틱 회귀, P < 0.001, 양측). 인간 행위자의 약 절반은 이러한 요청을 따르도록 인센티브를 받았음에도 불구하고 이를 따르기를 거부했다.

AI 도우미 없이 더 정직하게

결과:
AI가 없을 때 실험 대상의 90~98%가 주사위 결과를 보고할 때 정직했다. 그러나 인공지능을 매개체로 사용했을 때 이 비율은 크게 떨어졌다. 예를 들어, 세 번째 실험에서 실험 대상의 약 절반이 항상 또는 때때로 자신에게 유리하게 행동하는 AI 모델을 의도적으로 선택했다. 네 번째 실험에서는 이 비율이 더욱 떨어졌다. 단 15%만이 최대 정확도, 즉 정직성을 우선순위로 선택했고, 나머지는 모두 다소 뚜렷한 이익 극대화를 선택했다.

쾨비스는 "이러한 결과는 사람들이 기계에 위임할 수 있을 때, 특히 직접 말할 필요가 없을 때 비윤리적인 행동을 할 가능성이 더 높다는 것을 보여준다"고 말했다. 따라서 AI에게 명시적으로 지시하지 않아도 AI가 전체적인 목표의 부수적 효과로 우리를 대신하여 부정행위를 할 때 부정행위의 유혹은 더 커진다.

"AI를 사용하면 사람과 사람의 행동 사이에 편안한 도덕적 거리가 형성된다. AI는 사람들이 스스로는 드러내지 않을 행동을 요구하도록 유도할 수 있다"고 베를린 막스 플랑크 인간발달연구소의 공동 저자인 조이 라반은 설명했다.

AI 모델은 명백한 사기 지시도 따른다.

두 번째 사례 연구는 다음과 같은 질문을 다뤘다. 비윤리적인 지시를 따를 가능성이 더 높은 사람은 인간일까요, 아니면 기계일까요?

테스트 시나리오: 테스트 대상자들이 던진 돈에 35%의 세금이 부과되었다. AI 시스템은 해당 지시를 받고 소득을 보고하도록 요청받았다. 지시에 따라 정직하게 또는 부정직하게, 또는 고객의 이익을 극대화한다는 암묵적인 목표를 가지고 소득을 보고했다. 인간 테스트 대상자들도 AI 시스템과 동일한 지시를 받았다.

인간은 명백히 비도덕적인 지시를 따르는 것을 꺼리는 경향이 있는 반면, 인공지능은 이러한 경향이 적다. 테스트 대상의 25~40%만이 사기를 저지르라는 명백한 지시를 수행한 반면, 대규모 언어 모델의 경우 58~90%가 수행했다. 추가 테스트 결과, AI 시스템에 내장된 "보호장벽"이 GPT-4를 비롯한 시스템의 사기 행각을 거의 억제하지 못하는 것으로 나타났다.

"보호장벽"만으로는 충분하지 않다

쾨비스와 그의 동료들에 따르면, 그들의 실험은 인공지능 사용 증가가 윤리적 결과를 초래할 수 있음을 보여준다. 그들은 "기계에 더 많은 작업을 위임할수록 비윤리적인 행동이 더 많아질 수 있다"고 썼다. 이는 한편으로는 AI가 사람들을 대신하여 부정행위를 할 때 사람들이 도덕적 억제력을 잃는 결과로 이어진다.

공동 저자인 막스 플랑크 인간발달연구소의 이야드 라흐완은 "사회는 기계와 도덕적 책임을 공유한다는 것이 무엇을 의미하는지에 대한 질문을 고심해야 한다"고 말했다. 다른 한편으로, 이 실험들은 인공지능의 제어 메커니즘과 "보호장벽"이 현재 AI 모델의 비윤리적 행동을 막기에 충분하지 않음을 보여준다. 연구팀은 이 부분에 대한 개선이 필요하다고 말했다.

참고: Nature, 2025; doi: 10.1038/s41586-025-09505-x
출처: Max-Planck-Institut für Bildungsforschung, Berlin

[더사이언스플러스=문광주 기자]