토론

가깝고도 먼 AI와 AI 윤리

2024.02.01

227
6
인공지능 윤리를 고민하는 직장인, 프리랜서, 대학원생이 꾸려가는 뉴스레터입니다.

가깝고도 먼 AI와 AI 윤리

by. 🤔어쪈


AI 윤리는 AI와 떼려야 뗄 수 없는 관계입니다. 너무도 당연한 말로 글을 여는 이유는 둘 사이의 거리를 주제삼아 이야기해보고 싶기 때문이에요.

‘AI 윤리 레터’에서조차 정의한 적이 없을 정도로 AI 윤리는 무어라 명확히 개념잡기 어려운 단어입니다. 그래서 저는 종종 다른 곳에서부터 표현을 빌려오곤 합니다. 과학기술의 윤리적·법적·사회적 함의와 영향에 대한 연구를 의미하는 ELSI(Ethical, Legal, and Social Implications)가 바로 그것입니다.

ELSI는 1990년대 인간 게놈 프로젝트의 일환으로 시작된 연구과제에 기원을 두고 있습니다. 사람의 유전정보를 분석하고 이해할 수 있게 될 때 벌어질 일들에 대한 우려가 컸던 탓에, 인간 게놈 프로젝트에 투입되는 예산 중 일부를 ELSI에 배정한 것이죠. 대표적인 연구주제 몇가지를 살펴보면 다음과 같습니다:

  • 보험, 채용, 사법, 교육 등의 영역에서의 공정한 유전정보 활용 방안
  • 낙인 효과와 같은 특정 개인 및 집단에 대한 유전정보의 사회심리학적 영향
  • 재생산권, 치료 및 진료권과 관련 의사결정에 미치는 파급력

이후 ELSI는 미국의 나노기술 이니셔티브에서 한 분과를 차지하는 등 인간 게놈 프로젝트 이후에도, 또 생명윤리 외 분야에서도 자리를 잡았습니다. 최신 과학기술의 연구개발에 사회적 가치를 반영하고, 더 나아가 관련 정책 설계에도 상당한 기여를 했다는 평가를 받고 있죠. 최근에는 RRI(Responsible Research and Innovation)라고 불리는 보다 사회에 책임있는 방식으로 연구개발을 수행하기 위한 방법론적 프레임워크로 이어지고 있습니다.



출처: 미 국립인간게놈연구소 (NHGRI)


이처럼 좋은 취지하에 유의미한 성과를 낸 연구 분야지만, ELSI에도 숱한 비판이 있었습니다. 무엇보다 가장 큰 문제는 ELSI가 결국 인간 게놈 프로젝트와 같은 특정 분야의 과학기술 이니셔티브에 종속된 과제였다는 점입니다. ELSI 연구자들이 프로젝트에 속한 다른 사람들과 같은 입장이 되어 비판적 사고나 적극적 대안 제시 보다는 기술 개발의 정당화에 기여했다는 것이죠. 이를 두고 인문학과 사회과학이 ELSI-화 (ELSI-fication) 되었다는 표현까지 등장했습니다.

ELSI를 둘러싼 논의는 AI 윤리 레터를 비롯한 AI 윤리라는 범주 아래 이뤄지는 여러 활동에도 시사하는 바가 큽니다.

AI 윤리는 AI 기술 개발에 보다 적극적이고 비판적으로 개입할 필요가 있습니다. AI 윤리가 하나의 분야로 자리잡기 시작하면서 기술 개발 주체가 ‘AI 윤리 전문가’에게 관련 문제 해결의 책임을 전가하는 것을 종종 볼 수 있습니다. 하지만 AI 윤리는 단순히 AI 기술이 야기하는 윤리적·법적·사회적 문제들이 발생한 후에야 연락을 받고 도착해 해결책을 제시하는 뒷처리 담당반이 아닙니다.

한편 AI 윤리라는 이름 아래 기술의 발전 방향과 이를 주도하는 기업들의 주장을 비판하는 대신 수용하고, 나아가 AI 하이프를 더욱 부풀리는 경우 역시 어렵지 않게 찾아볼 수 있습니다. AI 윤리 레터에서 다룬 바 있는 ‘AI 하이프 뉴스 체크리스트’를 기억하시나요? 누군가가 AI 윤리 전문가를 자청하며 AI 하이프 뉴스를 퍼나르고 있다면, 한번쯤은 그의 ‘AI 윤리’를 의심할 필요가 있습니다.

다시 처음으로 돌아가 AI 윤리와 AI는 떼려야 뗄 수 없는 관계라는 말을 살펴봅시다. AI 윤리와 AI 사이엔 너무 멀지도 않고 너무 가깝지도 않은 적당한 거리가 필요합니다. AI에 대한 AI 윤리의 개입과 거리두기는 동시에 이뤄져야 합니다. AI 윤리는 AI를 위한 것이 아니니까요.


🦜같이 읽어도 좋을 글



AI가 당신의 글을 좋은 데 쓸 거예요.

 by. 🎶소소


AI 윤리 레터의 글을 AI 학습 데이터로 판매한다면 얼마가 적당할까요? 아, 온라인에 공개된 글이므로 이미 AI 학습에 활용되었는지도 모르겠네요. 최근 저는 AI 기업이 저작물을 대하는 태도가 점점 뻔뻔해지고 있다고 느낍니다. 지난 브리프의 '뉴욕타임스 소송에 대한 오픈AI 입장문’ 이야기입니다. 그래서 오늘 레터에서는 오픈AI가 입장문에서 주장하는 바가 합당한지 조금 더 살펴보았습니다. 이 소송의 결과가 AI 업계와 창작자 생태계에 미칠 영향력이 작지 않아 보이기 때문입니다. 앞으로 저작권자와 AI 사업자가 어떻게 공생할 수 있을 지 고민이 깊어집니다.


출처: Photo by Aaron Burden on Unsplash


오픈AI의 주장은 전 세계의 저작권자와 AI 기업의 논쟁을 고스란히 보여줍니다.

1. 우리는 전 세계 사람들을 위한 AI를 만든다. AI 학습은 공정 이용이다.

  • 저작권법에서의 공정 이용은 특정 조건에서 저작권이 있는 자료를 저작권자의 허가 없이도 사용할 수 있게 해줍니다. 일반적으로 문화 및 관련 산업의 발전을 위한 비평, 뉴스 보도, 교육, 학술 연구 등의 목적을 위한 것입니다. AI 학습의 공정 이용 여부에 대해서는 다양한 의견 대립이 있으며, 아직 직접적으로 판단한 국내외 법원의 판례는 없습니다.
  • 오픈AI는 AI 훈련이 공정 이용에 해당한다고 주장합니다. AI에게 인간의 언어를 가르쳐 일상의 삶을 이롭게 한다는 점에서 공정 이용 취지에 해당한다는 겁니다. AI는 저작물을 복제하는 것이 아니라 단어 빈도수, 구문 패턴 등 통계적 정보를 새로운 형태로 변환한다는 점 역시 참작해야 한다고 합니다.
  • 뉴욕타임스는 AI 기업이 저작권자의 허가나 대가 지급 없이 언론사의 자산인 저작물을 활용하고, 대체품을 생산하여 이익을 취하고 있기 때문에 어떤 기준으로도 공정 이용이 아니라고 반박하고 있습니다.
  • 한편, 오픈AI의 서비스 약관은 챗GPT의 생성물로 다른 모델을 학습시키는 것을 금지합니다. 타인의 저작물을 AI 학습에 쓰는 것은 공정이용이라고 주장하면서, 자신의 AI 생성물을 다른 회사의 AI를 학습시키는 것은 사용하는 것은 막는 꼴입니다. 내로남불이랄까요.


뉴욕타임스 기사원문과 유사한 챗GPT 결과. 출처: 뉴욕타임스


2. 뉴욕타임스 사례는 드물게 발생한 오류이며, 심지어 의도적인 오용의 결과다.

  • 뉴욕타임스가 소송에 제출한 챗GPT 응답은 거의 기사 원문을 복사한 것처럼 유사합니다. AI 모델이 학습한 원데이터를 그대로 뱉어내는 ‘역류(Regurgitation)’ 현상 때문이라고 하는데요. 아마 사람이 ‘표절’한 기사를 자신이 쓴 것처럼 돈을 받고 팔았다면 단번에 저작권 침해가 되었을 겁니다.
  • 오픈AI는 이 현상은 의도하지 않은 ‘기술적 오류’라고 설명합니다. 이러한 오류의 발생 가능성은 매우 낮으며, 이미 최소화했다고 주장합니다. 하지만 원데이터의 표절에 가까운 생성물이 얼마나 자주, 어떤 상황에서 발생하는 지에 대한 질문에 직접적으로 대답하지는 않았습니다.
  • 또한 오픈AI는 뉴욕타임스가 주장하는 저작권 침해가 챗GPT를 악용했기 때문이라고 주장합니다. 뉴욕타임스가 기사의 원문 노출을 유도하는 프롬프트 입력해 챗GPT가 기사를 그대로 인용하도록 했기 때문이라고요.
  • 그런데 만약 뉴욕타임스가 특정 상황에서 문제 가능성을 찾았다면, 일반 사용자도 동일한 상황에서 문제를 만들 수 있는 것 아닌가요? 때로는 오류의 발견이 시스템의 결함을 찾고 고칠 수 있는 계기가 됩니다. IT 기업은 시스템 오류를 찾기 위해 의도적인 Red teaming 을 진행하기도 하죠. 그런데 오픈AI는 시스템의 오류를 사용자의 오용으로 치부하며 책임을 돌리는 것으로 보입니다.

AI 기업의 저작물 무단 사용 소송이 줄을 잇고 있지만 아직 저작권자의 손을 들어준 판결은 없었습니다. 이 소송에서 오픈AI가 승소한다면, AI 모델 학습이 공정 이용으로 법적 지지를 얻게 된다고 볼 수 있습니다. 긍정적으로 본다면, AI 연구자나 기업은 법적 문제 없이 좋은 데이터를 확보하고 더 좋은 성능의 AI를 만들 기회가 될 것입니다. 한편 저작권자의 입지는 점점 더 좁아지겠죠.

지난해 말 우리나라 문화체육관광부에서는 저작권자의 권리를 강조하는 취지의 “생성형 AI 저작권 안내서”를 발간했습니다. 안내서는 저작권자와 생성형AI 사업자가 유의해야 할 사항에 대해 다룹니다. 그러나 주요 쟁점인 ‘저작물의 AI 학습 활용’에 대해서는 기존 저작권법을 읊는 정도로 서술합니다. 도리어 국내 AI 기업의 발전을 막는 족쇄가 된다는 우려만 일으키고 있습니다. 정부가 AI 기술의 건전한 혁신을 지원하고 저작권자의 권리를 보호하는 방안을 모색하기까지는 시간이 좀 더 필요해보입니다


🦜같이 읽어도 좋을 글




오늘 이야기 어떠셨나요? 여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.

이슈

인공지능

구독자 143명

뉴스는 언론사의 순수 창작이라기보다는 존재하는 팩트를 가공하고 편집해 제시하는 것이기도 한데 기사라고 해서 저작권이 당연 인정되는 것은 아니지 않을까요? 뉴스 매체가 사회의 공공성 증진을 명분으로 받는 특별한 보호와 보장들 나아가 특권들을 생각하면 아티클을 단지 저작자들의 '저작물'이라고만 개념화할 수 있을까요? 언론사의 유니크한 스토리텔링의 독창성 노력 자산 이런 것들은 보호받아야 할 수 있겠지만 뉴스의 공공재적 공유재적 성격을 아예 간과할 일은 아니라고 봅니다.

생각해보면 ai가 학습하고 활용하기 위한 원자료는 어떻게 쓰고 있나라는 생각을 가볍게 해본적이 있는데 이렇게 중요한 쟁점이었군요. 앞으로 나올 판결을 주목해봐야겠습니다.

자신들의 AI 훈련은 공정 이용이고, 그 내용을 학습하는 것은 권리 침해이고, AI를 돌린 결과가 표절인 것은 기술적 오류이고... 일관성이 없네요. 아, 자신들의 이득을 추구한다는 점에서 일관적인 거네요.

가끔 AI에게 너무 자비로운 세상이라는 생각을 하는데요. 저작권 문제도 비슷하게 느껴져요. 인간이 다른 사람의 저작물을 그대로 가져가면서 공익을 위한 것이니 이해하라고만 하면 바로 저작권 침해 소송이 제기될 것 같은데요. AI는 새로 등장한 기술이라는 이유로 논의의 대상으로 삼으니까요. 물론 논의하는 건 중요하지만 AI기업들이 벌이는 저작권 침해를 합법화 해주기 위한 논의가 아닌가 싶을 때가 있습니다.

AI의 정보 수집/활용이 사실 우리 모두의 데이터에서 비롯되었는데 우리는 그 데이터가 활용되고 있다는 것 자체를 모르는 경우가 많죠. 재판 결과가 어떻게 나올지는 모르겠지만.. 모두가 그 상황을 인지하고, 앞으로는 어떻게할 것인지를 고민해야겠네요.

AI 윤리와 AI 사이에는 적당한 거리가 필요하다는 걸 다시 생각해보게 됐네요. 요즘 '윤리가 너무 필요해!'에 몰두하고 있었거든요 😅
그리고 오픈AI의 챗GPT 내로남불 얘기도 흥미롭네요. 시민이 공동소유하는 AI가 아니고 기업이 소유하고 있기 때문에, 전세계 모든이들을 위한 것이라는 말이 성립되지 않을 것 같아요.