본문 바로가기

2023 트렌드

오픈AI 뉴스기사 무단 도용, 챗GPT 학습 논란! 당사자 허락 없이 데이터 학습했다고?

반응형

오픈AI 챗GPT 뉴스기사 데이터 무단 도용 논란

 

얼마 전, GPT를 만든 오픈AI에서 대량의 뉴스 데이터를 무단 도용, 챗GPT(GPT-3.5)에 학습시킨 것으로 드러났습니다.

이에 대해 알고리즘 개발자들이 오픈AI를 상대로 소송을 걸었으며, 주요 미디어까지 이에 동참할지가 주목되고 있습니다.

 

오픈AI가 대량의 뉴스 데이터를 허가 없이 학습시킨 것이 알려지게 된 것은 컴퓨터 전문 저널리스트 '프랜시스코 마코니'가 챗GPT를 활용해 문답한 결과를 트윗을 통해 공개하면서부터입니다.

 

마코니는 챗GPT에게 어떤 뉴스 미디어를 학습했는지 물었고, 거기서 미국 주요 언론 매체의 이름을 확인했습니다.

 

 

오픈AI가 무단 도용한 뉴스 데이터, 피해 입은 미국 언론사는?

 

실제로 어떤 기자가 챗GPT에게 직접 물어봤을 때, 챗GPT는 아래 상위 10개 언론 매체에 대한 정보를 제공했습니다.

- 무료구독 언론사 : US투데이, LA타임스, 시카고트리뷴,  마이애미헤럴드, 휴스턴크로니클, 샌프란시스코크로니클, 월스트리트저널(WSJ)
- 유료구독 언론사 :
뉴욕타임스(NYT), 워싱턴포스트(WP), 보스턴글로브

 

미국 대표 뉴스매체가 포함됬으며, 무단 도용된 뉴스 데이터에는 '유료 구독제 뉴스매체'가 다수 포함되어 논란이 더욱 불거지고 있습니다.

이에 대해 오픈AI는 논평을 하지 않았다고 뉴욕 경제신문 미디어 매체 블룸버그가 밝혔습니다.

 

월스트리트저널(WSJ)의 모회사인 뉴스코프의 '제이슨 콘티 다우존스' 법률고문은 2월 20일 "월스트리트저널(WSJ) 소속 기자들이 작성한 기사를 활용해 AI를 학습시키려고 한다면 누구나 우리에게 적절한 허가를 받아야 한다"면서 "오픈AI는 우리 회사와 그런 계약을 맺지 않았다"라고 지적했습니다. 그는 "우리는 이번 사태를 심각하게 받아들이고 이 상황을 자세히 검토하고 있다"라고 강조하였습니다.

 

오픈AI 챗GPT 데이터 도용 논란

 

오픈AI, 한국의 뉴스 데이터도 무단 도용했다!

 

오픈AI가 한국의 언론 매체에서 작성된 다량의 뉴스 데이터도 도용한 것으로 드러났습니다.

챗GPT가 답변한 언론 매체는 아래와 같습니다.

연합뉴스, 매일경제, 한겨레, 조선일보, 중앙일보 등 한국의 주요 신문사

 

실제로 어떤 기자가 GPT 상대로 어디에서 한국의 데이터를 구했는지 묻자 "어디에서 데이터를 크롤링했는지 구체적인 정보는 제공받지 못해 정확한 답변을 하기 어렵다. 하지만 대부분의 한국어 데이터 세트에는 네이버 뉴스와 블로그, 카페 등에서 크롤링한 데이터가 포함돼 있을 가능성이 높다"고 답변하였습니다.

 

구체적인 언론 매체를 명시해 달라는 요청에 대해서 "한국어 모델을 훈련시키는  사용된 뉴스 세트는 연합뉴스와 매일경제, 한겨레, 조선일보, 중앙일보  한국의 주요 신문과 웹사이트의 뉴스 기사와 같은 다양한 출처에서   있다"고 답변했습니다.

 

 

 

 

 

[참고]

챗GPT "한국선 매경 포함 5곳 기사 학습", 매일경제, 이상덕 기자

 

반응형