본문 바로가기
<IT뉴스>

Stack Overflow, AI 거장들에게 훈련 데이터 비용 청구

by ScrumptiousDev 2023. 6. 27.

개발자 Q&A 사이트인 Stack Overflow가 Reddit와 함께 자사 데이터를 훈련 알고리즘 및 ChatGPT 스타일 봇에 사용할 때 보상을 요구할 예정입니다. OpenAI, Google 등 대규모 AI 프로젝트를 개발하는 기업들은 이전부터 웹에서 데이터를 스크래핑해옴으로써 훈련 데이터에 대해 아무런 비용을 지불하지 않았습니다. 그러나 Stack Overflow CEO Prashanth Chandrasekar는 이번 해 중순부터 자사 서비스에 있는 5천만 개의 질문과 답변에 대한 액세스에 대해 대규모 AI 개발자들로부터 비용을 청구할 계획이라고 밝혔습니다. Stack Overflow에는 2천만 명 이상의 등록 사용자가 있습니다.

 

 

Stack Overflow와 Reddit의 이러한 결정은 대표적인 제네레이티브 AI 전략의 일부입니다. 미국의 출판사들을 포함한 News/Media Alliance는 제네레이티브 AI 개발자들에게 데이터 사용에 대한 협상 및 공정한 보상을 요구하는 원칙을 제시한 바 있습니다.

 

Meta, Google, OpenAI 등은 Stack Overflow와 Reddit를 포함한 수천 개의 온라인 소스에서 데이터를 수집하여 AI 시스템을 개발한 것으로 알려져 있습니다. 이들 데이터를 기계 학습 알고리즘에 주입함으로써 대화형 챗봇 및 AI 텍스트 생성기가 더 유창하고 지식이 있는 결과물을 생성할 수 있습니다.

 

Stack Overflow의 Chandrasekar는 AI 개발자들이 Stack Overflow의 서비스 약관을 위반한다고 주장합니다. 사용자들은 자신들이 Stack Overflow에 게시한 콘텐츠에 대한 권리를 소유하며, Creative Commons 라이선스에 따라 데이터를 사용하는 경우 출처를 명시해야 합니다. 그러나 AI 회사들이 모델을 고객에게 판매할 때 "모든 커뮤니티 구성원의 질문과 답변을 훈련에 사용했는데도 출처를 알 수 없어 Creative Commons 라이선스를 위반하게 된다"고 Chandrasekar는 말합니다.

 

Stack Overflow와 Reddit는 아직 가격 정보를 공개하지 않았으며, Stack Overflow는 Reddit의 전략을 연구하고 잠재적인 고객들과 협상할 계획입니다. 이러한 결정은 AI 시스템 개발에 막대한 비용이 드는 상황에서 기술 발전에 대한 부담을 가중시킬 수 있습니다.