Post

AI 모델의 라이선스 문제

어렵디 어려운 라이선스 문제에 대해 정리하자

AI 모델의 라이선스 문제

최근 라이선스 문제로 혼란스러운 경험이 많아서 따로 정리하게 되었습니다.

AI에 적용되는 라이선스

AI 기능을 개발할 때 라이선스 측면에서 무엇을 주의해야할 지 알아보려고 합니다.

데이터셋의 라이선스가 학습한 모델로 전염되는가?

이 글을 작성하게 된 가장 큰 이유입니다. 대표적으로 메타가 공개한 segment-anything의 경우 모델 코드는 아파치 라이센스입니다. 하지만 메타가 제공하는 사전 학습된 모델은 non-commercial 라이선스를 갖는 데이터셋으로 학습되었습니다.

이 경우 해당 모델을 상업적 목적으로 사용해도 문제가 없을까요? 명쾌한 해답이 있으면 좋겠지만, 아직 아무도 정확히 모르는 것 같습니다. 데이터셋의 저작권에 대한 법률적 사례가 없기 때문입니다.

pre-trained models used for commercial / production purpose?

위 게시글은 segment-anything 레포지토리에 올라온 질문글입니다. 오피셜 답은 없고, 상업적 목적으로 사용해도 된다/안된다로 의견이 분분합니다.

segment-anything뿐만 아니라 비슷한 이슈가 있는 다른 모델들도 “조직 내 법률팀과 상담해보세요”와 같이 애매한 답변만 달릴 뿐입니다. 라이선스를 명시한 저작권자들 역시 확신하지 못한다는 뜻이죠 ㅠ 확실한 사례가 나와야 할 것 같습니다.

라이선스가 적용된 코드를 이용해 독자적으로 학습한 모델의 라이선스는?

Question regarding the AGPL-3.0 license

위 게시글은 AGPL-3.0이 적용된 YOLOv8 레포지토리에 올라온 질문글입니다.

YOLOv8 모델을 그대로 사용한다면 AGPL-3.0이 적용되겠지만, 질문자는 ultralytics가 제공하는 학습 코드만 이용해서 아예 처음부터 모델을 학습할 경우 AGPL-3.0이 적용되는지 묻고 있습니다.

AGPL-3.0이 적용된다는 의견

  • 학습 코드와 모델 모두 AGPL 라이선스가 적용되므로, 이것이 포함된 모든 다운스트림 솔루션에는 AGPL이 적용되어야 한다.
  • ‘학습된 모델’은 단순한 숫자 행렬이 아니라 모델의 레이어와 연결에 대한 정보도 포함되기 때문에 AGPL이 적용된 원본 모델의 파생물로 보아야 한다.

AGPL-3.0이 적용되지 않는다는 의견

  • AGPL 라이선스가 적용된 컴파일러로 컴파일한 소스 코드(출력물)에는 AGPL이 전염되지 않는다. 즉, 학습의 결과인 모델 가중치는 단순한 숫자값에 불과하므로 출력물에 해당하기 때문에 AGPL이 전염되지 않는다.
  • ‘저작물’은 사람이 만들어낸 것이기 때문에, 학습 과정에서 무작위로 가중치가 조정된 모델은 사람이 만들었다고 볼 수 없다. 즉 라이선스가 적용되지 않는다.

AGPL이 적용된 소프트웨어로 컴파일한 코드(출력물)에 AGPL이 전염되지 않는 것처럼

이것 역시 현재로써는 명쾌한 결론을 내릴 수 없을 것 같네요 ㅠㅠ

결론

제가 생각한 결론은 모르겠다면 그냥 사용하지 말자! 입니다. 지금은 이런 애매한 문제에 대한 법률이나 사례가 없기 때문에 사용이 문제가 되지 않을 순 있습니다. 하지만 지금 당장은 문제가 없더라도 나중에 사례가 하나둘 생긴다면 그때부터는 문제가 될 수 있습니다.

가령 GPL-2.0 라이선스는 1991년 만들어졌지만, 위반에 대한 법적 처벌 사례가 없다가 2007년 skype가 GPL위반으로 소스코드 공개 및 벌금을 물게되었습니다. 이것이 하나의 사례가 되어 이후에 국내에서도 라이선스 위반으로 합의금을 지불하는 등 실제 법적 책임을 지게되었죠.

AI 분야의 라이선스도 결국엔 소프트웨어처럼 하나 둘 사례가 생기면 책임을 져야할 때가 올 것이라 생각합니다.

라이선스의 종류

덤으로 자주 등장하는 라이선스에 대해 알아보려고 합니다.

오픈소스 라이선스별 차이(GPL,AGPL,MPL등등등…)

이곳에 잘 정리가 되어있습니다. 아래는 제가 기억하기 위해 쓴 글입니다…

BSD-3-Clause license

img

제가 알기로 가장 제약이 적은 라이선스입니다.

누구나 자유롭게 이용/수정이 가능하며, 파생물에 대해 BSD 라이선스를 적용하지 않아도 됩니다.

MIT license

img

깃허브에서 가장 흔하게 볼 수 있는 라이선스입니다.

누구나 자유롭게 이용할 수 있는 라이선스로, 비상업/상업 구분 없이 무상으로 이용이 가능합니다. 단, 파생물에도 MIT 라이선스가 전염됩니다.

Apache-2.0 license

img

MIT와 유사하게 무상으로 이용이 가능한 라이선스입니다. 파생물에는 라이선스가 전염되지는 않지만, 아파치 라이선스를 사용했음을 명시해야 합니다.

GPL-3.0 license (GNU GPL)

img

여기서부터는 골치아파지기 시작합니다.

GPL 라이선스는 이용 자체는 자유롭습니다. (상업적 이용 가능) 단, GPL 라이선스가 적용된 소프트웨어를 바이너리 형태로 배포하는 경우 소스 코드 전체를 공개해야 합니다.

다행인 것은 바이너리 형태가 아니면 소스 코드를 공개하지 않아도 됩니다. 예를 들어 GPL 라이선스가 적용된 코드를 웹서버에 띄워놓고, 웹서버랑 통신하는 식으로 이용하게 되면 소스 코드를 공개하지 않아도 됩니다.

주의해야할 것은 AGPL은 네트워크를 통한 서비스에도 라이선스가 전염되기 때문에 GPL과 잘 구분해야 합니다.

CC BY 계열

img 나무위키 문서에 잘 정리되어 있어서 가져왔습니다.

소스 코드보다는 웨이트나 데이터셋에서 자주 보이는 라이선스입니다.

일반적으로 CC BYCC BY-SA만 상업적 이용이 가능합니다. CC BY-ND는 상업적 이용은 가능하지만, 내용 변경이 불가능해서 그대로 사용해야 합니다. 개발할 때 이런 경우가 거의 없어서 사실상 불가능하다고 봐야할 것 같습니다.

그 외

img

라이선스 정책에 대한 것을 직접 명시하는 경우도 있습니다. 이 경우에는 직접 라이선스에 대해 꼼꼼히 읽어보아야 합니다.

1
2
3
4
4.3 Any other use without of prior consent of Licensors is prohibited. Research
users explicitly acknowledge having received from Licensors all information
allowing to appreciate the adequacy between of the Software and their needs and
to undertake all necessary precautions for its execution and use.

이러한 문구가 있다면 당연히 원작자의 허락 없이는 이용이 불가능합니다.

This post is licensed under CC BY 4.0 by the author.