'인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서' 발표

2024.07.17 양청삼 개인정보정책국장

인쇄 목록

첨부파일

속기자료.hwp 다운로드 바로보기

속기자료.pdf 다운로드 바로보기

240718_(조간)_인공지능(AI)_개발·서비스에_이용되는_‘공개_데이터’_처리_기준_제시(인공지능프라이버시팀).hwpx 다운로드 바로보기

240718_(조간)_인공지능(AI)_개발·서비스에_이용되는_‘공개_데이터’_처리_기준_제시(인공지능프라이버시팀).pdf 다운로드 바로보기

(별첨1)_인공지능(AI)_개발·서비스를_위한_공개된_개인정보_처리_안내서_브리핑문.pdf 다운로드 바로보기

(별첨2)_인공지능(AI)_개발·서비스를_위한_공개된_개인정보_처리_안내서_Q&A.pdf 다운로드 바로보기

안녕하십니까? 개인정보보호위원회 개인정보정책국장 양청삼입니다.

바쁘신 가운데도 브리핑에 참석해 주신 기자님들께 감사의 말씀을 드립니다.

개인정보보호위원회는 사회 각 분야에서 인공지능과 디지털 시대로의 전환이 가속화됨에 따라 작년... 지난해 8월 '인공지능 시대의 안전한 개인정보 활용 정책 방향'을 발표하고 인공지능 산업의 혁신과 발전, 인공지능 데이터 처리에 대한 국민의 신뢰를 확보하기 위해 노력해 왔습니다.

지난 2월 발표한 비정형데이터 가명처리 기준 그리고 5월 발표된 합성데이터 생성 참조 모델에 이어 세 번째로 발표하는 이번 AI 개발·서비스를 위한 공개된 개인정보 처리 안내서는 빠르게 변화하고 있는 인공지능 데이터 처리 환경에 적용할 수 있는 개인정보 보호 원칙과 기준을 구체화한 것으로서 대규모 언어모델 등 인공지능 개발의 핵심 원료인 공개된 개인정보가 적법하고 안전하게 활용될 수 있도록 일정한 기준을 제시함으로써 기업 불확실성을 낮추고 국민 신뢰를 높이기 위한 취지에서 마련되었습니다.

이번 안내서는 학계·산업계·시민단체 등 인공지능 분야 차세대 전문가가 참여하는 인공지능 프라이버시 민·관 정책협의회가 주축이 되어 마련되었고 각계의 광범위한 의견 수렴을 거쳐 최종 확정되었습니다.

현재 우리가 일상생활에서 유용하게 사용하고 있는 챗GPT라든지 하이퍼클로바X 등 국내외 주요 인공지능 모델은 방대한 데이터를 학습한 결과물이며 주로 위키백과, 블로그, 커먼 크롤 등 다양한 웹사이트에 공개된 데이터가 학습에 이용되고 있습니다.

이러한 공개 데이터에는 주소, 이메일, 주민... 고유식별정보 등 다양한 개인정보가 포함될 수 있어 국민의 프라이버시 침해 없이 안전하게 활용하기 위한 기준이 필요하나, 현재 법제에는 공개된 개인정보를 처리할 수 있는 명시적 기준이 없어 기업의 불확실성이 높은 상황입니다.

이에 개인정보보호위원회는 이번 안내서를 통해 AI 개발 및 서비스를 위해 공개된 개인정보를 적법하게 활용할 수 있는 법적 근거를 명확히 안내하고 인공지능 기업이 이행할 수 있는 다양한 안전조치를 AI 학습 단계, 서비스 단계별로 안내하였습니다.

최근 미국과 유럽연합 주요 국가에서도 공개 데이터를 포함한 인공지능·데이터 처리 전반에 대한 개인정보 규율체계를 형성하고 있어 글로벌 상호 운용성 확보 측면도 적극 고려하였습니다.

안내서 주요 내용에 대해서 말씀드리겠습니다.

첫 번째로, AI 개발을 위해 공개된 개인정보가 수집·이용될 수 있는 개인정보보호법상의 근거로서 ‘정당한 이익’ 적용의 기준과 요건을 구체화하였습니다.

공개된 개인정보는 개인정보 처리자와 정보주체 사이에 특정 서비스를 매개로 연결되는 직접적 관계가 없어 개별 동의나 계약 체결 등의 근거 적용이 사실상 어려웠습니다.

이에 인공지능 개발 목적과 공개된 개인정보의 특성, 리스크 수준 등을 고려하여 개인정보처리자의 이익과 정보주체 권리를 비교 형량하는 '정당한 이익' 조항이 실질적인 적법 처리 근거가 될 수 있다고 판단하였고 해당 조항을 원용할 수 있는 기준과 요건을 구체화하였습니다.

정당한 이익 성립 요건은 크게 세 가지로, 첫 번째 요건은 목적의 정당성입니다.

인공지능 기업은 공개된 개인정보 처리를 통해 개발하려는 인공지능의 목적과 용도를 구체화하여 정당한 이익이 있음을 주장할 수 있습니다.

두 번째 요건은 처리의 필요성입니다.

인공지능 개발·서비스에 공개된 개인정보 처리의 필요성과 상당성·합리성이 인정되어야 합니다. 예컨대, 의료진단보조 인공지능을 개발하는 경우 개인의 소득·재산 등 인공지능 목적과 관련 없는 정보는 학습데이터에서 배제해야 합니다.

마지막 요건은 구체적 이익 형량입니다.

개인정보처리자의 정당한 이익이 정보주체의 권리에 명백히 우선하는지를 평가하여야 합니다. 이때 인공지능 기업은 안내서에 제시된 안전성 확보 조치와 정보주체 권리보장 방안을 적절히 도입하여 프라이버시 침해 위험을 낮출 수가 있습니다.

다음으로, 인공지능 기업이 이행할 수 있는 최소한의 안전성 확보 조치 기준과 정보주체 권리보장 방안에 대해 말씀드리겠습니다.

안내서는 빠른 기술 변화를 고려하여 인공지능 기업이 유연하게 도입·시행할 수 있는 다양한 기술적·관리적 안전조치를 안내하고 있습니다.

인공지능 기업은 기술적 조치의 일환으로 학습데이터의 수집 출처의 적법성 검증, 개인정보 유·노출 방지 조치, 미세 조성을 통한 안전장치 추가, 프롬프트 및 출력 필터링 적용 등을 고려할 수 있고, 관리적 조치로서 학습데이터 수집·이용 기준의 정립 및 공개, 가칭 인공지능 프라이버시 레드팀의 구성과 운영, 개인정보 영향평가 수행 등을 고려할 수 있습니다.

안내서에 제시된 모든 조치의 이행이 요구되는 것은 아니며 인공지능 기업은 개별 조치의 장점과 단점, 편향·차별 등 부작용, 성능 저하 등의 관계 등을 고려하여 안전조치의 최적 조합을 자율적으로 선택하여 이행할 수 있습니다.

지난 3월 발표한 주요 대규모 언어모델 서비스 사전 실태점검 결과를 보면 인공지능 기업들이 도입한 안전성 확보 조치의 방식과 수준은 다양했습니다.

인공지능 학습 단계에서 특정 범주의 개인정보를 비식별화하는 사전 조치에 중점을 둔 기업이 있는 반면, 인공지능 서비스 단계에서의 사후 필터링 조치에 중점을 둔 기업도 있었습니다.

이러한 여러 안전조치를 종합적으로 검토한 결과, 각 조치들이 갖는 장점과 단점이 있고 기술 변화 속도가 빠르기 때문에 임의적으로 특정한 조치들을 정해서 권고하기보다는 각 기업이 자신들의 인공지능 모델의 특성과 학습데이터 출처 등을 고려하여 안전조치의 최적 조합을 결정하도록 한 것입니다.

다만, 인공지능 기업이 최적 조합을 선택하는 데 참고가 될 수 있도록 주요 대규모 언어모델 기업이 실제 안전조치 이행 사례를 한 결과를... 이행 사례 내용을 종합적으로 안내하였습니다.

아울러, 인공지능 환경에서 악화될 수 있는 정보주체 권리를 보완하여 인공지능 기업이 이행할 수 있는 권리보장 방안을 제시하였습니다.

정보주체 알권리 보장을 위해 공개된 개인정보 수집 사실과 주요 수집 출처 등을 개인정보 처리방침 등에 안내하고 실제 정보주체 권리 침해가 발생할 경우에는 합리적 범위 내에서 개인정보 삭제와 처리 정지 등 신속한 구제 방안을 마련하여 지원토록 하였습니다.

마지막으로, 책임 있는 인공지능 개발·활용을 위한 AI, 인공지능 기업의 역할을 제시하였습니다.

AI 기업은 개인정보보호책임자를 구심점으로 하는 가칭 인공지능 프라이버시 담당 조직을 자율적으로 구성·운영하고, 안내서에 따른 기준 충족 여부를 평가하여 그 근거를 작성 보관하는 것이 바람직합니다.

또한, 인공지능 성능 개선 등 중대한 기술적 변경이나 개인정보 관련 리스크 요인을 주기적으로 모니터링하고 개인정보 침해사고 발생 시 신속한 권리 구제 방안을 제공해야 합니다.

이번 안내서는 현시점에서의 해석 기준을 제시한 것으로서 향후 기술 발전의 추이, 관련 법령의 제·개정, 해외의 동향 등을 참고하여 지속적으로 업데이트될 예정입니다.

또한, 개인정보보호위원회가 운영하는 사전적정성 검토제, 규제 샌드박스 등 다양한 혁신지원 제도를 통해 인공지능 기업, 국민과 수시로 소통하면서 개선사항을 발굴하는 한편, 곧 출범할 예정인 국가인공지능위원회를 통해 인공지능·데이터 프라이버시 정책을 더욱 정교화해 나가겠습니다.

추가로 설명이 필요한 부분은 질의·응답을 통해 상세히 설명해 드리도록 하겠습니다.

감사합니다.

[질문·답변]
※마이크 미사용으로 확인되지 않는 내용은 별표(***)로 표기하였으니 양해 바랍니다.

<질문> 오늘 발표되는 지금 안내서의 경우에는, 안내서 본문에 밝힌 바와 같이 '법적 구속력이 없다.'라고 지금 나와 있는데요. 결국에는 명백, 명확한 사실 규정으로서 마련되려면 법 개정이 수반돼야 될 것 같은데 법 개정의 개략적인 일정이나 로드맵은 어떻게 되시는지 궁금합니다.

<답변> 그래서 개인정보보호위원회는 인공지능 지금 산업 발전과 혁신이 국민 경제 전체에서 굉장히 중요한 위치를 점하고 있기 때문에 여기에서 어떤 사전적인 규제 환경을 획일적으로 도입한다기보다는 어떤 기술... 혁신이 촉진되는 환경을 일단 마련하는 데 중점을 두고, 그리고 구체적인 리스크에 비례해서 정확하게 그거를 통제하고 제어를 하는 것이 중요하다고 보여져서 지금 현 단계에서는 인공지능 개인정보 처리와 관련해서는 기존 현행 개인정보보호법의 원칙을 인공지능의 맥락을, 맥락에서 현행법에... 개인정보보호법의 원칙과 기준을 적용하는 이런 형태로 지금 현 단계에서는 입장을 정하고 있고요.

이에 따라서 현행법의 기준을 구체화하는 안내서를 마련함으로써 개인정보처리자들이 효과적으로 현행법의 원칙들을 따라갈 수 있도록 하는 데 중점을 두고 있고요.

여기에서 한 발 더 나아가서 인공지능의 데이터 처리와 관련된 직접적인 규제 이런 부분들은 조금 더 기술 발전의 추세와 리스크의 구체화 정도, 이런 부분들이 더욱더 성숙돼서 공론화가 됐을 적에 그때 법제화 방안을 검토할 예정입니다.

<질문> 정당한 이익 적용 기준 요건에서 첫 번째가 '목적의 정당성'이잖아요. 이거 이해가 안 돼서 그러는데 구체적으로 설명 좀 부탁드립니다. 그러니까 목적의 정당성이라는 게, 그러니까 수집 목적인지 이용 목적인지.

<답변> 그러니까 수집과 이용 목적을 다 하는 건데요. 이 목적, 그러니까 목적을 구체화하고 그다음 목적의, 해당 구체화된 목적의 필요한 합리적인 한도에서의 데이터 처리, 이거는 최소화의, 최소 처리의 원칙이라고 하는데 목적을 구체화하고 데이터를 최소적으로 처리하는, 이 최소 처리의 원칙, 이 부분이 어떻게 보게 되면 우리 인공지능, 현대의 국내외 선진 개인정보 법제를 갖추고 있는 국가들의 글로벌 콘센서스라 볼 수 있겠습니다.

그래서 데이터를 처리하는 자는, 그러니까 자의적인 목적이라든지 어떤 목적에서든지 일단 수집해 보자, 이런 것들은 통용되는 것이 아니고요. 항상 데이터라든지 개인정보를 수집하기 위해서는 자기가 개인정보라든지 데이터를 처리하기 위한 목적을 구체화한 다음에 그것에 필요한 그리고 상당한 관련성이 있는 데이터를 수집하고 적정하게 처리하고 목적 달성이 되면 파기하는 것이 전체적인 흐름이기 때문에 그런 의미에서의 목적의 정당성이라 함은 개인정보, 인공지능 기업이 인공지능 어떤 개발과 자기가 타깃으로 하는 인공지능 모델 시스템과 서비스가 있을 걸로 보여집니다.

그런 목적들을 사전에 구체적으로 정의함으로써 그에 필요한 어떤 데이터 처리들을 합리화하는 이런 과정에서 가장 첫 단계로서 목적의 구체화가 필요하다, 라고 말씀드릴 수가 있고, 그러니까 정당한 목적이 있어야 된다, 라는 그런 부분입니다.

<질문> *** 아니면 돈을 벌기 위한 거나 아니면 공공의 이익이든 간에 그런...

<답변> 정당한 목적이라는 것은 영리, 비영리를 가르지는 않습니다. 전부 포함될 수 있고요, 그러니까 영리든지 비영리... 우리가 많은 개인정보처리자들이 사실 개인정보를 처리하는 많은 이유들은 영리 목적으로서 처리하는 거기도 하고 공공기관들은 법령에 따라서 공익에 따라, 공익을 위해서 처리하기도 하는데, 인공지능 개발은 공익적 목적일 수도 있고 영리적 목적일 수도 있는데 그거를 모두 포함하는데, 일단은 적법한 어떤 목표를 갖고 인공지능 개발이 돼야 되는 거지, 그것이 이 목적 자체가 개인정보의 권리를 침해하는 목적을 갖고 개발될 수는 없다는 그런 의미에서의 정당한 목적이 있어야 된다, 라는 그런 말씀이 되겠습니다.

<질문> 정당한 목적에 대해서 정리를 하면 법률상 불법행위가 아닌 것으로 볼 수 있을까요? 침해 목적이라기 ***

<답변> 글쎄, 글쎄요. 법률상 불법행위 외에 모든 목적이 정당화될 거라고는, 제가 정확하게 법률전문가는 아니어서 그렇게 볼 수 있을는지는, 그거는 굉장히 넓은 것 같고요. 넓은 개념인데 기본적으로 저희들이 안내서에서 밝혔다시피 영리와, 영리 목적, 비영리 목적이 다 인정이 되고, 그리고 개인정보처리자의 개별 구체적인 어떤 목적 그리고 또 어떤 개별 구체적인 인공지능 개발을 통한 사회적 편익 이런 부분들도 포함될 수 있는 걸로 보여집니다.

그런데 그게 불법행위를 제외한 모든 행위라든지 목적이 다 정당화될 수 있다고 단언하기는 어려운 것 같습니다.

<질문> 여기 안전조치 같은 것들은 도입하는 게 아무래도 자율, 여기 Q&A에도 있지만 자율적으로 이렇게 먼저 도입을 한다고 했었을 때 나중에 개인정보 유출 문제가 발생했을 때 여기에 대한 책임 소재가 조금 불분명해지지 않을, 불분명해질 수도 있지 않을까, 라는 생각이 드는데 거기에 대해서 어떻게 생각하시는지.

<답변> 일단은 안전조치 부분은 정당한 이익이라는 것은 기본적으로 정보주체의 어떤 권리, 권리 측면보다, 권리보다 개인정보처리자의 이익이 명백히 우선해야 인정되는 거고요. 개인정보처리자의 이익이 명백히 우선하기 위해서는 정보주체의 권리보장은 기본 전제로서는 마련돼... 전제가 마련되어 있어야, 그러니까 정보 주체의 권리가 침해되는 상황들이 있게 되게 되면 명백하게 우선한다는 부분들을 인정받기가 상당히 힘들기 때문에 일정한 기술적·관리적 안전조치를 통해서 정보주체의 권리가 부당하게 침해되는 일들이 없을 수 있도록 그러한 안전조치들을 일단 할 필요가 있습니다, 기본적으로. 그런 전제들이 있어야 형성되는 거고요.

그래서 기본적으로 정당한 이익을 원용하려고 하면 아까 목적의 정당성뿐만 아니라 그리고 필요성, 최소한 필요 한도에서 처리를 하고 여러 가지 기술적·관리적 안전조치를 함으로써 정보 주체의 권리 침해 요소를 최소화하고 개인정보처리자의 이익을 우선할 수 있는 이런 환경을 만들어 놔야 일단 정당한 이익 요건을 적용할 수가 있는 거고요.

정당한 이익 요건에 따라서 공개된 개인정보를 수집하고 이용한다 하더라도 그에 따라서 예를 들어서 대규... 어떤, 지금 이거는 약간 가정에 따른 질문이기는 하나 대규모 유출 사고라든지 권리 침해되는 사태가 있어서 만약에 침해 신고가 있고 또는 유출 사고가 있었을 적에는 그거는 통상의 유출과 그 사건·사고 처리 절차에 따라서 조사를 받게 되고 할 것으로 보여집니다.

그래서 공개된 개인... 이번의 안내서의 가장 큰 특징은 공개된 개인정보는 사실 웹사이트를 통해서, 그러니까 누구든지 접근할 수 있는 그런 자료지 않습니까? 그런 자료에는 개인정보가 들어가 있을 수도 있고요.

그래서, 그런데 개인정보가 들어가 있기 때문에 개인... 인공지능 개발사 입장에서는 '그러면 이거를 동의를 받아야 되나? 아니면 또 다른 법적 근거가 필요한가?' 이런 의문을 하게 되고 그런 불확실성이 있어서 쓰는 것들이 망설여지거나 하는 경우가 있는데 인공지능 개발 목적을 분명히 하고, 그다음에 기본적으로 정보 주체의 권리보장을 위한 일정한 안전조치를 하게 되면 정당한 이익을 주장하면서 그 근거로 그런 공개된 데이터를 합법적으로 쓸 수 있다, 그 안전한 통로를 열어주는 데 큰 의미가 있다고 하겠습니다.

<질문> 앞선 질문과 연장선에 있는 내용이기는 한데요. 최소한의 가이드라인을 만든 것에 대한 의의가 있다고는 보여집니다만 '기술·관리적 안전조치 미이행 시 제재가 없다.'라는 표현이 있고, 그리고 만약 예를 들어서 개인정보 주체자가 기업들의 개인정보 유출·노출 발생 시에 삭제를 요청했을 때 기업이 그것들을 이행하지 않았을 경우에는 제재가 없는 건지가 궁금합니다.

<답변> 두 가지를 나눠서 봐야 되겠는데요. 그러니까 기술적·관리적 안전조치를 전혀 안 한다, 예를 들어서 실제 실존하는 데이터 처리의 위험이 있고, 그다음에 또 누구나 예상할 수 있는 명백한 위험들이 있는데, 그런데 관련된 기술적·관리적 조치들을 아무것도 안 한다, 이렇게 되면 적법 처리 근거로서 정당한 이익을 원용할 수조차 없습니다. 그거는 그러니까 비적법하게 공개된 데이터, 개인정보를 처리한 것으로 되고요. 그것 자체로 위법한 것이고요.

그래서 저희들은 정당한 이익을, 우리 안내서를 꼼꼼히 보시게 되면 개별 조치를 하느냐, 안 하느냐, 이거 자체로서는 당장에 법 위반이 나타나고 있지는 않지만 개인정보처리자가 구축하고자 하는 인공지능 개발의 목적과 서비스의 목적에 따라서 인공지능 학습이나 서비스를 제공하면서 적절한 기술적·관리적 안전조치를 그 용례와 목적에 맞게 조치하는 것이, 그건 당연하게 요구되는 것이고요.

그렇기 때문에 그런 의미에서는 하나하나는, 하나하나의 안전조치를 위반했다고 해서 당장에 '이게 위법이다.' 이렇게 얘기할 수는 없지만 이걸 전체로 해서 안내서의 취지하고 전혀 상관없이 어떤 기술적·관리적 안전조치도 취하지 않고 마음대로 쓸 수 있다, 이런 것들은 전혀 용납될 수 없는 상황이고요.

그리고 두 번째 질문 포인트와 관련해서 정보주체의 권리보장 부분은 지금 우리가 이 정보... 개인정보보호법을 보게 되면 35호, 30... 35조, 36조, 37조에서 열람권, 처리정지권, 삭제권 이런 것들을 보장하고 있거든요.

그런데 법을 이렇게 자세히 보시면 아시겠지만 기본적으로 지금 현행 개인정보보호법은 관계형 데이터베이스와 관련된 데이터 처리를 기본 전제로 하고 만들어졌기 때문에 우리, 지금 우리 안내서가 다루는 자기지도 학습, 비지도 학습이라고 하는 라벨링이 없는 대규모 데이터를 토큰화해서 그런 부분들을 인덱싱하는 인베딩하는 이런 데이터 학습처리 방식하고는 상당히 본질적으로 차이가 있습니다.

그래서 전통적인 데이터 처리 환경에서는 엑셀 표와 같은 식별번호, 키 값에 따른 여러 가지 레코드 속성들이 있어서 정보주체가 항상 자기에 관련된 개인정보 내용을 확인하고 그거를 열람하고 삭제를 요구할 수 있었는데 사실은 인공지능 데이터 모델과 인공지능 모델에서는 특정 개인의 정보가 추출될 수 있는지 여부도 굉장히 불투명한 상황입니다.

그래서 그런 열람권, 처리정지권, 삭제권을 적용하는 데 있어서 인공지능 학습의 데이터 처리 특성을 충분히 고려해서, 그래서 그거를 감안해서 열람권과 처리정지권들도 맥락에 맞춰서 인정될 필요가 있다.

그래서 예를 들어서 수집 출처의 통지 부분이 있는데 지금 우리 법에는 수집 출처의 통지들은 정보주체가 아닌 제3자로부터 개인정보를 수집하게 되면 개별, 개인한테 통지하도록 법으로 의무화돼 있습니다.

그런데 공개된 개인정보는 굉장히 많은 대규모 웹 스크래핑을 전제로 하기 때문에 해당 개인정보가 어디서 어떻게 수집됐는지 사실은 개별 학습데이터의 출처 포인트들을 확인하는 거는 거의 불가능에 가깝거든요. 그래서 그런 부분에 있어서는 수집 출처를 전통적인 방식으로 통제하는 것은 상당히 어렵고요.

만약에 인공지능 개발자가, 서비스 제공자가 학습데이터의 수집과 이용 기준을 개인정보처리방침에 적절하게 게시를 하고 그에 따라서 학습에 꼭 필요한 필요성과 상당한 관련성 있는 데이터들을 처리했다면 개인정보처리자, 처리방침에 있는 학습데이터 수집·이용 기준을 안내해 주는 것만으로 수집 출처 통지에 갈음할 수 있다, 이런 내용들이 지금 안내서에 수록되어 있고 인공지능 데이터 처리 맥락을 감안해서 현행법도 적용돼야 된다, 이런 부분들을 예시를 들고 있습니다.

<질문> 하나만 더 추가로 여쭤보자면 LLM 사전 비식... 할 때 사전 비식별 조치하는 경우도 있고 서비스 단계에서 사업 필터 조치하는 경우도 있다고 하셨는데 사실 언어모델이라는 것 자체가 그 자체보다도 그걸 활용한 서비스들이 만들어졌을 때, 예를 들면 미리 거기에 대해서 정제되지 않은 개인정보가 들어있었을 때 나중에 그걸, 사후에 이거를 조치하려고 하면 이미 다른 서비스에서 쓰고 있고 그런 케이스들도 있잖아요. 그런데 그런 종류의 문제들 때문에라도 사전 조치를 더 강화해야 된다, 이런 게 안내서에 들어가 있는지.

<답변> 지금 좋은 지적이시고요. 이게 인공지능 생태계는 사실은 서비스 개발, 그러니까 인공지능 개발자가 서비스를 하는 케이스가 있고요. 또는 인공지능 모델을 제3자가 API 응용... application programming interface를 통해서 스스로 하거나 또는 어떤 경우에는 아주 오픈소스 모델로 해서 모델을 가중치까지 공개하고 그 모델을 커스터마이징해서 쓰는 경우가 있거든요.

그래서 사실은 개발자하고 이용자가 분리되어 있는 여러 가지 중층의 이용체계가 있고 그 생태계가 마련돼 있어서 저희들은 현재 공개된 정보 가이드라인에서는 개발자가 만약 이거를, 배포 전략도 이걸 클로즈드로 운영할 거냐, API만을 공개를 할 거냐, 또는 이 오픈소스로 공개하느냐에 따라서 API로 공개하는 경우에 API 이용사업자들이 참고할 수 있는 적절한 라이선싱과 안전조치 기준과 그리고 뭔가 사고가 났을 적에 신고할 수 있는 기준, 이런 부분들을 하라고 권고하는 내용이 있고요.

권고하는 내용이 있고 한데 결과적으로 이 부분은 개발자하고 서비스 이용자하고 안전조치 하는 부분들의 책임과 역할들을 나눠야 되겠습니다. 그러니까 예를 들어서 원래 인공지능 모델이 있고 그거를 받아다가 서비스 개발자가 fine tuning을 해서 또 하는 경우들이 있을 수 있게 되겠습니다.

그래서 원 모델 개발자들은 원 모델과 관련된, 에서 사전·사후적 조치를 통해서 최대 한도로 프라이버시 침해적인 그런 내용들을 걸러낼 필요가 있고 그와 관련된 기술 문서라든지 안내 사항들을 이용사업자와 공유할 필요가 있고요.

이용사업자들이 만약에 그거를 API를 이용하거나 오픈소스 모델을 fine tuning해서 뭔가 이용했을 적에 추가적 데이터 이용에 따른 또 추가적인 리스크 요인들이 있을 적에는 그 부분에 있어서는 이용사업자들이 책임을 지고, 또 원 모델에서 사고와 관련해서 리포트하거나 하는 부분들에 있어서는 원 모델 개발자하고 상호 협력을 해서 관련 내용들을 풀어나가는 체계, 이런 부분들에 대해서 안내서에서 일단은 개관을 하고 있고요.

그런데 개발자와 이용사업자의 책임과 역할 분담 부분은 앞으로 조금 더 연구를 해서 이런 부분들은 구체화해 나갈 필요가 있다고 보여집니다.

우리 모두에서 말씀드렸지만 이 인공지능 데이터 처리와 관련된 개인정보보호위원회에서는 일단 일련의 지금 기준들, 국내외 인공지능산업의 발전과 그리고 인공지능 데이터 처리와 관련된 국민의 신뢰를 보호하기 위해서 일단은 당장의 법을 통한 어떤 법규를 만들거나 규제하기보다는 일련의 안내서를 통해서 데이터 처리자들이 참고할 수 있는 가드레일을 만들고 국민들이 신뢰할 수 있는 환경을 만들기 위해서 노력하고 있습니다.

그래서 첫 번째로, 비정형 데이터 가이드라인도 상당한, 우리 보건의료 데이터 현장이라든지 그리고 이미지라든지 이렇게 다루는 많은 연구자들로부터 호평을 받고 있고요.

그다음에 합성데이터 생성 참조 모델도 유연성과 안전성을 검증할 수 있는 굉장히 뭐랄까, 국내에서 굉장히 객관적으로 구체화된 기준이 나와서 그것도 연구 현장에서, 또 기존 축적된 학습데이터들을 제3자가 공개하는 데 굉장히 유용한 기준으로서 지금 쓰이고 있습니다.

그래서 그런 노력 그리고 그런 합성데이터, 비정형데이터 안내서에 이어서 이번에 공개된 데이터의 처리 기준을 마련하게 돼 있는데 이 부분도 우리 스타트업들은 물론이고, 국내 기업체들이 인공지능 모델과 데이터를 가지고 훈련하는 데 굉장히 많은 도움이 될 것으로 기대하고 있고요.

앞으로 이 부분은 기술 발전 속도가 상당히 빨라서 민관하고 계속적으로 긴밀히 소통하면서 업데이트해 나갈 예정입니다. 경청해 주셔서 감사합니다.

<답변> (사회자) 더 이상 질문이 없으시면 이상으로 오늘 브리핑을 마치도록 하겠습니다. 참석해 주셔서 감사합니다.

<끝>