카테고리 없음

딥러닝 데이터 세트: AI 허브 소개 및 회원가입, 로그인 및 데이터 세트 다운로드 방법 총 정리!

개발자의 잡동사니 2023. 4. 16. 08:49

※ 이 글은 필자가 개인적으로 공부하면서 정리한 글이기 때문에, 잘못된 정보가 포함되어 있을 수 있습니다. ※

 

※ 개요 ※

 

  인공지능을 공부하거나 연구하는 사람이라면, 모두 데이터 세트의 중요성을 잘 알고 있다. 예를 들어 한국인 대상으로 하는 인공지능 프로그램을 만들고 싶을 때, 해외에서 제공되는 데이터 세트만 사용할 수 있다면, 만들 수 있는 제품에 한계가 있다.

 

  예를 들어 얼굴 이미지를 생성하는 GAN 모델을 학습하고 싶을 때를 생각해 보자. 사실 FFHQ와 CelebA와 같은 유명 얼굴 데이터 세트는 대체로 서양인 얼굴로 구성되어 있다. 그래서 이런 데이터 세트로 학습된 GAN 모델은 한국인을 대상으로 하는 서비스에 적합하지 않을 수 있다.

 

  필자는 최근에 딥러닝 프로젝트 멘토링을 진행하기 위하여 한국인 안면 이미지 데이터 세트를 분석해야 하는 상황이었다. 찾아보니까, AI 허브(AI Hub)에서 그러한 데이터 세트를 제공한다는 것을 알게 되었다.

 

※ AI 허브(AI Hub) 소개 ※

 

  AI 허브(AI Hub)는 AI 기술 및 서비스를 개발하기 위해 필요한 AI 데이터를 제공하는 사이트로 유명하다. 특히 한국 제품에 최적화된 다양한 데이터가 존재한다는 장점이 있다. 구체적으로 "영상/이미지", "한국어", "헬스케어" 등 다양한 분류의 AI 학습용 데이터를 다수 제공한다.

 

  ▶ 웹 사이트 링크https://www.aihub.or.kr/

 

※ 회원가입 및 로그인 ※

 

  AI 허브의 데이터 세트를 다운로드하기 위해서는, 먼저 회원가입 및 로그인을 진행해야 한다. 웹사이트 접속 이후에 [회원가입] 페이지로 이동한다. 그러면, 다음과 같이 회원가입 페이지가 나오는데, 필자는 [일반회원]에 해당하므로, [일반회원]을 선택했다.

 

 

  이후에 약관에 동의하면 된다. 필자는 회원 유형으로 [개인]을 선택했다. 이때 [이메일 주소]를 아이디로 사용하면 된다. 이를 위해 이메일 인증이 먼저 필요하다. 결과적으로 휴대전화 인증까지 모두 마쳤을 때 비로소 [데이터 이용신청]을 할 수 있다.

 

 

  결과적으로 다음과 같이 회원가입이 완료되었다.

 

 

  이제 로그인을 진행한 뒤에 가볍게 찾아볼 수 있다.

 

※ AI 허브 데이터 검색하기 ※

 

  앞서 언급했듯이 AI 허브에 접속하면 영상(이미지), 헬스케어 등 굉장히 많은 종류의 데이터 세트를 확인할 수 있다. 내가 원하는 데이터가 있다면 검색창에 입력하면 된다. 예를 들어 딥페이크 판독 데이터 세트를 찾고자 한다면, "딥페이크"라고 검색할 수 있다.

 

 

  이후에 다음과 같이 [데이터셋] 탭으로 이동하여 데이터 세트를 확인할 수 있다.

 

 

※ 딥페이크 변조영상 데이터 세트 예시 ※

 

  예시로 딥페이크 변조영상 데이터 세트를 확인해 보면, 데이터 세트 안에 얼마나 많은 이미지(동영상)가 존재하는지 확인할 수 있다. 해상도 또한 고해상도(1920 X 1080)인 것을 확인할 수 있다.

 

 

※ 데이터 세트 다운로드 ※

 

  AI 허브에서 데이터 세트를 다운로드할 때는 [다운로드] 버튼을 누르면 된다.

 

 

  이후에 다음과 같이 [신청목적]을 확인한 뒤에, 약관을 잘 확인하고 체크하자. 그리고 [다운로드]를 진행하면 된다. 필자는 개인 연구 및 공부 목적으로 신청했다. 약관을 확인해 보면, 본 AI 데이터를 이용할 때는 "한국지능정보사회진흥원"의 사업결과임을 밝혀야 한다고 한다. 다시 말해 특히나 사업 목적으로 AI 허브의 데이터 세트를 사용하고자 한다면, 이러한 약관을 정확히 읽어 볼 필요가 있다.

 

 

  [다운로드]를 누르게 되면, [자동승인]이 된다. 그래서 곧바로 데이터 세트를 다운로드할 수 있다.

 

 

  데이터를 다운로드하기 위해서는 [데이터 다운로드 프로그램]을 설치해야 한다.

 

 

  결과적으로 다음과 같이 구체적으로 원하는 데이터만 선택하여 [선택 다운로드]를 진행할 수도 있다.

 

 

※ 다양한 한국 데이터 세트 검색하기 ※

 

  AI 허브(AI Hub)에는 다양한 "한국" 관련 데이터 세트가 있다. 예를 들어 "한국인"이라고 검색을 해보면, 다음과 같은 내용을 확인할 수 있다. 필자는 "페르소나 기반의 가상 인물 몽타주" 데이터를 확인할 수 있었다. 정말 흥미로운 데이터 세트였다. 이걸 활용하면 텍스트에서 이미지를 생성(generation)하는 등의 네트워크 학습이 가능할 것으로 보인다.

 

 

※ 저작권 관련 ※

 

  AI 허브(AI Hub)의 데이터 세트를 사용할 때, 가장 우려가 되는 부분은 아마도 저작권(copyright) 문제일 것이다. 이것과 관련해서는 [문의하기] 페이지로 이동하여 다른 사람들이 문의했던 내용을 간단히 확인해 보면 된다. 필자가 찾아봤을 때의 일자를 기준으로 정리하자면, 다음과 같다.

 

  1) 예외도 있긴 하지만, AI 허브(AI Hub)에서 제공하는 대부분의 데이터 세트의 경우, 데이터 세트를 사용하여 학습된 모델을 상업적으로 이용하는 것은 가능하다.

  2) 하지만, 데이터를 재판매하는 경우 문제가 된다. 구체적으로 데이터 세트를 그대로 또는 재가공해서 이익 창출을 하면 안 된다는 의미이다.

  3) 상업적인 목적을 포함하여, 다양한 목적으로 만들어진 모델을 배포할 때는(논문, 제품, 서비스 등에서 활용) AI 허브의 제공데이터를 기반으로 학습된 모델이라고 명시해주어야 한다.