본문 바로가기

분류 전체보기

(184)
한국어 자연어 처리 분류 모델 학습을 위한 텍스트 데이터 세트 소개 ※ 이 글은 필자의 경험을 바탕으로 쓰였으며, 잘못된 정보를 포함하고 있을 수 있습니다. ※ 한국어 자연어 처리 인공지능(AI)를 처음 공부하는 사람에게 처음으로 자주 다루어지는 데이터 세트는 "네이버 영화 리뷰 데이터 세트(NSMC)"다. 실제로 처음 한국어 자연어 처리 공부를 할 때, 분류 모델을 학습하기 위하여 굉장히 자주 사용하는 데이터 세트다. 자연어 처리를 처음 공부하는 사람이라면 꼭 알아두면 좋다. 혹은 한국어 자연어 처리 서비스를 개발하는 경우, 자주 사용된다. 1. 네이버 영화 리뷰 (NSMC) 데이터 세트 본 데이터 세트는 네이버 영화 리뷰 문자열에 대하여 긍정 혹은 부정 정보를 담은 레이블이 포함된 텍스트 데이터 세트다. ▶ GitHub 링크: https://github.com/e9t..
천장이나 벽에 구멍을 뚫지 않고, 커튼과 커튼 봉 및 커튼 고리 구매 및 설치 방법과 후기 ※ 이 글은 필자의 경험을 바탕으로 쓰였으며, 잘못된 정보를 포함하고 있을 수 있습니다. ※ 필자의 경우 암막 커튼을 좋아한다. 특히나 새벽에 자거나 늦게 잘 일이 있을 때, 암막 커튼의 유무가 수면의 질을 결정하기 때문이다. 그래서 필자는 다음과 같이 커튼을 구매했다. 이때 벽, 천장, 샤시(창틀)에 구멍을 뚫지 않고 커튼을 설치하는 것이 목표였다. 천장에 구멍을 뚫지 않고 커튼을 설치하려면 (1) 커튼, (2) 커튼 봉, (3) 창틀(샤시) 고리를 구매하면 된다. 이때, 당연히 커튼의 구멍보다 커튼 봉의 지름이 더 작아야 할 것이다. 그리고 창틀(샤시)의 크기와 두꼐를 보고 안 뚫어 고리와 같은 것을 구매하면 된다. 더불어 커튼의 가로 길이 및 세로 길이가 본인의 창문의 크기에 맞게 찾을 필요가 있다..
티머니 마일리지(T마일리지)를 이용해 스마트 폰으로 교통 카드 충전하는 방법 및 후기 Feat. 모바일 티머니 앱 ※ 이 글은 필자의 경험을 바탕으로 쓰였으며, 잘못된 정보를 포함하고 있을 수 있습니다. ※ 티머니 교통카드를 사용하는 사람은 티머니 마일리지가 쌓이는 것을 확인할 수 있다. 필자의 경우 모바일 티머니 앱을 사용하는데, 다음과 같이 마일리지가 어느새 11,200만큼 마일리지가 쌓여 있는 것을 확인할 수 있었다. 이를 사용하면, 이것으로 교통 카드를 충전할 수 있다. 다만, 다음과 같이 NFC 기능을 켜야 비로소 교통카드를 충전할 수 있다고 한다. 이후에 다음과 같이 [충전] 버튼을 클릭하여 충전을 진행할 수 있다. 여기에서 다음과 같이 [T마일리지] 버튼을 클릭하여, 티머니 카드를 충전할 수 있다. 이후에 필자가 가지고 있는 현물 티머니 카드를 스마트 폰 뒤에 댔다. 필자는 다음과 같이 11,200 마일..
엑셀(Excel)에서 특정한 셀 범위에서 특정한 값을 가지는 셀의 개수 세는 방법 - COUNTIF 함수 ※ 이 글은 필자의 경험을 바탕으로 쓰였으며, 잘못된 정보를 포함하고 있을 수 있습니다. ※ 엑셀에서 COUNTIF 함수를 이용하면, 다음과 같이 설정하면 특정한 조건을 만족하는 셀의 개수를 셀 수 있다. COUNTIF(셀 범위, 값 조건) 구체적으로 셀 범위를 설정한 뒤에, 찾고자 하는 값을 설정할 수 있다. 예를 들어 A1부터 A15까지의 범위 중에서 값이 7인 것을 세고 싶을 때는 다음과 같이 함수를 사용할 수 있다. =COUNTIF(A1:A15,7) 다음과 같이 정상적으로 개수를 세는 것을 확인할 수 있다. 정상적으로 4라고 출력되는 것을 확인할 수 있다.
IEEE ACCESS 저널(학술지) 소개, SCI급 저널 논문 제출 방법 및 후기 ※ 이 글은 필자의 경험을 바탕으로 쓰였으며, 잘못된 정보를 포함하고 있을 수 있습니다. ※ 컴퓨터 공학을 공부하는 사람은 IEEE Access라는 저널(journal) 이름을 들어 본 적이 있을 것이다. 생각보다 많은 논문들이 IEEE Access 저널에서 발표되었다. 간편하게 요약한 내용은 다음과 같다. - 학술지(저널) 이름: IEEE ACCESS - 형식: 오픈 액세스(누구나 무료로 논문을 열어 볼 수 있는 형태) - 제출 시간: 참고로 아무 때나 제출할 수 있으며, 제출하면 일반적으로 4~6주까지 결과를 받을 수 있다. - 주제: IEEE에서 다루는 기본적인 모든 주제 - 평균 합격률(average acceptance rate): 30% - 방법: 이진(binary) 방식의 피어 리뷰(peer ..
공인인증서(공동인증서) 발급, 재발급, 갱신 방법 Feat. 은행 상관없이 온라인으로 간단히 공인인증서 발급하기! ※ 이 글은 필자의 경험을 바탕으로 쓰였으며, 잘못된 정보를 포함하고 있을 수 있습니다. ※ 최근 다양한 금융 기관 및 정부 기관 웹 사이트에서 사용할 수 있는 "간편 인증(민간 인증서)"이 나오긴 했지만, 아직도 공인인증서(공동인증서)는 다양한 목적으로 사용된다. 일부 은행의 경우 대출 신청을 진행할 때, 카카오톡 인증서와 같은 간편 인증을 허용하지 않고, 공인인증서만 허락하는 경우도 있다. 그래서 일반적인 사람들은 각종 행정 및 세금 관련 일을 처리하기 위하여 공인인증서를 1년마다 갱신(혹은 재발급)을 진행하는 경우가 많다. 필자도 1년 기한이 거의 다 지나가서, 공인인증서를 갱신하기 위해 은행 웹 사이트를 찾았다. 필자의 경우 (1) 농협 은행, (2) 우리 은행, (3) 우체국 은행을 사용한다. ..
엑셀에서 여러 셀의 텍스트 내용 합치는 방법: CONCATENATE 함수 ※ 본 게시글은 필자의 개인 경험을 토대로 작성된 것으로, 잘못된 정보를 포함하고 있을 수 있습니다. ※ 엑셀에서는 다음과 같이 CONCATENATE(내용 1, 내용 2, 내용 3, ...) 함수를 이용하면, 여러 셀에 포함된 텍스트의 내용을 이어 붙이는 것이 가능하다. 단순히 각 내용을 이어 붙여 쓰면 된다. 사용 방법은 다음과 같다. =CONCATENATE(셀 좌표, 셀 좌표, 셀 좌표, ..., 셀 좌표) 필자는 다음과 같이 각각 "경기도", "안양시", "만안구"라는 문자열이 담긴 셀 세 가지를 합쳐보았다.
Hugging Face 소개 및 Hugging Face에서 원하는 데이터 세트 다운로드하는 방법 (ImageNet 1시간 만에 다운로드하기) ※ 본 게시글은 필자의 개인 경험을 토대로 작성된 것으로, 잘못된 정보를 포함하고 있을 수 있습니다. ※ ※ 허깅 페이스(Hugging Face) 개요 ※ 허깅 페이스(Hugging Face)는 머신러닝(기계 학습)을 사용해 다양한 애플리케이션을 개발하기 위한 다양한 도구를 제공하는 서비스이다. 사실 현재 딥러닝을 공부하고 연구하는 사람이라면 굉장히 많이 들어보았을 것이라고 생각하며, 이미 사용해 본 사람도 많을 것이라고 생각한다. 다음과 같이 [Sign Up] 버튼을 눌러 회원가입할 수 있다. ▶ 허깅 페이스(Hugging Face) 웹 사이트: https://huggingface.co/ Hugging Face – The AI community building the future. The AI comm..
PyTorch를 이용한 ImageNet 데이터 세트 학습 코드 및 결과 총 정리 (ResNet 활용하여 80% 이상 정확도 얻기) ※ 본 게시글은 필자의 개인 경험을 토대로 작성된 것으로, 잘못된 정보를 포함하고 있을 수 있습니다. 또한 2023년 4월을 기준으로 작성되어, 현재 기준으로는 잘못된 정보가 포함되어 있을 수 있습니다. ※ NVIDIA Tesla V100 혹은 NVIDIA TITAN RTX과 같은 GPU 하나만 있어도 3~4일 정도면 충분히 ImageNet을 학습하여 Top-1 정확도(accuracy)로 70% 가까이 뽑아낼 수 있다. 이번 포스팅에서는 간단히 Hugging Face에서 제공하는, 흔히 알려진 ImageNet 데이터 세트를 활용하여 CNN 모델(ResNet-18)을 학습을 진행하는 방법에 대해서 알아보겠다. 구체적으로 ResNet-18 모델을 사용하여 간단히 학습을 진행해 볼 수 있다. 가장 먼저, Ju..
PyTorch를 이용한 CIFAR-10 데이터 세트 학습 코드 및 결과 총 정리 (ResNet 활용하여 95% 이상 정확도 얻기) ※ 본 게시글은 필자의 개인 경험을 토대로 작성된 것으로, 잘못된 정보를 포함하고 있을 수 있습니다. ※ NVIDIA Tesla V100 혹은 NVIDIA TITAN RTX과 같은 GPU 하나만 있어도 2시간 정도면 CIFAR-10 데이터 세트를 학습하여 Top-1 정확도(accuracy)로 95% 이상을 뽑아낼 수 있다. 이번 포스팅에서는 간단히 PyTorch Hub에서 기본적으로 제공하는, 흔히 알려진 CIFAR-10 데이터 세트에 대하여 CNN 모델(ResNet-18)을 학습을 진행하는 방법에 대해서 알아보겠다. 구체적으로 ResNet-18 모델을 사용하여 간단히 학습을 진행해 볼 수 있다. 가장 먼저, Jupyter Notebook 상에서 다음과 같이 사용할 GPU의 번호를 설정할 수 있다. im..