보도자료

5분이면 뚝딱 만드는 워드클라우드 글자=>이미지

페이지 정보

작성자 Primo 작성일24-11-21 14:05

본문

안녕하세요~​파이썬 워드클라우드 코딩이 생소하고 어려워 간단한 데이터 시각화조차 주저하고 계신 분들을 위해 오늘은 오로지 Chat GPT만을 활용하여 워드클라우드 그리고 네트워크 시각화를 해볼까 합니다~! ​​데이터 수집 (ft. 키프리스)이번에 분석해볼 데이터는 특허 심판 데이터입니다. 데이터를 얻기 위해서는 키프리스로 접속해줍니다.​키프리스 홈페이지 상단에 위치한 심판&quot탭에 들어가서 검색창에 RD(청구일자)=[20230101 ~ 20240916]에 입력하시고, 스마트 검색 창을 열어서 권리구분은 특허로 한정하고, 당사자구분은 당사자계로 한정해서 검색을 하면 1,240건의 데이터가 도출됩니다. ​​​이후 오른쪽 메뉴창에 온라인 다운로드를 눌러주시면 ​​위와 같은 창이 열리는데요. 빨간색 네모박스에 있는 사항을 클릭 및 체크 표시해주시고, ​​같은 창의 오른쪽 하단을 보시면 파일 생성&quot이라는 버튼이 있습니다. 해당 버튼을 클릭하면 바로 아래에 다운로드라는 버튼이 생기는데요. 다운로드 버튼을 클릭하면 1,240건의 심판 데이터 엑셀 파일이 다운로드 됩니다.​​​다운받은 파일을 열어 제대로 데이터가 있는지 한번 확인해주시고, 이제 본격적으로 Chat GPT로 해당 데이터를 전처리하고 시각화를 해보겠습니다. ​아래에 해당 데이터를 첨부해드리니 직접 분석을 해보고 싶으신 분은 다운받으시고 아래의 글을 참고하셔서 실습해보시길 바랍니다. ​​데이터 EDA (ft. Excel AI GPTs)​현재 저는 Chat GPT 유료 버전을 사용하고 있는데요. 유료 버전을 사용하면 다른 사용자들이 만들어놓은 GPTs를 이용할 수 있다는 장점이 있습니다. ​아쉽게도 무료 버전에서는 GPTs를 사용할 순 없다는 점 워드클라우드 참고 바랍니다. (GPTs는 일종의 플러그인 기능이라고 생각하시면 될 거 같습니다.)​많고 많은 GPTs 중에서 엑셀 데이터 처리 및 분석에 특화된 Excel AI&quot라는 GPTs로 데이터 전처리 그리고 간단한 분석까지 진행해보겠습니다.​​전처리를 하기 전에 첨부해준 데이터가 어떤 유형의 데이터로 구성되어 있는지 GPT에게 물어보겠습니다.​​오호.. 첨부해준 데이터가 어떠한 유형의 데이터인지 꽤 잘 파악하고 있는 것 같습니다.​​이번에는 심판 건수와 심판 종류 현황에 대해서 시각화를 수행해보겠습니다. ​​23년 1월 그리고 2월에 약 200여건이 넘는 심판 건수를 기록하다가 23년 3월 이후부터는 감소하는 추세를 보여주고 있네요.​​​심판 종류로는 권리범위확인 심판(소극적)이 제일 많이 발생했고 무효 심판이 뒤를 이어오고 있습니다.​​​그리고 심판이 가장 많이 발생한 물품으로는 벤즈이미다졸, DPP IV 억제제 제형, 제2형 당뇨병 치료용 약제학적 조성물 그리고 에피나코나졸 등으로 확인되었습니다.​물품명칭&quot컬럼 내 텍스트 워드클라우드 시각화 (ft. Excel AI GPTs)​Chat GPT에게 워드클라우드 시각화를 지시했을 때, 한글의 경우 폰트 파일을 넣어주지 않으면 글자가 깨져서 보이더라구요. ​그래서 저는 무료 폰트 파일(.ttf 형식)을 다운받아서 프롬프팅과 동시에 폰트 파일을 첨부해서 지시를 하니 아래와 같은 결과를 보여줬습니다. (무료 폰트 파일을 다운로드 받을 수 있는 링크는 아래에 첨부하였으니 참고해주세요~)​​1. 2023년 1월 ~ 2023년 12월 (물품명칭&quot컬럼의 텍스트 기반으로 워드클라우드 시각화)​23년도 심판 데이터 내 워드클라우드 물품명칭의 텍스트를 월별로 워드클라우드 시각화를 해보니 23년도 11월을 제외하고는 주로 바이오 분야의 물품과 관련된 심판이 주를 이룬 것 같습니다.​2. 2024년 1월 ~ 2024년 8월 (물품명칭&quot컬럼의 텍스트 기반으로 워드클라우드 시각화)​24년도에도 바이오 분야의 물품들이 보이긴 하지만 이차전지, 열교환기 그리고 가죽 라미네이팅 등 보다 다양한 물품들과 관련된 특허 심판이 이루어지고 있는 것을 볼 수 있었습니다.​물론 불용어 처리를 꼼꼼하게 하ㅈㅣ않고 약식으로 진행한 것이라 결과물의 설득력이 다소 떨어지지만 빠르게 월별 키워드를 파악해야할 때는 좋을 것 같습니다..! ​무료 폰트 다운로드 링크 ↓​서울 서체의 사용 Tip, 디자인파일 다운로드, 서울한강체, 서울남산체, 서울서체 비교, 서울 한강체의 특징, 서울남산체의 특징 정보​​데이터 전처리 ① - wide형에서 long형으로 데이터 형태 변환 (ft. Excel AI GPTs)이제 데이터 전처리를 해볼까요? 다운받은 심판 데이터 내 IPC 컬럼을 보시면 하나의 셀에 IPC 코드가 모두 들어있는 것을 볼 수 있는데요. ​이러한 wide형 데이터를 하나의 셀에 하나의 IPC코드가 들어가 있는 long형 데이터로 바꿔보겠습니다.​​​​​만들어준 데이터를 다운받아 확인해보니 정확히 제가 원했던 형태로 데이터를 만들어주었습니다!​​long형 데이터로 만들어진 상태에서 IPC코드의 빈도 현황을 파악해보겠습니다.​​빨간색 네모박스 부분을 클릭해보면 전체 코드별 빈도수를 볼 수 있는데요.​​살펴보니 1,240건의 심판과 관련하여 1,330개의 IPC코드가 포함되어 있네요.​​​간단히 IPC코드 빈도수 워드클라우드 Top10에 대한 시각화를 해보니 상위 6위까지의 IPC 코드 빈도수가 다른 IPC 코드의 빈도수 대비 특히 높은 것 같네요.​​IPC 코드별 기술내용 매칭 및 간단한 인사이트 도출 (ft. Excel AI GPTs)위에서 long형으로 변환해준 이유는 사실 지난번 cj바이오사이언스 포스팅 때처럼 각 IPC코드에 맞는 기술 내용을 매칭해주기 위해서 였는데요.​그때와 마찬가지로 같은 작업을 진행해보겠습니다. 다행히 이번에는 IPC코드 기재 양식이 동일해서 추가로 전처리를 수행할 필욘 없을 것 같습니다.​​​작업이 완료되었습니다. 결과물을 한번 확인해볼까요?​​​파일을 열어보니 IPC코드별 기술내용 매칭이 얼핏 봤을땐 잘 수행된 것 같군요. 그러면 매칭이 제대로 되었는지 몇 개의 데이터에 대해서만 검증을 해보도록 하죠.​​A61K9/28 .. 당의정피복된 환제 또는 정제 [2006.01]IPC 분류표 중 일부​A61P1/04 . 궤양, 위염, 역류성 식도염용 의약, 예. 제산제, 산분비 억제제, 점막 보호제 [2006.01]IPC 분류표 중 일부​C07D405/12 .. 사슬 결합으로서 이종원자를 함유하는 사슬에 의하여 결합하고 있는 것 [2006.01]IPC 분류표 중 일부​C07D409/12 .. 사슬 결합으로서 이종원자를 함유하는 사슬에 의하여 결합하고 있는 것 [2006.01]IPC 분류표 중 일부​A61K31/4184 ..... 탄소환과 축합한 것, 예. 벤즈이미다졸 [2006.01]IPC 분류표 중 일부​랜덤으로 5개 정도만 확인해보니 모두 제대로 매칭이 되었습니다.