고려대학교 한자한문연구소

QUICK MENU
  • 로그인
  • 사이트맵

연구활동

연구 모임 : DH 학제간 연구회

 

모임 개요

ㆍ연구회명: 디지털 한문학 연구를 위한 데이터 처리 방법론 개발 연구회
ㆍ주관기관: 고려대학교 한자한문연구소
ㆍ협력기관: 고려대학교 연구처

 

연구 기간

2023.03.01~2025.02.28.

 

연구 방법

본 연구회에서 진행하고자 하는 디지털 한문학 연구를 위한 데이터 처리 방법론 개발은 기본적으로 인문학 연구와는 거리가 멀다 여겨져 온 디지털 기술을 인문학 연구에 접목하고자 하는 시도이기 때문에, 분야를 불문하고 AI로 대표되는 데이터 사이언스가 각광받고 있는 최근의 학술적 상황을 고려할 때, 강점과 약점 그리고 기회와 위협이 뚜렷하다.

 

ㆍ강점(Strength): 인문학의 기본적 가치 반영. 융합연구로서의 가능성.
ㆍ약점(Weakness): 전문연구자 부족. 디지털 기술 이해와 숙달의 높은 장벽.
ㆍ기회(Opportunity): 전통적 인문학의 위기와 소멸. 융합 학문을 강조하는 최근의 풍토.
ㆍ위협(Threat): 대학 강단에서의 인문학의 인기 하락. 계량적 데이터 분석 기술의 확산.

 

이상에서 정리한 강점과 약점, 기회와 위협 4가지 요소를 고려할 때, 본 연구의 방법과 범위는 아래와 같은 연구 절차를 바탕으로 전개하는 것이 필요하다.

 

① 한국한문학 유관 연구 논저 검토 및 자료 수집・정리
② 온톨로지 디자인과 개념적 데이터 모델링 진행
③ 데이터 분석 방안 수립 및 연구 진행
④ 논리적・물리적 데이터 모델링 진행과 데이터셋 개방

 

연구 내용

본 연구는 아래와 같은 4가지 요소를 핵심 모듈로 삼아 디지털 한문학 연구를 위한 데이터 처리 방법론을 개발하고자 한다.

 

① 한국한문학 데이터 모델 디자인
② 웹 표준 기반의 한문학자료 데이터셋 편찬
③ 다양한 맥락의 텍스트 분석 연구 시도
④ 한문학 데이터 프로세싱 논문 작성 및 발표

 

디지털 한문학 연구를 위한 데이터 처리 방법론 개발은 아메리카와 유럽 및 중국과 일본 그 어디에서도 진행하지 않은, 한국에서 처음 시도되는 과업이다. 물론 중국과 대만 및 일본에서는 각기 자국의 한문고전을 대상으로 한 디지털 인문학 연구 프로젝트가 다양하게 이루어져 왔지만, 한문학의 다양한 연구 갈래를 대상으로 한 체계적인 성격의 데이터 프로세싱에 관한 고민은 아직 제대로 시도되지 않은 상황이다. 따라서 본 연구회의 연구 과제가 성공적으로 수행되어 수년 후 유관 한문학 데이터셋을 웹상에서 개방적으로 공유하고 그에 관한 데이터 모델 디자인과 텍스트 분석 연구 결과를 논문으로 작성해 소개한다면 그 효용성과 가치는 매우 클 것으로 전망된다. 또한 본 연구의 경우 국내외에서 유관 프로젝트 사례를 찾아보기 어려운 매우 유의미한 과업이기 때문에, 연구 진행 과정에서 국내외 대형 연구과제에 신청하여 펀드를 수주할 가능성 또한 크다고 하겠다.

 

연구 참여진

ㆍ연구책임자: 송호빈(고려대 한문학과)

ㆍ정회원: 임준철(고려대 한문학과), 정태선(아주대 소프터웨어학과), 정성훈(목포대 국어국문학과), 김바로(한국학중앙연구원 문화예술학부) 류인태(고려대 한자한문연구소), 이미진(고려대 한자한문연구소), 김경(고려대 한자한문연구소), 정용건(강원대 국어국문학과), 김병준(카이스트 디지털인문사회과학부)
※ 본교 전임교원 및 타 대학, 연구기관, 정부기관, 산업체 등의 주요 인사 및 고급 연구원

ㆍ준회원: 강다형(고려대 국어국문학과), 김민경(고려대 국어국문학과), 김성수(고려대 국어국문학과), 변은미(고려대 국어국문학과), 이길환(고려대 국어국문학과), 이동학(고려대 국어국문학과), 이지수(고려대 국어국문학과), 조현석(고려대 국어국문학과), 지영원(고려대 국어국문학과), 곽지은(성균관대 한문학과), 홍현기(성균관대 국어국문학과)
※ 박사후연구원, 박사(석박통합과정 포함)과정생, 석사과정생

 

 

연구 모임 : 디지털한문학 연구동향 정리

 

모임 개요

ㆍ연구회명: 디지털한문학 연구동향 정리
ㆍ주관기관: 고려대학교 한자한문연구소
ㆍ협력기관: 고려대학교 국어국문학과, 고려대학교 한문학과

 

연구 기간

매년 8월-9월 진행

 

연구 내용

고전문학한문학연구회(KCI등재지)에서 매년 진행하는 연구동향 보고서는 한 해 동안 제출된 고전문학-한문학 관련 연구 성과물들을 전수 조사하여 목록화하고, 그 중 의미있는 성과물들을 선별 및 요약하여 해당 기간 연구의 흐름과 경향을 파악하려는 목적으로 작성한 것이다. 이에 따라 한문학 연구동향의 경우 한문학 전공 재학생-수료생을 주축으로 ①단행본 연구 저서와 ②번역서 및 자료집, ③전국 주요 대학의 석·박사학위논문, ④KCI 등재후보 및 등재지 학술지 게재 논문을 조사 범위로 다양한 논저들을 수집-분류한다.

 

기존의 한문학 연구동향은 “산문, 운문, 경학 및 자학, 한문교육”이라는 네 분야로 분류를 진행했으나 2021년부터는 ‘디지털한문학’ 분야를 신설하여 작성을 진행하게 되었다. 디지털 환경이 가속화됨에 따라 최근 학계에서는 한문학-고전문학 분야에서 디지털인문학과 관련한 논문들이 꾸준히 발표되고 있으며 해당 분야를 기획주제로 개최하는 학회들 역시 많아지고 있다. 이러한 수요에 힘입어 한국디지털인문학협의회(KADH)에서는 디지털인문학 전문 학술지를 발행하기도 했는데, 본 연구회 역시 학계의 흐름을 고려하여 기존의 틀을 고집하지 않고 산문 분야의 기타 부류에서 독립분화시켜 파트장 및 파트원을 별도로 배정하게 되었다.

 

연구 참여진

ㆍ연구책임자: 이길환(고려대 국어국문학과, 2022), 송근후(고려대 국어국문학과, 2023), 이동학(고려대 국어국문학과, 2024)
ㆍ참여구성원: 고려대학교 국어국문학과 한문학 전공 재학생 및 수료생

 

 

 

연구 과제 : 한문과 우리말 쌍의 <연행록> 객체 및 객체간 관계 태깅

 

사업 내용

ㆍ사업명: 2021년도 KAIST ‘김재철 AI 발전기금’ AI Dataset Challenge 사업
ㆍ주관기관: 한국과학기술원 (KAIST)
ㆍ협력기관: 고려대학교 한문학과, 한국고전번역원

 

연구 기간

2021.11.1~2022.6.30

 

연구 참여진

ㆍ연구책임자: 주재걸(KAIST 김재철AI대학원 교수)
ㆍ연구원: 양소영(KAIST 인공지능연구원 연구원)
ㆍ협력연구원: 임준철(고려대학교 한문학과 교수), 양원석(고려대학교 한문학과 부교수), 송호빈(고려대학교 한문학과 조교수),
선보민(한국고전번역원 고전정보팀 팀장)

 

연구 개요

한국 고전 종합 DB는 9억 자에 가까운 양의 한국 고전 문헌 자료를 오픈 소스로 공개하고 있으나, 한문과 우리말 쌍의 텍스트만 존재하여 기존 연구의 경우 기계 번역 및 한자 복원 태스크만 진행하였다. 이는 인공지능 연구를 한국 한문 데이터셋에 활용하는데 접근성을 떨어뜨리므로, 번역 외의 태스크를 진행할 수 있는 별도의 데이터셋 구축이 필요하다. 따라서, 본 연구진은 한문과 한글 쌍으로 이루어진 <연행록> 말뭉치에 대한 병렬 태깅 데이터셋인 Historical Document-Level Relation Extraction Dataset (HistDRED)를 구축하였으며, 이는 추후 오픈소스 데이터셋으로 공개될 예정이다.

 

연구 결과

태깅 작업에 앞서 고려대 한문학과 교수진과 긴밀한 협업을 통해 <연행록>에 적합한 객체 타입 10종, 관계 타입 20종을 정의하였다. 이때 객체란 유의미한 사람, 기관과 같은 유의미한 말뭉치이며, 관계는 객체 사이의 유의미한 정보이다. 예를 들어 ‘잡스는 애플의 창업자이다.’라는 문장에서 ‘잡스’와 ‘애플’은 각각 사람, 기관 객체이며 두 객체 사이에는 ‘잡스 → 애플’ 사이에는 ‘창업자(founder)’라는 관계가 존재함을 알 수 있다.

 

두 달간의 태깅 작업 이후 원본 데이터를 인공지능 모델 학습에 적합한 형태로 재구축하였다. 결과적으로 5,862개의 데이터 인스턴스가 생성되었으며, 실제 한 인스턴스 당 한국어 문장 개수의 분산이 기존 1,503에서 4.15로 줄어들어 모델 학습에 용이한 형태를 갖추게 되었다. 한 데이터 인스턴스가 포함한 정보는 크게 세 종류를 포함하는데, (1) 한문 원본, 국문본 두 텍스트와 (2) 각 텍스트에서의 객체와 객체 간 관계 정보, 그리고 (3) 텍스트와 관련된 책 제목, 작성 연도와 같은 메타 정보를 포함한다. <그림 1>의 경우 데이터셋 예시이다.

 

나아가 한문과 우리말의 병렬 말뭉치로 구성된 HistRED의 구조를 고려한 맞춤형 bilingual relation extraction model을 제안하였다. 맞춤형 모델의 경우 기존 단일 언어 모델보다 안정적으로 높은 성능을 보여준다.

 

<그림 1> 데이터셋 예시