컴퓨터공학과 노동원·고동혁 학생, 최고 AI 학회 'EMNLP'서 발표…GPT-4o도 고전시켜

국립한밭대학교 학부생과 석사과정 학생이 인공지능(AI) 거대언어모델(LLM)의 ‘학문적 사고력’을 한국어와 영어로 동시에 평가할 수 있는 세계적인 기준을 개발해 주목받고 있다.
국립한밭대학교는 6일, 컴퓨터공학과 박천음 교수 연구팀의 노동원 석사과정생과 고동혁 학부생이 공동 1저자로 개발한 학술 추론 벤치마크 ‘ScholarBench’가 자연어처리 분야 최고 학회인 ‘EMNLP 2025’에서 발표됐다고 밝혔다.
기존 AI 벤치마크가 단순 질의응답이나 상식 추론에 초점을 맞춘 것과 달리, ‘ScholarBench’는 실제 논문처럼 복잡한 텍스트를 AI가 얼마나 깊이 있게 이해하고 사고하는지를 측정한다. 이를 위해 연구팀은 ▲추상화(Abstraction) ▲이해(Comprehension) ▲추론(Reasoning)의 3단계 인지 과정을 반영한 문항을 설계했다.
특히 이번 벤치마크는 자연과학, 사회과학 등 8개 학문 분야에 걸쳐 한국어와 영어 두 언어로 동일하게 제작돼, AI 모델의 언어 간 사고력 균형과 추론의 일관성을 동시에 평가할 수 있는 최초의 시도라는 점에서 높은 평가를 받았다.
연구팀이 GPT-4o, Claude-3 등 최신 상용 AI 모델을 ‘ScholarBench’로 평가한 결과, 심층적인 학술 추론 단계에서는 평균 0.54점 수준에 머물렀다. 이는 현재 최고 수준의 AI도 표면적 이해는 가능하지만, 복잡한 논증 구조를 파악하고 개념 관계를 추론하는 데는 여전히 한계가 있음을 보여준다.
이번 연구를 이끈 박천음 교수는 “ScholarBench는 단순한 성능 경쟁을 넘어, 한국어 학술 데이터를 이해하는 AI의 발전 방향을 제시한다”며 “한국 연구자들이 국제 AI 평가 생태계에 적극 참여하는 중요한 기반이 될 것”이라고 밝혔다.
