서울대병원, 대장내시경 영상 선별 AI 개발…대규모 데이터셋 구축
서울대병원 연구팀이 대장내시경 영상에서 진단 가치가 높은 프레임을 효율적으로 선별하는 인공지능(AI) 알고리즘을 개발하고, 이를 기반으로 대규모 데이터셋을 구축했다.
서울대병원은 이동헌 영상의학과 교수, 진은효 강남센터 소화기내과 교수 연구팀이 능동학습 기반 알고리즘 ‘AD-BALD’를 개발하고, 이를 활용해 서울대병원 강남센터·충남대병원의 실제 임상 데이터와 글로벌 공공 데이터를 통합한 16만 프레임 규모의 데이터셋 ‘InfoColon’을 구축했다고 23일 밝혔다.
대장내시경은 암 예방을 위한 핵심 검사지만, 검사 과정에서 발생하는 화면 흐림이나 거품 등으로 영상 품질이 저하되는 문제가 있다. 이러한 ‘비정보성 프레임’은 AI 학습 효율을 떨어뜨리고 실시간 진단 보조 시스템의 정확도를 저해하는 요인으로 지목돼 왔다.
연구팀이 개발한 AD-BALD 알고리즘은 AI가 스스로 판단하기 어려운 영상을 선별해 전문가 검증을 요청하는 방식으로 작동한다. 이를 통해 최소한의 데이터만으로도 고품질 학습 데이터셋을 구축할 수 있는 것이 특징이다.

InfoColon 구축 및 평가 과정 개요 ⓒ서울대병원
연구팀은 영상을 진단 가치가 높은 ‘정보성 프레임’과 ‘비정보성 프레임’ 6종(장벽, 거품, 흐림, 조명 불량, 도구, 장애물)으로 구분했으며, 전체 데이터의 약 9%(1만2663프레임)만 직접 라벨링하고도 알고리즘을 활용해 16만 프레임 규모의 데이터셋을 완성했다.
해당 알고리즘은 분류 성능 지표인 AUROC 기준 최대 0.975의 정확도를 기록했다. 이는 제한된 인력과 비용으로도 대규모 고품질 의료 데이터를 구축할 수 있음을 보여주는 결과다.
아울러 연구팀은 선별된 정보성 프레임을 활용해 대장 내부 구조를 3차원 점구름 형태로 재구성하는 데도 성공했다. 이는 대장의 주름과 굴곡을 입체적으로 구현한 것으로, 향후 시술 중 병변을 놓치지 않도록 돕는 ‘내시경 내비게이션’ 기술로의 확장 가능성을 제시한다.
이동헌 교수(영상의학과)는 “InfoColon은 비정보성 프레임 문제 해결을 위한 표준화된 학습 지침서”라며 “AD-BALD를 함께 활용하면 방대한 영상을 효율적으로 가공할 수 있어 차세대 내시경 AI 연구에 실질적인 도움이 될 것”이라고 강조했다.
한편 연구팀은 데이터셋 ‘InfoColon’과 ‘AD-BALD 구현 코드’를 공공 플랫폼(Synapse, GitHub)에 각각 공개했으며, 이번 연구 결과는 네이처 자매지 ‘Scientific Data’ 최신호에 게재됐다.