SINCE 2023
AI 시대, 인간 의사의 존재를 묻다
2025.7.22
최혜란 에디터
님 안녕하세요. AI가 ‘의사 면허 시험’을 거뜬히 통과하더라도 실제 진료 현장에서 얼마나 믿을 만한지는 여전히 의문입니다. 이번 2화에서는 의료 AI 평가의 새로운 기준으로 떠오른 HealthBench 결과를 살펴보며, AI가 과연 의사의 곁에서 실질적 파트너가 될 수 있는지 함께 짚어보겠습니다.
2화. HealthBench로 본 의료 AI 성능, 과연 믿을 만할까 
글쓴이: 최혜란 (주식회사 반조 대표이사, 직업환경의학과 전문의)

AI모델이 믿을만한지 평가하는 방법 - 의사면허시험 통과하기


의료 분야에서 인공지능의 활용 가능성을 논할 때, 가장 중요한 전제는 ‘이 모델이 정말 믿을 만 한가?’라는 질문에 통과해야 한다는 것입니다. 초기 의료 AI 의 벤치마크 테스트는 인간 의사가 치르는 면허시험을 그대로 활용하는 방식으로 시작되었습니다. USMLE(미국 의사면허시험)나 KMLE(한국 의사국가고시) 같은 표준화된 시험을 통해 모델의 성능을 측정하고 비교하는 것이 주된 방법이었습니다.


하지만 이러한 접근법은 실제 의료 상황에서도 시험점수와 동등한 성능을 보장해주지 못한다는 한계를 드러냈습니다. 객관식 문제는 실제 임상의 다층적 복잡성을 포착하지 못했고, 단답형 질문 역시 환자와의 역동적 상호작용이나 불완전한 정보 속에서 추가 단서를 찾아내는 능력을 평가할 수 없었습니다.


무엇보다 AI 기술의 급속한 발전으로 대부분의 최신 모델이 정답률 90%를 상회하는 점수를 기록하면서, 이들 시험은 변별력을 상실하고 성능 비교의 도구로서 효용성을 잃게 되었습니다.


*벤치마크 테스트란
어떤 기술이나 도구의 성능을 객관적으로 비교·평가하기 위해 만들어진 표준화된 시험 환경이나 기준을 말합니다. 예를 들어 AI의 의료 분야 활용 가능성을 평가할 때, 동일한 질문이나 상황을 여러 모델에 제시해 그 응답의 정확도나 일관성을 비교하는 방식이 대표적입니다.


AI 신뢰성을 평가하는 새로운 패러다임의 등장, 대화형 임상 벤치마크 


이러한 상황에서 의료 AI 모델 검증의 새로운 패러다임은 OpenAI가 열었습니다. 2025년 5월에 공개한 HealthBench는 대형언어모델(LLM)이 실제 의료 상황에서 얼마나 잘 대응하는지를 평가하기 위해 개발되었습니다. 기존의 객관식 시험 방식과는 달리, 262명의 의사가 직접 만든 5,000개의 실제 대화 시나리오를 통해 AI가 환자나 의료진과 대화할 때 얼마나 적절하게 반응하는지를 살펴보는 방식을 취합니다. 응급 상황 판단, 자원이 부족한 환경에서의 조언, 불확실한 상황 대처 등 7가지 주제로 나뉘어 있고, 각 답변은 정확성, 완성도, 상황 인식, 소통 품질, 지시 따르기 등 5가지 측면에서 평가받습니다. 쉽게 말해, "정답을 맞추는가?"보다는 "실제로 환자나 의사와 대화할 때 얼마나 도움이 되는가?"를 측정하려는 의도인 것입니다.
[논문 보기] / [GitHub 자료]

💻직접 실행해 보고 싶다면?

  • git clone <https://github.com/openai/simple-evals.git> 후 폴더 진입
  • pip install -e evals/ 로 의존 패키지 설치
  • export OPENAI_API_KEY=본인키 입력
  • python healthbench_eval.py --model gpt-4o --num_conversations 50 실행만 하면 샘플 50개 대화로 바로 점수를 확인하실 수 있습니다. 필요하면 JSON 시나리오와 루브릭 파일을 바꿔 직업환경의학 전용 ‘미니 헬스벤치’도 손쉽게 만들어 볼 수 있습니다. 


대화형 임상벤치마크 시험 결과
- 의사와 AI 가 협업했을 때 가장 좋은 결과

Healthbench 를 눈여겨 봐야 하는 이유는 다음과 같습니다.


첫째, 4만 8천개가 넘는 평가 기준을 의사들이 직접 만들어서, AI의 의료 대응 능력을 평가하는 믿을 만한 기준을 처음으로 마련했다는 점(전 세계 60개국 262명의 의사가 참여), 둘째, OpenAI가 모든 평가 도구와 데이터를 공개해서, 앞으로 나올 의료 AI들이 같은 기준으로 공정하게 평가받을 수 있는 환경을 만든 점, 마지막으로, 최신 AI 모델들은 여러 항목에서 일반 의사들의 평균 점수를 넘어섰고, 특히 의사가 AI의 도움을 받았을 때 가장 좋은 성과를 냈다는 점입니다.(아래의 그래프)  결국 이 결과는 “AI와 의료 전문가가 상호 보완적으로 협력할 가능성”을 시사합니다.

AI 의 오류, 인간의 허점 


상기의 그래프는 최신 AI(2025 모델)를 참고한 ‘의사 + AI’ 조합이 의사소통 품질·지침 준수·정확도·맥락 인식·완결성 모든 축에서 최고 점수를 기록했다는 점과, 참고 없이 작성한 의사 단독 답변은 모든 항목에서 가장 낮은 점수를 받아, 충분한 정보·분량이 뒷받침되지 않으면 의사의 '성능'이 급격히 떨어진다는 점을 보여줍니다. 

더 흥미로운 점은, 이 평가에서 AI들이 특히 어려워한 부분이 추가 정보가 필요한 상황을 파악하고 적절한 질문하기였다는 점입니다. 예를 들어, 환자가 "머리가 아파요"라고만 했을 때, 언제부터 아팠는지, 어떤 식으로 아픈지 등을 물어봐야 하는데, 많은 AI가 이런 상황을 놓치고 성급하게 답변을 했습니다. 반면 응급 상황을 인식하고 즉시 병원에 가라고 조언하는 능력은 상당히 향상되었고, 최근 모델들은 비용 대비 성능도 크게 개선되어 의료 자원이 부족한 지역에서도 활용 가능성이 높아졌습니다.


직업환경의학 현장에 맞춘 간이 헬스벤치 실험 


의료AI 평가 도구로서의 HealthBench는 직업환경의학 분야에도 중요한 시사점을 던져줍니다. 직업환경의학은 근로자의 건강상태, 작업환경, 유해물질 노출, 법적 기준 등 복잡한 요소들을 종합적으로 고려해야 하는 분야인데, 이런 특수성을 반영한 AI 평가 체계는 아직 없습니다. HealthBench가 일반 의료 분야에서 보여준 것처럼, 직업환경의학 분야도 단순 지식 테스트가 아닌 실무 상황 대응력을 평가하는 벤치마크가 필요할 전망이므로 이런 문제의식에서 필자는 비록 원시적인 수준이지만, 특수건강진단 판정 사례를 활용한 AI 평가 테스트를 진행해보았습니다. 필자가 실시한 간이 헬스벤치 실험 결과는 3화에서 이어집니다.  

구독자 참여
님 이번 기사는 어떠셨나요?
오이레터의 모니터링에 참여해주세요. 기사에 대한 의견은 언제든지 환영합니다.
발행: 대한직업환경의학회 정보화위원회
오이레터는 대한직업환경의학외래협의회(KOEC)의 지원을 받고 있습니다.