- 기아차 SOUL의 혁신적인 제품전략 -소비자의 soul을 움직이다-
- [나스미디어]2024년 11월 2025 디지털 미디어 & 마케팅 전망
- [메조미디어] 미디어&마켓 리포트_24년 6월
- [플레이디] 2025 광고·마케팅 트렌드 전망 리포트
- [2025년 7월] 2025 상반기 디지털 미디어 & 마케팅 결산
- [나스미디어] 2024년 11월 Meta 협력광고, 이커머스 시장의 게임 체인저
- [메조미디어] 2025 디지털 미디어 마일스톤
- 미디어&마켓 리포트_25년 8월
- 2024년 6월 미디어 이슈 리포트
- [인크로스]2025년 1월 미디어 이슈 리포트
항암 치료 부작용 등급 추론 소형 언어 모델 개발을 위한 데이터 혼합 전략
자료요약
**소형 언어 모델(sLM)**을 개발하고, 그 성능을 높이기 위한 데이터 혼합 전략을 제안한 연구입니다.
대형 언어모델(LLM)은 성능은 뛰어나지만 GPU 자원·비용·보안 문제로 한계가 있어,
오픈소스 sLM(Qwen2.5-3B·7B)을 활용했습니다.
모델 학습에는
① **서울아산병원 시범 임상 데이터(398건)**과
② **GPT-4o로 생성한 대화형 데이터(424건)**를 사용했습니다.
생성 데이터는 CTCAE 기준표와 대화 규칙을 포함해 zero-shot prompting으로 만들었고,
의료진이 등급을 검토했습니다.
실험에서는 실제 데이터와 생성 데이터를 다양한 비율로 혼합하여
부작용 등급 분류 정확도의 변화를 분석했습니다.
결과적으로, **실제:생성 비율이 5:5 또는 4:6일 때 최고 성능(정확도 95.83%)**을 보였으며,
이는 실제 데이터만 사용했을 때보다 8~9% 향상된 수치입니다.
생성 데이터가 실제 데이터의 불균형과 다양성 부족을 보완한 것으로 해석됩니다.
다만, 생성 데이터가 과도하게 많을 경우 오히려 성능이 저하되었습니다.
결론적으로, **적절한 데이터 혼합(약 50%)**은 sLM의 의료 데이터 추론 성능을
LLM 수준에 근접하게 향상시킬 수 있음을 보여주었습니다.
한계로는 실제 데이터 수가 적고, 생성 대화의 자연스러움 검증이 부족하다는 점이 지적되었습니다.
향후에는 고품질 생성 데이터 확보와 의료진 검증 강화가 필요하다고 제안합니다.
대형 언어모델(LLM)은 성능은 뛰어나지만 GPU 자원·비용·보안 문제로 한계가 있어,
오픈소스 sLM(Qwen2.5-3B·7B)을 활용했습니다.
모델 학습에는
① **서울아산병원 시범 임상 데이터(398건)**과
② **GPT-4o로 생성한 대화형 데이터(424건)**를 사용했습니다.
생성 데이터는 CTCAE 기준표와 대화 규칙을 포함해 zero-shot prompting으로 만들었고,
의료진이 등급을 검토했습니다.
실험에서는 실제 데이터와 생성 데이터를 다양한 비율로 혼합하여
부작용 등급 분류 정확도의 변화를 분석했습니다.
결과적으로, **실제:생성 비율이 5:5 또는 4:6일 때 최고 성능(정확도 95.83%)**을 보였으며,
이는 실제 데이터만 사용했을 때보다 8~9% 향상된 수치입니다.
생성 데이터가 실제 데이터의 불균형과 다양성 부족을 보완한 것으로 해석됩니다.
다만, 생성 데이터가 과도하게 많을 경우 오히려 성능이 저하되었습니다.
결론적으로, **적절한 데이터 혼합(약 50%)**은 sLM의 의료 데이터 추론 성능을
LLM 수준에 근접하게 향상시킬 수 있음을 보여주었습니다.
한계로는 실제 데이터 수가 적고, 생성 대화의 자연스러움 검증이 부족하다는 점이 지적되었습니다.
향후에는 고품질 생성 데이터 확보와 의료진 검증 강화가 필요하다고 제안합니다.








