핵심 사실: 본 출품작 「기미상궁 가디언 v5.2」는 단일 데이터셋이 아닌 7종 공공데이터를 통합한 고도화된 학습 모델입니다 — 학생건강검사 89,197명/1,076교 + 학교알리미 4종(PAPS 57,750행/11,986교 + 급식 12,250교 + 급식비 12,250교 + 상담 11,986교) + KNHANES 2023·2024 (매니페스트 v1.0). 10 도메인(A1~A10) 중 8 도메인이 M1 메타 OOF에 포함되며(A6·A7은 AUROC<0.65 신호부족으로 제외), GroupKFold(school) 5-fold OOF로 검증된 중간단계 완성물입니다. 최종 목적지는 청년기·성인기를 통합한 융합시스템 v3.0(2028 Q4 출시 목표)이며, 6 게이트(G1~G6) 충족이 진입 조건입니다.
R²=0.0306, AUROC=0.5990, Fβ=2=0.7074, Recall=0.9988기미상궁 가디언
7종 공공데이터 통합 (매니페스트 v1.0)
10 도메인 (A1~A10)
M1 메타 8 OOF: Recall=0.9988
R²=0.0306, AUROC=0.5990
GroupKFold(school) 5-fold
Stage 2 청년기 (19-39세)
KNHANES 직접 + BRFSS
PSS-5·MET·식습관 7 라이프스타일
Validate-Before-Train 게이트
기미첨단 융합시스템
Stage 1·2·3 + M1 메타 결합
13 도메인 (8 위험 + 5 만성질환)
심혈관·뇌혈관·당뇨·파킨슨·알츠하이머
2028 Q4 출시 목표
※ 현재 충족도: G3 80% · G4 75% · G5 78% · G6 50% · G1 40% · G2 35% (전체 평균 ~60%, 융합시스템 진입까지 ~20%p 추가 필요).
본 출품작 v5.2 — 10 학생 페르소나 × 10 에이전트(A1~A10) 위험 식별 시뮬레이션. 페르소나 선택 → 도메인 클릭 → TOP 3 우선개입 + 모든 박스 클릭 시 데이터셋·시뮬레이션·SHAP·근거 모달.
→ 더블클릭 실행 (Chrome / Edge / Safari 권장). 실측 메트릭 모달 포함.
기미첨단 v3.0 — Stage 1·2·3 + M1 메타 + 10 데이터 사이언스 원칙(Charter v1.0) + 8 함정 매트릭스. 모든 박스 클릭 시 근거 모달.
→ 더블클릭 실행. 동봉 기미첨단_융합시스템/ 폴더(8 모듈: 데이터·파이프라인·검증·모델·보고·거버넌스·운영·차세대)와 함께 동작.
1) Provenance-First (출처 우선) · 2) Cite-or-Silent (PMID 없으면 침묵) · 3) Validate-Before-Train (분포 검증 게이트) · 4) No Synthetic Data (합성 금지) · 5) Reproducible Pipeline (DVC+MLflow) · 6) Data Leakage Prevention (3 assertion) · 7) Statistical Quality Assessment · 8) Domain-Driven Feature Engineering (T1~T16) · 9) Fairness Audit · 10) Honesty Declaration
꺾은선·막대·간트를 넘어 데이터의 깊이를 드러내는 6종 전문 시각화. 모두 실측 메트릭으로 작성. HTML(동적) — 마우스 호버 세부 수치 · 클릭 필터링 · 줌·다운로드. PDF는 동일 내용 정적 PNG.
학생건강검사 89K + 학교알리미 PAPS 57K + 급식/급식비/상담 12K교 + KNHANES 23·24 → A1~A10 → M1 8 OOF(A6·A7 제외) → TOP3. 호버 시 정확한 수치.
매니페스트 7종 데이터 → 10 도메인 → M1 메타 → TOP3. A6·A7는 신호부족(AUROC<0.65)으로 M1 제외. 호버 시 정확한 표본·AUROC.
Recall 99.88% / 데이터 다양성 7종 / 외부효과 25.7%<50% / 생애주기 1/3 stage(학생기만) / 도메인 10/13 / 운영 SOP 설계단계 / 거버넌스 HMAC+공공누리.
A1~A10 실측 성능 (붙임2-2 metrics_v42b.json 출처). A6 체형 부조화(AUROC=0.6114), A7 충치(AUROC=0.5383)는 신호부족 임계 0.65 미만 → M1 메타 제외(빨간 음영).
G1~G6 충족도(X) × 영향도(Y) × 비용(원 크기). 가디언 v5.2 평균 위치 별표로 표시. G3·G4·G5는 80% 충족(녹색), G1·G2는 미달(빨강).
학생건강검사 89,197명이 최대 학생 단위. 학교알리미 4종 학교셀(11K~12K교). KNHANES 2개년. 매니페스트 v1.0 SHA-256 검증.
| No | 매니페스트 ID | 데이터셋 | 제공 | 표본·기간 | 활용 도메인 | 라이선스 |
|---|---|---|---|---|---|---|
| 1 | student_health_2024 | 학생건강검사 2024 표본 | 교육부 (data.go.kr) | 89,197명 / 1,076교 | A1·A2·A4·A6·A7 | 공공누리 1유형 |
| 2 | schoolinfo_paps_2025 | 학교알리미 PAPS (학생체력) | 교육부 (schoolinfo.go.kr) | 57,750행 / 11,986교 | A4 운동 | 공공누리 2유형 |
| 3 | schoolinfo_meal_2025 | 학교알리미 급식 실시 현황 | 교육부 (schoolinfo.go.kr) | 12,250교 | A1 영양 | 공공누리 2유형 |
| 4 | schoolinfo_budget_2025 | 학교알리미 급식비 집행 (SES Proxy) | 교육부 (schoolinfo.go.kr) | 12,250교 | A9 가족 (SES) | 공공누리 2유형 |
| 5 | schoolinfo_counsel_2025 | 학교알리미 상담·WEE클래스 | 교육부 (schoolinfo.go.kr) | 11,986교 | A5·A9·A10 | 공공누리 2유형 |
| 6 | knhanes_2023 | 국민건강영양조사 2023 | 질병관리청 (knhanes.kdca.go.kr) | 전국 표본 (10~18세 부분) | 외부 참조 분포 | 공공누리 1유형 + 회원가입 |
| 7 | knhanes_2024 | 국민건강영양조사 2024 | 질병관리청 (knhanes.kdca.go.kr) | 전국 표본 | 외부 참조 분포 | 공공누리 1유형 + 회원가입 |
계획(Stage 2): KYRBS 원시(IRB 신청) · BRFSS 2020 · NHANES 2017-18 (모두 Public domain 또는 IRB). 출처: 기미첨단_융합시스템/01_데이터/_provenance/manifest.json
| T-피처 | 의미 | 도메인 | T-피처 | 의미 | 도메인 |
|---|---|---|---|---|---|
| T1 NutriScore | 영양 종합 | A1 | T9 OralHygiene | 구강 위생 | A7 |
| T2 GlucoVar | 혈당 변동성 | A2 | T10 StressLoad | 스트레스 부하 | A5 |
| T3 SleepIndex | 수면 종합 | A3 | T11 EngagementProxy | 학습 몰입 | A10 |
| T4 BDNFProxy | BDNF 프록시 | A4 | T12 PeerEnvScore | 또래 환경 | A9 |
| T5 (예비) | 예비 | — | T13 SES-Proxy | 사회경제 SES | A9 |
| T6 MetabolicPhenotype | 대사 표현형 | A6 | T14 (예비) | 예비 | — |
| T7 GutBrainScore | 장-뇌 축 | A7·A1 | T15 MealVariety | 식이 다양성 | A1 |
| T8 ChronoStability | 일주기 안정성 | A8 | T16 (예비) | 예비 | — |
| ID | 도메인 | 모델 | AUROC | Fβ=2 | Recall | 양성률 | M1 메타 |
|---|---|---|---|---|---|---|---|
| A1 | 영양 위험 | LightGBM (n=2000) | 0.7693 | 0.8149 | 0.9683 | 0.4002 | ✓ 포함 |
| A2 | 혈당 위험 | HistGB | 0.8759 | 0.1887 | 0.9249 | 0.0115 | ✓ 포함 |
| A3 | 수면 부족 | CatBoost (it=1500) + BR | 0.8757 | 0.8766 | 0.9491 | 0.4861 | ✓ 포함 |
| A4 | 운동 부족 | Stacked (XGBoost + Lasso) | 0.9047 | 0.7256 | 0.9899 | 0.1289 | ✓ 포함 |
| A5 | 정서 위험 | GradientBoosting + SMOTE | 0.7603 | 0.9760 | 0.9979 | 0.8781 | ✓ 포함 |
| A6 | 체형 부조화 | ExtraTrees (n=500) | 0.6114 | 0.1614 | 0.2161 | 0.0199 | ✗ 제외(신호부족) |
| A7 | 충치 위험 | RF (n=1000) + Calibration | 0.5383 | 0.5347 | 1.0000 | 0.1080 | ✗ 제외(신호부족) |
| A8 | 스크린 과다 | LSTM (hidden=64, layers=2) | 0.9768 | 0.7917 | 0.9311 | 0.0663 | ✓ 포함 |
| A9 | 가족 위험 | XGBoost + Target Encoding | 0.7654 | 0.9548 | 1.0000 | 0.8085 | ✓ 포함 |
| A10 | 학습 위험 | LightGBM (n=1500) + Quantile | 0.7569 | 0.9419 | 0.9977 | 0.7539 | ✓ 포함 |
| M1 메타 (8 OOF · A6·A7 제외) | 0.5990 | 0.7074 | 0.9988 | — | R²=0.0306 | ||
※ 검증: GroupKFold(school) 5-fold OOF, assert_no_leak PASS. M1 SHAP Permutation TOP 3 = OOF_A3 수면 (Δ=0.0594) > OOF_A10 학습 = OOF_A9 가족 (0.0241) > OOF_A5 정서 (0.0234).
| PMID | 주제 | 가디언 적용 도메인 |
|---|---|---|
| 36874411 | 혈당 변동성·인지장애 (Meng 2023 WJCC, OR 2.5) | A2 GlucoAgent |
| 32627159 | 수면·인지기능 (Suardiaz-Muro 2020 리뷰 30편) | A3 SleepAgent |
| 33414823 | 운동·BDNF·GDNF·NGF (de Sousa Fernandes 2020 메타 21편) | A4 ExerciseAgent |
| 39655999 | 운동+식이+수면 통합 정신 개선 (Maurus 2024 EPA 89편) | A5 MentalAgent |
| 38474852 | 대사 표현형 4종 ML 분리 (Jeong & Choi 2024 Nutrients N=5,719) | A6 MetaPhenotypeAgent |
| 39260135 | 장-뇌 축 GM→MGB→SCFA·5-HT·BDNF (Lu 2024 Phytomedicine) | A7 GutBrainAgent |
| 38584809 | 취침이 식·정신·학업 강력 예측인자 (Kim Y 2024 N=25,681) | A8 ChronoAgent |
| 40707614 | Voting Regressor R²=0.989, SHAP·LIME (Ahmed 2025 Sci Rep) | A10 EngagementAgent |
| 2374591 | BMI heritability h²=0.65~0.85 (Stunkard 1990 NEJM) | R² 상한 근거 |
| — | Bayes-optimal R² ~0.49 (Hastie ESL §2.4) | M1 R²=0.0306 한계 근거 |
① 학습 데이터는 매니페스트 v1.0 기준 7종 공공데이터 통합 — 학생건강검사 89,197명/1,076교 + 학교알리미 4종(PAPS 57,750행/11,986교, 급식 12,250교, 급식비 12,250교, 상담 11,986교) + KNHANES 2023·2024. KYRBS·BRFSS·NHANES는 Stage 2 계획.
② M1 메타 핵심은 R²(0.0306)가 아닌 Recall(0.9988) — 자기보고 5점 척도 R² 상한 ~0.49의 본질적 한계. 출력 패러다임은 예측 X · 도출(Aggregation) O.
③ 외부 변수 평균 ΔAUROC +0.0008 — 통계 유의·실무 미미. 가장 큰 효과 A4 +0.0054 PAPS. 정직 공개.
④ 외부 KNHANES 청소년 분율은 외부 참조 분포로만 활용 (Ecological Fallacy 회피, 외부 변수 25.7%<50%).
⑤ Kaggle 의료 데이터셋 출처 신뢰성 경고. 본 출품작 직접 사용 안 함.
⑥ A6 체형 부조화(AUROC=0.6114), A7 충치(AUROC=0.5383)는 신호부족으로 M1 메타 제외 — 6종 통합 후 재산출 예정.
⑦ 융합시스템(기미첨단 v3.0)은 청사진 — Stage 2·3 실측 v7.0~v8.0 예정.
⑧ 시도·성별 세분 격차는 KYRBS 원시(2026-06-15 신청) + 미수집 6종 통합 후 재산출.
⑨ Stage 2(KNHANES 19–39세 + BRFSS) 라벨 정의 미완 — 연결 함수 v7.0에서 공개.
⑩ Stage 3(만성질환 35–80세) NHANES + UCI Parkinson 코호트 필요 — 표본 외삽 위험 명시.
⑪ 진입 게이트 G1~G6 중 G3·G4·G5만 80% 충족 — G1·G2·G6는 2026 하반기~2028 진행.
⑫ 융합시스템 운영 비용 (서버·인력·거버넌스) 추정치는 부록 v6.1에 공개.