GimiSanggung-Guardian v_FINAL — 7종 공공데이터 통합 가디언(중간) → 융합시스템(최종)

핵심 사실: 본 출품작 「기미상궁 가디언 v5.2」는 단일 데이터셋이 아닌 7종 공공데이터를 통합한 고도화된 학습 모델입니다 — 학생건강검사 89,197명/1,076교 + 학교알리미 4종(PAPS 57,750행/11,986교 + 급식 12,250교 + 급식비 12,250교 + 상담 11,986교) + KNHANES 2023·2024 (매니페스트 v1.0). 10 도메인(A1~A10) 중 8 도메인이 M1 메타 OOF에 포함되며(A6·A7은 AUROC<0.65 신호부족으로 제외), GroupKFold(school) 5-fold OOF로 검증된 중간단계 완성물입니다. 최종 목적지는 청년기·성인기를 통합한 융합시스템 v3.0(2028 Q4 출시 목표)이며, 6 게이트(G1~G6) 충족이 진입 조건입니다.

✓ 실측 메트릭 (출처: 붙임2-2 모델평가서 v1.0, outputs/metrics_v42b.json)

1. 진화 경로 — 중간(7종 통합 가디언) → 최종(융합시스템)

① NOW · 중간단계 (v5.2)

기미상궁 가디언
7종 공공데이터 통합 (매니페스트 v1.0)
10 도메인 (A1~A10)
M1 메타 8 OOF: Recall=0.9988
R²=0.0306, AUROC=0.5990
GroupKFold(school) 5-fold

② NEXT · 확장 (v7.0)

Stage 2 청년기 (19-39세)
KNHANES 직접 + BRFSS
PSS-5·MET·식습관 7 라이프스타일
Validate-Before-Train 게이트

③ FINAL · 최종 (v3.0)

기미첨단 융합시스템
Stage 1·2·3 + M1 메타 결합
13 도메인 (8 위험 + 5 만성질환)
심혈관·뇌혈관·당뇨·파킨슨·알츠하이머
2028 Q4 출시 목표

🔐 융합시스템 진입을 위한 필수 조건 (Gates G1~G6) — Charter v1.0 기반

※ 현재 충족도: G3 80% · G4 75% · G5 78% · G6 50% · G1 40% · G2 35% (전체 평균 ~60%, 융합시스템 진입까지 ~20%p 추가 필요).

2. 핵심 진입점 — 인터랙티브 데모 (제출 폴더 내)

중간단계 (Stage 1 · 실측) 기미상궁_가디언.html

본 출품작 v5.2 — 10 학생 페르소나 × 10 에이전트(A1~A10) 위험 식별 시뮬레이션. 페르소나 선택 → 도메인 클릭 → TOP 3 우선개입 + 모든 박스 클릭 시 데이터셋·시뮬레이션·SHAP·근거 모달.

→ 더블클릭 실행 (Chrome / Edge / Safari 권장). 실측 메트릭 모달 포함.

최종 (융합시스템 청사진) 기미첨단_융합시스템.html

기미첨단 v3.0 — Stage 1·2·3 + M1 메타 + 10 데이터 사이언스 원칙(Charter v1.0) + 8 함정 매트릭스. 모든 박스 클릭 시 근거 모달.

→ 더블클릭 실행. 동봉 기미첨단_융합시스템/ 폴더(8 모듈: 데이터·파이프라인·검증·모델·보고·거버넌스·운영·차세대)와 함께 동작.

Charter v1.0 — 10 데이터 사이언스 원칙

1) Provenance-First (출처 우선) · 2) Cite-or-Silent (PMID 없으면 침묵) · 3) Validate-Before-Train (분포 검증 게이트) · 4) No Synthetic Data (합성 금지) · 5) Reproducible Pipeline (DVC+MLflow) · 6) Data Leakage Prevention (3 assertion) · 7) Statistical Quality Assessment · 8) Domain-Driven Feature Engineering (T1~T16) · 9) Fairness Audit · 10) Honesty Declaration

3. 🎨 6 전문 인터랙티브 시각화 — 사실 기반

꺾은선·막대·간트를 넘어 데이터의 깊이를 드러내는 6종 전문 시각화. 모두 실측 메트릭으로 작성. HTML(동적) — 마우스 호버 세부 수치 · 클릭 필터링 · 줌·다운로드. PDF는 동일 내용 정적 PNG.

📌 ① Sankey — 7종 데이터 → 10 도메인 → M1 8 OOF → TOP 3 흐름

학생건강검사 89K + 학교알리미 PAPS 57K + 급식/급식비/상담 12K교 + KNHANES 23·24 → A1~A10 → M1 8 OOF(A6·A7 제외) → TOP3. 호버 시 정확한 수치.

📌 ② Network — 가디언 v5.2 실측 데이터·도메인 의존성

매니페스트 7종 데이터 → 10 도메인 → M1 메타 → TOP3. A6·A7는 신호부족(AUROC<0.65)으로 M1 제외. 호버 시 정확한 표본·AUROC.

📌 ③ Radar — 가디언(실측) vs 융합시스템(목표) 7축 역량

Recall 99.88% / 데이터 다양성 7종 / 외부효과 25.7%<50% / 생애주기 1/3 stage(학생기만) / 도메인 10/13 / 운영 SOP 설계단계 / 거버넌스 HMAC+공공누리.

📌 ④ Bar (AUROC·Fβ=2·Recall) — 10 도메인 실측 메트릭

A1~A10 실측 성능 (붙임2-2 metrics_v42b.json 출처). A6 체형 부조화(AUROC=0.6114), A7 충치(AUROC=0.5383)는 신호부족 임계 0.65 미만 → M1 메타 제외(빨간 음영).

📌 ⑤ Bubble — 6 게이트 + 가디언 현재 위치(★)

G1~G6 충족도(X) × 영향도(Y) × 비용(원 크기). 가디언 v5.2 평균 위치 별표로 표시. G3·G4·G5는 80% 충족(녹색), G1·G2는 미달(빨강).

📌 ⑥ Donut + Bar — 매니페스트 7종 데이터 규모·라이선스 분포

학생건강검사 89,197명이 최대 학생 단위. 학교알리미 4종 학교셀(11K~12K교). KNHANES 2개년. 매니페스트 v1.0 SHA-256 검증.

4. 가디언 v5.2 학습 데이터 — 7종 공공데이터 통합 (실측)

No매니페스트 ID데이터셋제공표본·기간활용 도메인라이선스
1student_health_2024학생건강검사 2024 표본교육부 (data.go.kr)89,197명 / 1,076교A1·A2·A4·A6·A7공공누리 1유형
2schoolinfo_paps_2025학교알리미 PAPS (학생체력)교육부 (schoolinfo.go.kr)57,750행 / 11,986교A4 운동공공누리 2유형
3schoolinfo_meal_2025학교알리미 급식 실시 현황교육부 (schoolinfo.go.kr)12,250교A1 영양공공누리 2유형
4schoolinfo_budget_2025학교알리미 급식비 집행 (SES Proxy)교육부 (schoolinfo.go.kr)12,250교A9 가족 (SES)공공누리 2유형
5schoolinfo_counsel_2025학교알리미 상담·WEE클래스교육부 (schoolinfo.go.kr)11,986교A5·A9·A10공공누리 2유형
6knhanes_2023국민건강영양조사 2023질병관리청 (knhanes.kdca.go.kr)전국 표본 (10~18세 부분)외부 참조 분포공공누리 1유형 + 회원가입
7knhanes_2024국민건강영양조사 2024질병관리청 (knhanes.kdca.go.kr)전국 표본외부 참조 분포공공누리 1유형 + 회원가입

계획(Stage 2): KYRBS 원시(IRB 신청) · BRFSS 2020 · NHANES 2017-18 (모두 Public domain 또는 IRB). 출처: 기미첨단_융합시스템/01_데이터/_provenance/manifest.json

학습 데이터 통합 후 합성 변수: features_v28 (16 T-피처) + 외부 21변수

T-피처의미도메인T-피처의미도메인
T1 NutriScore영양 종합A1T9 OralHygiene구강 위생A7
T2 GlucoVar혈당 변동성A2T10 StressLoad스트레스 부하A5
T3 SleepIndex수면 종합A3T11 EngagementProxy학습 몰입A10
T4 BDNFProxyBDNF 프록시A4T12 PeerEnvScore또래 환경A9
T5 (예비)예비T13 SES-Proxy사회경제 SESA9
T6 MetabolicPhenotype대사 표현형A6T14 (예비)예비
T7 GutBrainScore장-뇌 축A7·A1T15 MealVariety식이 다양성A1
T8 ChronoStability일주기 안정성A8T16 (예비)예비

5. 가디언 v5.2 — 10 도메인 실측 성능 (붙임2-2 v42b)

ID도메인모델AUROCFβ=2Recall양성률M1 메타
A1영양 위험LightGBM (n=2000)0.76930.81490.96830.4002✓ 포함
A2혈당 위험HistGB0.87590.18870.92490.0115✓ 포함
A3수면 부족CatBoost (it=1500) + BR0.87570.87660.94910.4861✓ 포함
A4운동 부족Stacked (XGBoost + Lasso)0.90470.72560.98990.1289✓ 포함
A5정서 위험GradientBoosting + SMOTE0.76030.97600.99790.8781✓ 포함
A6체형 부조화ExtraTrees (n=500)0.61140.16140.21610.0199제외(신호부족)
A7충치 위험RF (n=1000) + Calibration0.53830.53471.00000.1080제외(신호부족)
A8스크린 과다LSTM (hidden=64, layers=2)0.97680.79170.93110.0663✓ 포함
A9가족 위험XGBoost + Target Encoding0.76540.95481.00000.8085✓ 포함
A10학습 위험LightGBM (n=1500) + Quantile0.75690.94190.99770.7539✓ 포함
M1 메타 (8 OOF · A6·A7 제외)0.59900.70740.9988R²=0.0306

※ 검증: GroupKFold(school) 5-fold OOF, assert_no_leak PASS. M1 SHAP Permutation TOP 3 = OOF_A3 수면 (Δ=0.0594) > OOF_A10 학습 = OOF_A9 가족 (0.0241) > OOF_A5 정서 (0.0234).

6. 학술 근거 — PMID 10건 (직접 검색)

PMID주제가디언 적용 도메인
36874411혈당 변동성·인지장애 (Meng 2023 WJCC, OR 2.5)A2 GlucoAgent
32627159수면·인지기능 (Suardiaz-Muro 2020 리뷰 30편)A3 SleepAgent
33414823운동·BDNF·GDNF·NGF (de Sousa Fernandes 2020 메타 21편)A4 ExerciseAgent
39655999운동+식이+수면 통합 정신 개선 (Maurus 2024 EPA 89편)A5 MentalAgent
38474852대사 표현형 4종 ML 분리 (Jeong & Choi 2024 Nutrients N=5,719)A6 MetaPhenotypeAgent
39260135장-뇌 축 GM→MGB→SCFA·5-HT·BDNF (Lu 2024 Phytomedicine)A7 GutBrainAgent
38584809취침이 식·정신·학업 강력 예측인자 (Kim Y 2024 N=25,681)A8 ChronoAgent
40707614Voting Regressor R²=0.989, SHAP·LIME (Ahmed 2025 Sci Rep)A10 EngagementAgent
2374591BMI heritability h²=0.65~0.85 (Stunkard 1990 NEJM)R² 상한 근거
Bayes-optimal R² ~0.49 (Hastie ESL §2.4)M1 R²=0.0306 한계 근거

7. 제출 폴더 구조 (v_FINAL)

제출_GimiSanggung-Guardian_v_FINAL/ ├── GimiSanggung-Guardian_본문.pdf ← 본문 15p (Noto CJK 임베드) ├── GimiSanggung-Guardian_본문.docx ← 본문 원본 (재현용) ├── 붙임1_공공데이터_활용_목록.docx ← 7종 데이터 + KYRBS·NEIS·PAPS 상세 ├── 붙임2_생성형AI_활용_상세내역서.docx ← AI 활용 + Cite-or-Silent 원칙 ├── 붙임2-1_AI_활용_로그.csv ← AI 활용 39건 로그 ├── 붙임3_모델평가서.docx ← 10 도메인 실측 + M1 메타 + G1~G6 ├── 부록_v5.3_추가데이터통합.pdf ← 데이터 통합 + features_v28 + 외부 21 ├── 부록_v6.1_융합시스템_의의.pdf ← 융합시스템 의의 + 6 게이트 ├── _URL_접속안내.html ← (본 문서, 6 인터랙티브 viz) ├── 기미상궁_가디언.html ★ 중간단계 ← 7종 통합 학습 실측 데모 ├── 기미첨단_융합시스템.html ★★ 최종 ← Charter v1.0 청사진 ├── 기미첨단_융합시스템/ ← 8 모듈 (데이터·파이프라인·검증·모델·보고·거버넌스·운영·차세대) └── _figures/ ← 시각화 12종 (PNG)

8. 정직성 선언 (가디언 8 + 융합 진입 4 = 12항)

◎ 가디언 단계 (현 출품작) — 8항

① 학습 데이터는 매니페스트 v1.0 기준 7종 공공데이터 통합 — 학생건강검사 89,197명/1,076교 + 학교알리미 4종(PAPS 57,750행/11,986교, 급식 12,250교, 급식비 12,250교, 상담 11,986교) + KNHANES 2023·2024. KYRBS·BRFSS·NHANES는 Stage 2 계획.

② M1 메타 핵심은 R²(0.0306)가 아닌 Recall(0.9988) — 자기보고 5점 척도 R² 상한 ~0.49의 본질적 한계. 출력 패러다임은 예측 X · 도출(Aggregation) O.

③ 외부 변수 평균 ΔAUROC +0.0008 — 통계 유의·실무 미미. 가장 큰 효과 A4 +0.0054 PAPS. 정직 공개.

④ 외부 KNHANES 청소년 분율은 외부 참조 분포로만 활용 (Ecological Fallacy 회피, 외부 변수 25.7%<50%).

⑤ Kaggle 의료 데이터셋 출처 신뢰성 경고. 본 출품작 직접 사용 안 함.

⑥ A6 체형 부조화(AUROC=0.6114), A7 충치(AUROC=0.5383)는 신호부족으로 M1 메타 제외 — 6종 통합 후 재산출 예정.

⑦ 융합시스템(기미첨단 v3.0)은 청사진 — Stage 2·3 실측 v7.0~v8.0 예정.

⑧ 시도·성별 세분 격차는 KYRBS 원시(2026-06-15 신청) + 미수집 6종 통합 후 재산출.


◎ 융합시스템 진입 단계 — 추가 4항

⑨ Stage 2(KNHANES 19–39세 + BRFSS) 라벨 정의 미완 — 연결 함수 v7.0에서 공개.

⑩ Stage 3(만성질환 35–80세) NHANES + UCI Parkinson 코호트 필요 — 표본 외삽 위험 명시.

⑪ 진입 게이트 G1~G6 중 G3·G4·G5만 80% 충족 — G1·G2·G6는 2026 하반기~2028 진행.

⑫ 융합시스템 운영 비용 (서버·인력·거버넌스) 추정치는 부록 v6.1에 공개.