๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Project ESG+AI/Tech Basics

41์ผ์ฐจ. IT ๊ฐœ๋… ์ •๋ฆฌ

by GreenJin_S2 2025. 12. 9.


์ง€๋„ํ•™์Šต์—์„œ train ๊ณผ ๋”๋ถˆ์–ด์žˆ๋Š” test ์…‹์˜ ์—ญํ• ์€ ๋ฌด์—‡์ธ๊ฐ€?

 

๐Ÿ“Œ Test ์…‹์˜ ์—ญํ•  ํ•œ๋ˆˆ์— ์š”์•ฝ

์ง€๋„ํ•™์Šต์—์„œ Test ์…‹(Test Set)์€ ๋ชจ๋ธ์ด ์ฒ˜์Œ ๋ณด๋Š” ๋ฐ์ดํ„ฐ๋กœ ์„ฑ๋Šฅ์„ ‘์ตœ์ข… ํ‰๊ฐ€’ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค.
→ ์‰ฝ๊ฒŒ ๋งํ•ด, “์‹œํ—˜ ๋ฌธ์ œ” ๊ฐ™์€ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.


๐Ÿ“š Test ์…‹์˜ ๊ตฌ์ฒด์ ์ธ ์—ญํ• 

1) ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ํ‰๊ฐ€

Train ์…‹์œผ๋กœ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋ฉด, ๋ชจ๋ธ์€ ๊ทธ ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ ๋ฐฐ์šฐ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ ์‹ค์ œ ์‚ฌ์šฉ ํ™˜๊ฒฝ์—์„œ๋Š” ํ•™์Šต์— ์—†๋˜ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์˜ค์ฃ .
๋”ฐ๋ผ์„œ Test ์…‹์€ ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์—๋„ ์ž˜ ์ž‘๋™ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ์šฉ๋„๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋งŒ ๊ฐ€์ง€๊ณ  ์ •ํ™•๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉด, ์‹ค์ œ๋ณด๋‹ค ์ง€๋‚˜์น˜๊ฒŒ ์ข‹๊ฒŒ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ํ…Œ์ŠคํŠธ๊ฐ€ ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค.


2) Overfitting(๊ณผ์ ํ•ฉ) ์—ฌ๋ถ€ ํ™•์ธ

๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋„ˆ๋ฌด ์™ธ์›Œ๋ฒ„๋ฆฌ๋ฉด ์‹ค์ œ ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง‘๋‹ˆ๋‹ค.
Test ์…‹์—์„œ ์„ฑ๋Šฅ์ด ๋‚ฎ๊ฒŒ ๋‚˜์˜ค๋Š” ๊ฒฝ์šฐ ๊ณผ์ ํ•ฉ์„ ์˜์‹ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์˜ˆ)

  • Train accuracy: 98%
  • Test accuracy: 72%
    ๊ณผ์ ํ•ฉ ๊ฐ€๋Šฅ์„ฑ ๋งค์šฐ ๋†’์Œ

3) ์ตœ์ข… ๋ชจ๋ธ ์„ฑ๋Šฅ ๋ณด์ฆ

Train์—์„œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹, ๋ชจ๋ธ ๊ตฌ์กฐ ์กฐ์ • ๋“ฑ์„ ๋ชจ๋‘ ๋งˆ์นœ ๋’ค
๋งˆ์ง€๋ง‰์œผ๋กœ Test ์…‹์œผ๋กœ ์ตœ์ข… ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.
์ด ๊ฐ’์ด ๋…ผ๋ฌธ์ด๋‚˜ ๋ณด๊ณ ์„œ์— ๊ธฐ์žฌ๋˜๋Š” ์ง„์งœ ์„ฑ๋Šฅ ์ง€ํ‘œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.


๐Ÿ“ ๊ฐ„๋‹จ ๋น„์œ ๋กœ ์ดํ•ดํ•˜๊ธฐ

  • Train ์…‹ = ํ•™์Šต์šฉ ๊ต์žฌ
  • Validation ์…‹(์žˆ์„ ๊ฒฝ์šฐ) = ๋ชจ์˜๊ณ ์‚ฌ
  • Test ์…‹ = ๊ณต์‹ ์‹œํ—˜

Test ์…‹์€ ์ ˆ๋Œ€ ๊ณต๋ถ€(ํ•™์Šต)์— ์‚ฌ์šฉํ•˜๋ฉด ์•ˆ ๋ฉ๋‹ˆ๋‹ค.
์‹œํ—˜์ง€๋ฅผ ๋ฏธ๋ฆฌ ๋ณด๊ณ  ๊ณต๋ถ€ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.


๐ŸŽฏ ๊ฒฐ๋ก 

Test ์…‹์€ ๋ชจ๋ธ์˜ ‘์ง„์งœ ์‹ค๋ ฅ’์„ ํ™•์ธํ•˜๋Š” ์ตœ์ข… ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์ด๋ฉฐ, ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ํ•„์ˆ˜ ์š”์†Œ์ž…๋‹ˆ๋‹ค.

 

 

 

 


์ง€๋„ํ•™์Šต์—์„œ train ๊ณผ ๋”๋ถˆ์–ด์žˆ๋Š” test ์…‹์˜ ์—ญํ• ์€ ๋ฌด์—‡์ธ๊ฐ€? ํƒ€์ดํƒ€๋‹‰ ์˜ˆ์ œ๋ฅผ ํ•˜๋Š”๋ฐ, train.csv๋ฅผ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์„ ํ†ตํ•ด ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ „๋ถ€ int๋กœ ๋ณ€๊ฒฝํ•˜์˜€์–ด. ์ด๊ฒƒ๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๋ชจ๋ธ๊ณผ ๊ด€๊ณ„๋ฅผ ์„ค๋ช…ํ•ด์ค˜. ๋‚˜๋Š” ์ด ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ  ์‹ถ์–ด
 
 

๐Ÿ“Œ ์ „์ฒ˜๋ฆฌํ•œ train.csv(๋ชจ๋“  ๊ฐ’์„ int๋กœ ๋ณ€ํ™˜)์™€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ๊ด€๊ณ„

ํƒ€์ดํƒ€๋‹‰ ์˜ˆ์ œ์—์„œ train.csv๋ฅผ ์ „์ฒ˜๋ฆฌํ•˜์—ฌ ๋ชจ๋“  ๊ฐ’์„ int๋กœ ๋ฐ”๊ฟจ๋‹ค๋Š” ๊ฒƒ์€
**“๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒˆ์—ญํ•ด ์ค€ ๊ฒƒ”**๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ๋ฌธ์ž์—ด์ด๋‚˜ ์นดํ…Œ๊ณ ๋ฆฌ, ๊ฒฐ์ธก์น˜ ๋“ฑ์„ ๊ทธ๋Œ€๋กœ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜๊ธฐ ๋•Œ๋ฌธ์—
์ด ๊ณผ์ •์„ ๋ฐ˜๋“œ์‹œ ๊ฑฐ์ณ์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์•„๋ž˜์—์„œ ์ฐจ๊ทผ์ฐจ๊ทผ ์„ค๋ช…๋“œ๋ฆด๊ฒŒ์š”.


## ๐Ÿงฉ 1. ์™œ ๋ฐ์ดํ„ฐ๋ฅผ int๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ• ๊นŒ?

๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ(ํŠนํžˆ ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, SVM ๋“ฑ ์ „ํ†ต์  ๋ชจ๋ธ)์€
**์ˆซ์ž ํ˜•ํƒœ์˜ ํŠน์ง•(feature)**๋งŒ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ž˜์„œ ๋‹ค์Œ ๊ฐ™์€ ๊ฐ’์„ ๋ฐ”๋กœ ๋„ฃ์œผ๋ฉด ๋ชจ๋ธ์ด ์ดํ•ดํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

  • "male", "female"
  • "S", "C", "Q"
  • NaN(๊ฒฐ์ธก์น˜)
  • ๋ฌธ์ž์—ด๋กœ ๋œ ๋“ฑ๊ธ‰, ์ขŒ์„, ํ˜ธ์‹ค

โžก ๋”ฐ๋ผ์„œ ์ˆซ์ž(int, float)๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด ๋ชจ๋ธ์ด ํ•™์Šตํ•  ์ค€๋น„๊ฐ€ ๋๋‚˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.


## ๐Ÿง  2. int๋กœ ๋ณ€ํ™˜๋œ ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ์˜ ๊ด€๊ณ„

โœ” 1) ์ „์ฒ˜๋ฆฌ๋œ ๋ฐ์ดํ„ฐ = ๋ชจ๋ธ์˜ “์ž…๋ ฅ ์–ธ์–ด”

๋ชจ๋“  ๊ฐ’์ด ์ˆซ์ž๊ฐ€ ๋˜๋ฉด ๋ชจ๋ธ์€ ์ด๋ฅผ ์ˆ˜ํ•™์  ํŒจํ„ด์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์˜ˆ์‹œ)

  • Sex: male → 0, female → 1
  • Embarked: S → 0, C → 1, Q → 2

์ด๋ ‡๊ฒŒ ๋ฐ”๊พธ๋ฉด ๋ชจ๋ธ์€

“์—ฌ์„ฑ์ด ๋‚จ์„ฑ๋ณด๋‹ค ์ƒ์กด ํ™•๋ฅ ์ด ๋†’๊ตฌ๋‚˜”
“Embarked=C ์Šน๊ฐ์ด S๋ณด๋‹ค ์ƒ์กด๋ฅ ์ด ๋†’๋„ค”

์™€ ๊ฐ™์€ ํŒจํ„ด์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.


โœ” 2) int ๋ฐ์ดํ„ฐ๋Š” Feature Vector์ด๋ฉฐ, ๋ชจ๋ธ ์ž…๋ ฅ ๋ฒกํ„ฐ๊ฐ€ ๋œ๋‹ค

์ „์ฒ˜๋ฆฌ๋œ ํ•œ ์‚ฌ๋žŒ์˜ ์ •๋ณด๋Š” ๋‹ค์Œ์ฒ˜๋Ÿผ ๋ฒกํ„ฐ ํ˜•ํƒœ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

 
[3, 1, 22, 0, 1, 7.25, 0]
  • Pclass
  • Sex
  • Age
  • SibSp
  • Parch
  • Fare
  • Embarked

โžก ์ด ๋ฒกํ„ฐ๋Š” ๋ชจ๋ธ์ด ํ•™์Šต์— ์‚ฌ์šฉํ•˜๋Š” ์ˆซ์ž ๋ฐฐ์—ด์ž…๋‹ˆ๋‹ค.
โžก ๋ชจ๋ธ์€ ์ด ๋ฒกํ„ฐ๋“ค์„ ์ด์šฉํ•ด “Survived(0/1)”์„ ์˜ˆ์ธกํ•˜๋Š” ๊ทœ์น™์„ ๋ฐฐ์›๋‹ˆ๋‹ค.


โœ” 3) ๋ชจ๋ธ์€ ์ „์ฒ˜๋ฆฌ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ทœ์น™์„ ๋งŒ๋“ ๋‹ค

์˜ˆ๋ฅผ ๋“ค์–ด, ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ ๋ชจ๋ธ์€ ๋‹ค์Œ ๊ฐ™์€ ๋‚˜๋ฌด ๊ตฌ์กฐ์˜ ๊ทœ์น™์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  • Age < 12๋ฉด ์ƒ์กด ํ™•๋ฅ  ↑
  • Sex == female์ด๋ฉด ์ƒ์กด ํ™•๋ฅ  ↑
  • Pclass == 1์ด๋ฉด ์ƒ์กด ํ™•๋ฅ  ↑
  • Fare๊ฐ€ ๋†’์„์ˆ˜๋ก ์ƒ์กด ํ™•๋ฅ  ↑

โžก ์ด๋Ÿฐ ๊ทœ์น™์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์Šน๊ฐ์ด ์ƒ์กดํ• ์ง€ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ด ๋งŒ๋“ค์–ด์ง€๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.


## ๐ŸŽฏ 3. ์ฆ‰, ๋‹น์‹ ์€ ์ง€๊ธˆ ๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ์— ์•„์ฃผ ์ค‘์š”ํ•œ ์ฒซ ๋‹จ๊ณ„๋ฅผ ์ด๋ฏธ ์™„๋ฃŒํ•œ ๊ฒƒ

ํƒ€์ดํƒ€๋‹‰ ๋ชจ๋ธ ๊ตฌ์ถ• ๊ณผ์ •์€ ํฌ๊ฒŒ ์ด๋ ‡๊ฒŒ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

1) train.csv ์ „์ฒ˜๋ฆฌ (๋‹น์‹ ์ด ์ˆ˜ํ–‰ํ•œ ๋‹จ๊ณ„)

โœ” ๋ฌธ์ž์—ด → ์ˆซ์ž ๋ณ€ํ™˜
โœ” ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ
โœ” ํ•„์š” ์—†๋Š” ์—ด ์ œ๊ฑฐ
โœ” ๋ฐฐ์น˜ ํ˜•ํƒœ๋กœ ์ •๋ฆฌ

2) ๋ชจ๋ธ ์„ ํƒ (์˜ˆ: ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ ๋“ฑ)

3) ๋ชจ๋ธ ํ•™์Šต (fit)

์ •์ˆ˜๋กœ ๋ณ€ํ™˜๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ์—๊ฒŒ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค.

4) ํ‰๊ฐ€ (test.csv ๋˜๋Š” validation set)

5) ์ตœ์ข… ์˜ˆ์ธก ๊ฒฐ๊ณผ ์ œ์ถœ (Kaggle ์ œ์ถœ์šฉ)


## ๐Ÿ“˜ ์˜ˆ์‹œ ์ฝ”๋“œ(๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ๋กœ ๋ชจ๋ธ ๋งŒ๋“œ๋Š” ๊ฒฝ์šฐ)

 
from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split # X๋Š” ์ „์ฒ˜๋ฆฌ๋œ ํŠน์ง•, y๋Š” Survived X = train_df.drop("Survived", axis=1) y = train_df["Survived"] # ํ›ˆ๋ จ/๊ฒ€์ฆ ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌ X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42) # ๋ชจ๋ธ ์ƒ์„ฑ model = RandomForestClassifier(n_estimators=200, random_state=42) # ๋ชจ๋ธ ํ•™์Šต model.fit(X_train, y_train) # ์ •ํ™•๋„ ํ™•์ธ print("Validation Accuracy:", model.score(X_val, y_val))

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋‹น์‹ ์˜ ์ „์ฒ˜๋ฆฌ ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์ด ์™„์„ฑ๋ฉ๋‹ˆ๋‹ค.


## โœ” ๊ฒฐ๋ก 

์ „์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ train.csv๋ฅผ ๋ชจ๋‘ ์ˆซ์ž๋กœ ๋ฐ”๊พผ ๊ฒƒ์€
๋ชจ๋ธ์ด ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒˆ์—ญํ•ด ๋†“์€ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด์ œ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ค€๋น„๊ฐ€ ๊ฑฐ์˜ ๋๋‚œ ์ƒํƒœ์ด๋ฉฐ,
์›ํ•˜์‹ ๋‹ค๋ฉด ๋ชจ๋ธ ์„ ํƒ๋ถ€ํ„ฐ ์ฝ”๋“œ ์ž‘์„ฑ๊นŒ์ง€ ์ œ๊ฐ€ ํ•จ๊ป˜ ๋„์™€๋“œ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค!

 

 


์œ„์˜ ๊ณผ์ •์„ ๊ฑฐ์ณ, ์ตœ์ข… ํ…Œ์ŠคํŠธ๋ฅผ ํ•˜๋ฉด ์ •ํ™•๋„๊ฐ€ ๋‚˜์˜ค๋Š”๋ฐ ์ด์— ๋Œ€ํ•ด ํƒ€์ดํƒ€๋‹‰ ์ •ํ™•๋„๋ฅผ ์–ผ๋งˆ๋‚˜ ํ•ด์„œ ์บ๊ธ€์—์„œ ํ•ฉ๊ฒฉ์ด ๋ ๊นŒ?

 

๐ŸŽฏ ๊ฐ„๋‹จ ๊ฒฐ๋ก  — Kaggle ํƒ€์ดํƒ€๋‹‰์—์„œ ์–ด๋А ์ •๋„ ์ •ํ™•๋„๋ฅผ ๋ชฉํ‘œ๋กœ ํ• ๊นŒ?

  • **์ •๋‹ต(ํ•ฉ๊ฒฉ)**์ด๋ผ๋Š” ๊ณต์‹ ๊ธฐ์ค€์€ ์—†์Šต๋‹ˆ๋‹ค. ๋Œ€์‹  ๊ฒฝํ—˜์ ์œผ๋กœ๋Š” ์•ฝ 0.80 (80%) ์ •๋„๋ฉด ‘๋งค์šฐ ๊ดœ์ฐฎ์€ ์ ์ˆ˜’, 82% ์ด์ƒ์ด๋ฉด ์šฐ์ˆ˜ / ์ƒ์œ„๊ถŒ, 84% ์ด์ƒ์ด๋ฉด ๊ฑฐ์˜ ์ตœ์ƒ์œ„ ์ˆ˜์ค€์œผ๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค. kaggle.com+1

๐Ÿ“Œ ๋ฐฐ๊ฒฝ·๊ทผ๊ฑฐ (ํ•ต์‹ฌ ์š”์ง€)

  • ๊ธฐ๋ณธ ๋ฒ ์ด์Šค๋ผ์ธ(๋”๋ฏธ): ๋‹จ์ˆœํžˆ ๋‹ค์ˆ˜ ํด๋ž˜์Šค(์‚ฌ๋ง ๋“ฑ)๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋”๋ฏธ ๋ชจ๋ธ์˜ ์ •ํ™•๋„๋Š” ์•ฝ 61% ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค(์ฆ‰, ์•„๋ฌด๊ฒƒ๋„ ํ•˜์ง€ ์•Š์•„๋„ ~61% ๋‚˜์˜ต๋‹ˆ๋‹ค). ์ด ๊ฐ’๋ณด๋‹ค ํฌ๊ฒŒ ๋†’์ด๋ฉด ์˜๋ฏธ ์žˆ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. GitHub
  • ์‹ค๋ฌด/ํ•™์Šต ๊ด€์ : ๋งŽ์€ ํŠœํ† ๋ฆฌ์–ผ·์ปค๋„์—์„œ 0.78–0.82 ์ˆ˜์ค€ ๊ฒฐ๊ณผ๊ฐ€ ์ž์ฃผ ๊ด€์ฐฐ๋˜๋ฉฐ, 0.80 ์ด์ƒ์€ ‘์ž˜ํ–ˆ๋‹ค’๋Š” ํ‰์„ ๋ฐ›์Šต๋‹ˆ๋‹ค. 0.82~0.84์€ ์ƒ์œ„๊ถŒ, 0.85 ์ด์ƒ์€ ๋ฐ์ดํ„ฐ์…‹ ํŠน์„ฑ์ƒ ํฌ๊ท€(๋Œ€์ฒด๋กœ ๊ณผ์ ํ•ฉ·๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜ ์˜์‹ฌ)ํ•˜๋‹ค๊ณ  ๋ณด๋Š” ์˜๊ฒฌ์ด ๋งŽ์Šต๋‹ˆ๋‹ค. kaggle.com+2kaggle.com+2
  • ๋…ธํŠธ: ์ผ๋ถ€ ๋งค์šฐ ๋†’์€ ์ ์ˆ˜(์˜ˆ: 0.83 ์ด์ƒ)๋Š” ํŠน์ • ํžˆ๋“  ๋ฆฌํฌ(๋ฐ์ดํ„ฐ ์œ ์ถœ) ๋˜๋Š” ํ…Œ์ŠคํŠธ์…‹ ํŠน์„ฑ์„ ๊ณผ๋„ํ•˜๊ฒŒ ํ™œ์šฉํ•œ ํŠœ๋‹์— ๊ธฐ์ธํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋‹ค๊ณ  ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ๊ฒฝ๊ณ ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋†’์€ public LB ์ ์ˆ˜๋งŒ์œผ๋กœ ์•ˆ์‹ฌํ•˜๋ฉด ์•ˆ ๋ฉ๋‹ˆ๋‹ค. kaggle.com+1

โœ… ์‹ค์งˆ์  ๋ชฉํ‘œ ์„ค์ • ์ œ์•ˆ

  • ์ฒ˜์Œ ๋„์ „์ž: 75–80% ๋ชฉํ‘œ. ์ด ๋ฒ”์œ„๋Š” ๊ธฐ๋ณธ ์ „์ฒ˜๋ฆฌ(๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ, ๋ฒ”์ฃผํ˜• ์ธ์ฝ”๋”ฉ, ๊ฐ„๋‹จํ•œ ํ”ผ์ฒ˜์—”์ง€๋‹ˆ์–ด๋ง) + ๊ธฐ๋ณธ ๋ชจ๋ธ(๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ)๋กœ ์ถฉ๋ถ„ํžˆ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. Dataquest+1
  • ํ•œ ๋‹จ๊ณ„ ์ƒ์Šน(์ƒ์œ„ 20~5%): 80–82% ๋ชฉํ‘œ. ์ถ”๊ฐ€ ํ”ผ์ฒ˜์—”์ง€๋‹ˆ์–ด๋ง(Title ์ถ”์ถœ, Cabin ๊ทธ๋ฃนํ™”, Fare/Family ํŒŒ์ƒ ๋“ฑ), ๊ต์ฐจ๊ฒ€์ฆ, ์•™์ƒ๋ธ”์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. thatdatatho.com+1
  • ์ตœ์ƒ์œ„(์—ฐ๊ตฌ/ํŠœ๋‹): 82% ์ด์ƒ → ๋” ์ •๊ตํ•œ ์•™์ƒ๋ธ”·์Šคํƒœํ‚น·ํŠน์„ฑ ์„ ํƒ์„ ์ ์šฉํ•˜์ง€๋งŒ, ๊ณผ์ ํ•ฉ/๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜ ์กฐ์‹ฌ. ์ปค๋ฎค๋‹ˆํ‹ฐ ์ƒ์œ„๊ถŒ์€ ๋ณดํ†ต ์—ฌ๋Ÿฌ ๋ชจ๋ธ์˜ ์•™์ƒ๋ธ”๊ณผ ์„ฌ์„ธํ•œ ํ”ผ์ฒ˜ ์—”์ง€๋‹ˆ์–ด๋ง์œผ๋กœ ๋„๋‹ฌํ•ฉ๋‹ˆ๋‹ค. Medium+1

๐Ÿ”ง ์ ์ˆ˜ ์˜ฌ๋ฆฌ๋Š” ์‹ค์ „ ํŒ (์šฐ์„ ์ˆœ์œ„)

  1. ๊ฒฐ์ธก์น˜·์ด์ƒ์น˜ ์ฒ˜๋ฆฌ: Age ๊ฒฐ์ธก ๋ณด๊ฐ„(Title๋ณ„ ํ‰๊ท  ๋“ฑ), Fare ์ด์ƒ์น˜ ์ฒ˜๋ฆฌ.
  2. ๊ฐ•๋ ฅํ•œ ํ”ผ์ฒ˜์—”์ง€๋‹ˆ์–ด๋ง: Title(์˜ˆ: Mr/Miss/Master), FamilySize, Deck(Cabin ์•ž๊ธ€์ž), FareBin, AgeBin ๋“ฑ. thatdatatho.com
  3. ๊ต์ฐจ๊ฒ€์ฆ(CV): K-fold CV๋กœ ๋ชจ๋ธ ์•ˆ์ •์„ฑ ํ™•์ธ — public LB์— ๊ณผ์ ํ•ฉ๋˜์ง€ ์•Š๊ฒŒ. Dataquest
  4. ์•™์ƒ๋ธ”: ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ๋ธ(๋žœ๋คํฌ๋ ˆ์ŠคํŠธ, ๊ทธ๋ผ๋””์–ธํŠธ๋ถ€์ŠคํŠธ, ๋กœ์ง€์Šคํ‹ฑ)์„ ํ‰๊ท /์Šคํƒœํ‚น. kaggle.com
  5. ๋ ˆ์ด๋ธ” ๋ˆ„์ˆ˜ ํ™•์ธ: ํ…Œ์ŠคํŠธ์…‹ ์ •๋ณด(์ œ์ถœ ํŒŒ์ผ์—๋งŒ ์žˆ๋Š” ํŠน์„ฑ ๋“ฑ)๋ฅผ ์‚ฌ์šฉํ–ˆ๋Š”์ง€ ๋ฐ˜๋“œ์‹œ ์ ๊ฒ€. ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ๋Š” ์ข…์ข… ๋†’์€ ์ ์ˆ˜๊ฐ€ ๋ˆ„์ˆ˜ ๋•Œ๋ฌธ์ผ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฒฝ๊ณ ํ•ฉ๋‹ˆ๋‹ค. kaggle.com

๐Ÿ“ˆ ์ฐธ๊ณ : ์‹ค์ œ๋กœ ๋งŽ์ด ๋ณด๋Š” ๊ทผ๊ฑฐ๋“ค

  • ์ปค๋ฎค๋‹ˆํ‹ฐ ํ† ๋ก : “0.80์€ ์ข‹์€ ์ ์ˆ˜” / “82%๋Š” ๋งค์šฐ ์ข‹๋‹ค” ๊ฐ™์€ ๋‹ค์ˆ˜ ์˜๊ฒฌ. kaggle.com+1
  • ํŠœํ† ๋ฆฌ์–ผ·๋…ธํŠธ๋ถ ์˜ˆ์‹œ: ๋งŽ์€ ์ปค๋„๋“ค์ด ~0.78–0.81 ์ˆ˜์ค€์˜ ์ œ์ถœ ๊ฒฐ๊ณผ๋ฅผ ๊ณต์œ . kaggle.com+1

๊ฒฐ๋ก  ์š”์•ฝ

  • Kaggle ํƒ€์ดํƒ€๋‹‰์—๋Š” ํ•ฉ๊ฒฉ์„ ์ด ์ •ํ•ด์ ธ ์žˆ์ง€ ์•Š์Œ → ์‹ค๋ฌด ๋ชฉํ‘œ๋กœ๋Š” 80% ์ „ํ›„๋ฅผ ๊ธฐ์ ์œผ๋กœ ์‚ผ์œผ์„ธ์š”.
  • 61% (๋”๋ฏธ) → 75–80% → 80–82% → 82%+ ์ˆœ์œผ๋กœ ๋‚œ์ด๋„/๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์ปค์ง‘๋‹ˆ๋‹ค. GitHub+2Dataquest+2

์›ํ•˜์‹œ๋ฉด ์ง€๊ธˆ ์ง„ํ–‰ ์ค‘์ธ ์ „์ฒ˜๋ฆฌ(๋ชจ๋“  ๊ฐ’์„ int๋กœ ๋ณ€ํ™˜ํ•œ ์ƒํƒœ)๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ **์‹ค์ œ ํ•™์Šต ์ฝ”๋“œ(๋ฐ์ดํ„ฐ ๋กœ๋“œ → ์ „์ฒ˜๋ฆฌ ํ™•์ธ → ๋ชจ๋ธ ํ•™์Šต → CV ํ‰๊ฐ€ → ์ œ์ถœ ํŒŒ์ผ ์ƒ์„ฑ)**๊นŒ์ง€ ํ•œ ๋ฒˆ์— ๊ฐ™์ด ๋งŒ๋“ค์–ด ๋“œ๋ฆด๊ฒŒ์š”. ์–ด๋–ค ๋ชจ๋ธ ์„ ํ˜ธํ•˜์‹œ๋‚˜์š”? (๋กœ์ง€์Šคํ‹ฑ/๋žœ๋คํฌ๋ ˆ์ŠคํŠธ/XGBoost ๋“ฑ)

 

 

ํ™•์‹คํžˆ ์•Œ์•„๋‘๋ฉด ๋งŒ์‚ฌ๊ฐ€ ํŽธํ•ด์ง€๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ 10๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ | ์š”์ฆ˜IT