딥 러닝을 이용한 자연어 처리 입문

- 금요일

이론 수업 이거보고 하심

01. 자연어 처리(natural language processing)

자연어(natural language)란 우리가 일상 생활에서 사용하는 언어를 말합니다. 자연어 처리(natural language processing)란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말합니다.

자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야입니다.

최근 딥 러닝의 뛰어난 성능이 괄목할만한 성과를 얻으면서, 인공지능이 IT 분야의 중요 키워드로 떠오르고 있습니다. 자연어 처리는 기계에게 인간의 언어를 이해시킨다는 점에서 인공지능에서 가장 의미있는 연구 분야이면서도 아직도 정복되어야 할 산이 많은 분야입니다.

1. 판다스(Pandas)

판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리입니다. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져있습니다. 참고 할 수 있는 Pandas 링크는 다음과 같습니다.

링크 : http://pandas.pydata.org/pandas-docs/stable/

아나콘다를 설치하지 않았다면 아래의 커맨드로 Pandas를 별도 설치할 수 있습니다.

1. 머신 러닝 워크플로우(Machine Learning Workflow)

데이터를 수집하고 머신 러닝을 하는 과정을 크게 6가지로 나누면, 아래의 그림과 같습니다.

1. 언어 모델(Language Model)

언어 모델은 단어 시퀀스에 확률을 할당(assign) 하는 일을 하는 모델입니다. 이를 조금 풀어서 쓰면, 언어 모델은 가장 자연스러운 단어 시퀀스를 찾아내는 모델입니다. 단어 시퀀스에 확률을 할당하게 하기 위해서 가장 보편적으로 사용되는 방법은 언어 모델이 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 하는 것입니다.

1️⃣ 머신러닝(Machine Learning) 정의

머신러닝은 컴퓨터가 데이터에서 패턴을 학습하여 스스로 예측/판단할 수 있게 만드는 기술이에요.
전통적인 프로그래밍과 달리 명령어를 일일이 코딩하지 않고, 데이터를 통해 규칙을 자동으로 학습합니다.

💡 쉽게 말하면:

컴퓨터에게 정답을 알려주고, 그 데이터를 바탕으로 스스로 문제를 풀게 하는 것”

3️⃣ 머신러닝 종류

지도학습(Supervised Learning)
- 정답(라벨)이 있는 데이터를 학습
- 예시: 이메일 스팸 분류, 집 가격 예측
비지도학습(Unsupervised Learning)
- 정답 없이 데이터의 패턴이나 그룹을 찾아 학습
- 예시: 고객 군집화, 이상치 탐지
강화학습(Reinforcement Learning)
- 시행착오를 통해 보상을 최대화하도록 학습
- 예시: 게임 AI, 로봇 자율 주행

4️⃣ 머신러닝 과정

데이터 수집 – 학습할 데이터 확보
데이터 전처리 – 결측치 처리, 정규화, 특징 추출
모델 학습 – 알고리즘을 통해 패턴 학습
모델 평가 – 정확도, 오류율 등으로 성능 확인
예측/활용 – 학습한 모델로 실제 문제 해결

딥 러닝(Deep Learning)은 머신 러닝(Machine Learning)의 특정한 한 분야로서 인공 신경망(Artificial Neural Network)의 층을 연속적으로 깊게 쌓아올려 데이터를 학습하는 방식

인공 신경망은 수많은 머신 러닝 방법 중 하나입니다. 하지만 최근 인공 신경망을 복잡하게 쌓아 올린 딥 러닝이 다른 머신 러닝 방법들을 뛰어넘는 성능을 보여주는 사례가 늘면서, 전통적인 머신 러닝과 딥 러닝을 구분해서 이해해야 한다는 목소리가 커지고 있습니다. 딥 러닝을 이해하기 위해서는 우선 인공 신경망에 대한 이해가 필요한데, 여기서는 초기의 인공 신경망인 퍼셉트론(Perceptron)에 대해서 이해합니다.

1. 퍼셉트론(Perceptron)

퍼셉트론(Perceptron)은 프랑크 로젠블라트(Frank Rosenblatt)가 1957년에 제안한 초기 형태의 인공 신경망으로 다수의 입력으로부터 하나의 결과를 내보내는 알고리즘입니다. 퍼셉트론은 실제 뇌를 구성하는 신경 세포 뉴런의 동작과 유사한데, 신경 세포 뉴런의 그림을 먼저 보도록 하겠습니다. 뉴런은 가지돌기에서 신호를 받아들이고, 이 신호가 일정치 이상의 크기를 가지면 축삭돌기를 통해서 신호를 전달합니다.

2. 단층 퍼셉트론(Single-Layer Perceptron)

위에서 배운 퍼셉트론을 단층 퍼셉트론이라고 합니다. 퍼셉트론은 단층 퍼셉트론과 다층 퍼셉트론으로 나누어지는데, 단층 퍼셉트론은 값을 보내는 단계과 값을 받아서 출력하는 두 단계로만 이루어집니다. 이때 이 각 단계를 보통 층(layer)이라고 부르며, 이 두 개의 층을 입력층(input layer)과 출력층(output layer)이라고 합니다.

3. 다층 퍼셉트론(MultiLayer Perceptron, MLP)

XOR 게이트는 기존의 AND, NAND, OR 게이트를 조합하면 만들 수 있습니다. 퍼셉트론 관점에서 말하면 층을 더 쌓으면 만들 수 있습니다. 다층 퍼셉트론과 단층 퍼셉트론의 차이는 단층 퍼셉트론은 입력층과 출력층만 존재하지만, 다층 퍼셉트론은 중간에 층을 더 추가하였다는 점입니다. 이렇게 입력층과 출력층 사이에 존재하는 층을 은닉층(hidden layer)이라고 합니다. 즉, 다층 퍼셉트론은 중간에 은닉층이 존재한다는 점이 단층 퍼셉트론과 다릅니다. 다층 퍼셉트론은 줄여서 MLP라고도 부릅니다.

위와 같이 은닉층이 2개 이상인 신경망을 심층 신경망(Deep Neural Network, DNN) 이라고 합니다. 심층 신경망은 다층 퍼셉트론만 이야기 하는 것이 아니라, 여러 변형된 다양한 신경망들도 은닉층이 2개 이상이 되면 심층 신경망이라고 합니다.

지금까지는 OR, AND, XOR 게이트 등. 퍼셉트론이 제대로 된 정답을 출력할 때까지 저자가 직접 가중치를 바꿔보면서 적절한 가중치를 수동으로 찾았습니다. 하지만 이제는 기계가 가중치를 스스로 찾아내도록 자동화시켜야하는데, 이것이 머신 러닝에서 말하는 훈련(training) 또는 학습(learning) 단계에 해당됩니다. 앞서 선형 회귀와 로지스틱 회귀에서 보았듯이 손실 함수(Loss function)와 옵티마이저(Optimizer)를 사용합니다. 그리고 만약 학습을 시키는 인공 신경망이 심층 신경망일 경우에는 이를 심층 신경망을 학습시킨다고 하여, 딥 러닝(Deep Learning)이라고 합니다.

1️⃣ 딥러닝(Deep Learning) 정의

딥러닝은 머신러닝의 한 분야로, 인공신경망(Artificial Neural Network, ANN)을 기반으로 데이터를 학습하는 기술이에요.
“깊게(Deep)” 학습한다는 말처럼 여러 층(Layer)의 신경망을 통해 복잡한 패턴을 자동으로 학습합니다.

💡 쉽게 말하면:

“사람 뇌의 신경망 구조를 흉내 내어, 컴퓨터가 스스로 특징을 추출하고 판단하는 기술”

2️⃣ 머신러닝 vs 딥러닝

구분머신러닝딥러닝

특징 추출	사람이 직접 설계	신경망이 자동으로 추출
데이터 필요량	상대적으로 적음	많을수록 성능 향상
계산량	적음	매우 많음, GPU 필요
성능	단순 문제 적합	이미지, 음성, 자연어 등 복잡 문제 적합

예시:

머신러닝: 얼굴 사진에서 눈, 코, 입 위치를 사람이 지정 → 분류
딥러닝: 얼굴 사진을 그냥 넣으면 신경망이 스스로 특징 추출 → 분류

3️⃣ 딥러닝 구조

입력층(Input Layer) – 데이터 입력
은닉층(Hidden Layer) – 여러 층으로 구성, 특징을 점점 추출
출력층(Output Layer) – 예측/분류 결과 출력

💡 층이 많을수록 “딥(Deep)”하게 학습 가능

4️⃣ 딥러닝 활용 분야

컴퓨터 비전: 이미지 분류, 얼굴 인식, 자율주행
자연어 처리(NLP): 번역, 챗봇, 감정 분석
음성 처리: 음성인식, 음악 추천
게임/로봇: 강화학습과 결합해 자율 행동

2️⃣ 딥러닝의 핵심 구성 요소

(1) 인공신경망(Artificial Neural Network, ANN)

뉴런(Neuron)을 모방한 연산 단위로 구성됨
주요 구조:
1. 입력층(Input Layer): 데이터를 받아들이는 층
2. 은닉층(Hidden Layer): 데이터를 변환하며 특징을 추출
  - 층이 많을수록 딥러닝이 “깊게” 학습 가능
3. 출력층(Output Layer): 예측값이나 분류 결과 출력

(2) 활성화 함수(Activation Function)

뉴런이 다음 층으로 신호를 전달할지 결정하는 함수
주요 종류: ReLU, Sigmoid, Tanh 등
역할: 비선형성(Non-linearity) 부여 → 복잡한 패턴 학습 가능

(3) 손실 함수(Loss Function)

모델 예측값과 실제값 차이를 수치화
학습 목표: 손실 함수를 최소화하는 방향으로 가중치(W, Weight)를 조정

(4) 최적화 알고리즘(Optimizer)

손실 함수를 최소화하기 위해 가중치를 업데이트
대표적 알고리즘: SGD, Adam, RMSProp

3️⃣ 딥러닝 학습 과정

순전파(Forward Propagation): 입력 데이터를 신경망에 넣고 출력 계산
손실 계산(Loss Calculation): 예측값과 실제값 비교
역전파(Backpropagation): 오차를 각 층의 가중치에 맞게 전달하며 업데이트
가중치 업데이트(Weight Update): 최적화 알고리즘 사용
반복(Epochs): 데이터 전체를 여러 번 학습하여 성능 향상

💡 즉, 딥러닝은 데이터를 넣고, 신경망이 스스로 특징을 학습하며, 반복적으로 성능을 개선하는 과정입니다.

4️⃣ 딥러닝 모델 종류

모델특징활용 분야

MLP (Multi-Layer Perceptron)	기본 신경망, 완전 연결층(Fully Connected)	숫자 분류, 간단한 데이터
CNN (Convolutional Neural Network)	이미지 데이터에 특화, 특징 추출 자동	이미지 분류, 객체 탐지, 자율주행
RNN (Recurrent Neural Network)	시퀀스 데이터 처리, 순환 구조	자연어 처리, 시계열 예측
LSTM / GRU	RNN 개선, 장기 의존성 문제 해결	번역, 음성인식, 주가 예측
Transformer / BERT / GPT	Attention 메커니즘, 병렬 처리 가능	번역, 챗봇, 대규모 NLP 모델

5️⃣ 딥러닝의 특징

자동 특징 추출: 사람이 직접 특징(feature)을 설계하지 않아도 됨
대용량 데이터와 GPU 최적화: 데이터가 많을수록 성능 향상
복잡한 문제 해결 가능: 이미지, 음성, 자연어 등 복잡한 패턴 학습

6️⃣ 딥러닝 활용 사례

컴퓨터 비전: 얼굴 인식, 의료 이미지 진단, 자율주행
자연어 처리: 번역, 챗봇, 문서 요약, 감정 분석
음성 처리: 음성 인식, 음악 추천
게임·로봇: 강화학습 기반 AI, 자율 로봇

3. 워드 임베딩(Word Embedding)

단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩(word embedding)이라고 합니다. 그리고 이 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과라고 하여 임베딩 벡터(embedding vector)

09. 워드 임베딩(Word Embedding)

텍스트를 컴퓨터가 이해하고, 효율적으로 처리하게 하기 위해서는 컴퓨터가 이해할 수 있도록 텍스트를 적절히 숫자로 변환해야 합니다. 단어를 표현하는 방법에 따라서 자연어 처리의 성능이 크게 달라지기 때문에 단어를 수치화 하기 위한 많은 연구가 있었고, 현재에 이르러서는 각 단어를 인공 신경망 학습을 통해 벡터화하는 워드 임베딩이라는 방법이 가장 많이 사용되고 있습니다.

'Project ESG+AI > Tech Basics' 카테고리의 다른 글

47일차. IT 개념 정리 (0)	2025.12.17
46일차. IT 개념 정리 (0)	2025.12.16
43일차. IT 개념 정리 (1)	2025.12.11
41일차. IT 개념 정리 (0)	2025.12.09
40일차. IT 개념 정리 (0)	2025.12.08

Net:SEED Lab 🌱🤍

44일, 45일차. IT 개념 정리

01. 자연어 처리(natural language processing)

1. 판다스(Pandas)

1. 머신 러닝 워크플로우(Machine Learning Workflow)