머신러닝은 컴퓨터가 명시적으로 프로그래밍되지 않고도 학습할 수 있도록 하는 연구 분야입니다.
기존의 프로그래밍은 컴퓨터가 수행할 모든 단계를 명시적으로 작성하는 방식입니다.
예: if 문을 사용해 특정 조건에 따라 동작하도록 코드 작성.
머신러닝**은 데이터를 통해 컴퓨터가 경험적으로 학습하고, 스스로 최적의 솔루션을 찾도록 합니다.
주요 두가지 유형
1.Supervised Learning (지도 학습):
레이블이 포함된 데이터를 사용해 모델을 훈련.
예: “이 이미지는 고양이다.“라는 정답(레이블)을 제공.
활용 사례: 이미지 분류, 음성 인식, 스팸 필터링.
2. Unsupervised Learning (비지도 학습):
레이블이 없는 데이터를 사용해 숨겨진 패턴이나 군집을 탐색.
예: 데이터 클러스터링(군집화)
활용 사례: 고객 세분화, 추천 시스템.
지도 학습(Supervised Learning) 요약
지도학습이란?
지도학습은 컴퓨터에게 데이터를 학습시키는 과정에서 데이터에대한 레이블을 제공하는 방식 학생에게 선생님이 정답을 가르치는 것처럼, 컴퓨터에게 이것은 무엇인지 알려주는것 학습데이터를 제공하면서 각 데이터에 대한 정답을 함께 제공
지도학습의 과정
훈련데이터 컴퓨터에게 많은 데이터를 보여주고, 각 데이터가 어떤 카테고리에 속하는지 정답을 레이블로 표시 eg) 여로 고양이 사진과 함께 "이것은 고양이 " 라는 레이블을 제공
모델 학습 컴푸터는 제공된 데이터를 기반으로 패턴을 학습 레이블이 없는 새로운 데이터를 받았을때, 학습한 내용을 기반으로 데이터를 분류 eg) 새로운 이미지를 보고 "이것은 고양이" 라고 예측
테스트 데이터 학습하지않은 새로운 데이터를 제공하여 모델이 제대로 예측하는지 테스트 eg) 학습이 사용되지 않은 강아지 이미지를 보여주고, "이것은 강아지" 라고 예측하는지 확인
지도학습의 주요유형
분류 명확한 그룹 (카테고리) 으로 데이터를 분류 eg) 이메일 스팸 필터링: "스팸" 또는 "스팸아님" 으로 분류
특징: 데이터가 이산적임 eg) "고양이","강아지","새"같은 명확한 그룹
회귀 데이터를 기반으로 연속적인 값을 예측. eg)경력에 따른 연봉예측: 경력(독립변수)에 따라 연봉(종속변수)을 예측
특징: 데이터가 연속적임(Continuous) eg) 키, 체중, 연봉 등
비지도 학습(Unsupervised Learning) 요약
비지도 학습이란?
비지도 학습은 레이블이 없는 데이터를 사용하여 학습하는 머신러닝 방식입니다. 데이터가 정리되지않고 구조화되지 않은 상태로 제공되며, 컴퓨터는 이데이터를 분석하여 내재된 패턴이나 구조를 찾아냅니다. 지도학습과 달리 정답이 제공되지않으며, 컴퓨터가 스스로 데이터를 분류하거나 군집화 하려고 시도합니다.
비지도 학습의 과정
컴퓨터는 레이블이 없는 데이터를 받습니다.
데이터를 분석하여 패턴과 구조를 찾습니다.
데이터를 유사한 특성에 따라 클러스터(군집)로 나눕니다.
비지도 학습의 주요 유형
클러스터링(Clustering)
데이터를 유사한 그룹으로 나눕니다. 각 데이터는 특성(feature)을 기반으로 그룹화 됩니다. 결과적으로, 데이터는 여러 클러스터로 나뉘며, 같은 클러스터 내 데이터는 서로유사합니다.
eg) 소셜 네트워크 분석( Facebook 예시): Facebook은 사용자 간의 관계를 분석하여 소셜 그룹을 파악합니다. 사용자 A와 B가 서로 친구이고, A가 C를 태그했다면 , A, B, C 는 같은 소셜그룹에 속할 가능성이 높습니다.
비지도 학습을 통해서 소셜 그룹을 클러스팅하여 "알수도 있는친구(People You May Know)" 기능을 제공합니다.
같은 그룹에 있지만 아직 연결되지 않은 사람들을 추천하여 사용자간 상호작용을 증가시킵니다.
eg) 고객 세분화: 기업이 고객 데이터를 분석하여 구매 패턴이나 선호도에 따라 고객을 여러그룹으로 나눕니다. 한 그룹은 고급 상품 구매를 선호하고, 다른그룹은 저가상품구매를 선호
클러스터링의 과정
컴퓨터는 데이터를 분석하여 클러스터를 형성합니다.
eg) 데이터가 그래프로 표현될때, 컴퓨터는 데이터를 분류할수 있는 구분선을 찾아내어 두개이상의 그룹으로 나눕니다.
같은 클러스터에 속한 데이터는 더유사한 특성을 가지며, 서로 다른 클러스터의 데이터와는 차이가 있습니다.
클러스터링의 한계
데이터의 그룹화가 항상 정확하지 않을수 있음 클러스터링의 결과는 데이터의 품질과 특성선택에 크게 의존 때로는 사람이 결과를 검토하고 조정해야함
비지도 학습의 응용
추천시스템: Youtube, Netflix 는 사용자 행동 데이터를 분석하여 유사한 취향의 사용자 그룹을 형성 같은그룹에 속한 사용자들이 좋아하는 콘텐츠를 추천