데이터 분석가 Damla's blog

[Project] 텍스트 마이닝으로 본 고객 리뷰 분석 사례: Delivered Korea를 중심으로 본문

파이썬(Python)/ML & Deep Learning

[Project] 텍스트 마이닝으로 본 고객 리뷰 분석 사례: Delivered Korea를 중심으로

DA Damla 2025. 4. 12. 15:10

빅데이터, 텍스트 마이닝(Text Mining), 자연어 처리(NLP), 그리고 감정 분석(Sentiment Analysis) 분야에 관심 있는 분들과 저의 경험을 공유하고자 미니 프로젝트를 진행함. 데이터 분석을 공부하면서, 실제 데이터를 어떻게 활용할 수 있을까와 적은 데이터라도 수집부터 분석, 인사이트 도출까지 전체적인 사이클을 경험하기 위한 목적에서 진행하였음.

 

아래 분석은 국제 배송대행 서비스인 Delivered Korea의 리뷰 데이터를 수집하여 텍스트 마이닝 기반의 감정 분석을 진행하였으며, 해당 분석은 비정형 데이터 분석, 텍스트 분석(Text Analysis), 셀프 스터디 데이터 분석을 진행하려는 분들이 참고할 수 있을 것.

 

또한, 이 글은 데이터 분석을 공부하고 있는 분들, 특히 아래와 같은 분들을 핵심 타겟으로함

  • 데이터 관련 전공자가 아니더라도
  • 현업에서 데이터 관련 업무를 준비하거나 전환을 고민하는 분들
  • 텍스트 마이닝 프로젝트 사례나 파이썬 실전 프로젝트를 찾고 있는 분들

✔ 프로젝트 개요

  • 분석 대상: Trustpilot에 공개된 Delivered Korea 사용자 리뷰
  • 분석 목적: 감정 분석 기법을 사용하여 고객의 긍정/부정 피드백을 파악하고, 부정 리뷰에서 서비스 개선 인사이트를 도출
  • 사용한 기술/도구: Python, BeautifulSoup, pandas, VADER, BERT, WordCloud, matplotlib 등
  • 프로젝트 기간: 2025년 3월 30일 ~ 4월 1일 (3일간)

📌 본 분석은 연구 및 비상업적 교육 목적으로, 공개된 사용자 리뷰 데이터를 수집하여 진행하였음 (데이터 출처 : Trustpilot)


🔍 데이터 수집 및 전처리

웹 스크래핑(Web Scraping) 기법을 통해 Trustpilot에 게시된 리뷰를 수집하였고, 이후 Python pandas를 활용해 텍스트 전처리 및 데이터 전처리를 진행함:

  • 총 리뷰 수는 약 200건, 기간은 2022년 1월 ~ 2025년 3월임
  • 별점 분포는 5점이 가장 많았고, 부정 리뷰(1~2점)는 전체의 약 9%로 집계됨.

🤖 감정 분석: VADER vs BERT

이 프로젝트의 핵심은 자연어 처리 기반의 텍스트 마이닝을 활용한 감정 분석(Sentiment Analysis)임.

VADER와 BERT 두 가지 모델을 사용하여 비교 분석 진행함. 비교를 통하여 속도와 해석 편의성 때문에 VADER를 최종 선택했으며, 별점을 기준으로 분석 결과를 튜닝해 정밀도를 높였음.

📊 모델별 성능 비교

  • VADER (튜닝 전): 91.67%
  • VADER (튜닝 후): 95.42%
  • BERT: 90.00%

📈 추가 분석: 시계열 · 워드클라우드 · 키워드 분석

✅ 시계열 분석

리뷰의 감정 점수 변화를 시계열로 분석한 결과, 특별한 추세는 없었으나 특정 시점에 리뷰가 몰리는 경향이 있었음.

✅ 워드클라우드 분석

  • 긍정 리뷰에서는 fast, great, easy 등의 키워드가 도출되어, 빠른 배송 및 간편한 서비스 절차에 대한 만족이 드러났음.
  • 부정 리뷰에서는 time, days, package, fee, slow 등 배송 및 포장 관련 문제점이 주요 키워드로 나타났음.

✅ 고객 불만 키워드

가장 많이 언급된 불만 키워드는 item, package, number 등이었으며, 이는 상품 누락, 오배송, 추적번호 문제 등과 관련이 깊었음.


📌 개선을 위한 제안 (Action Items)

  • 배송 지연 원인에 대한 안내 강화 및 실시간 알림 기능 제공
  • 고객 응대 시스템 개선 (예: 챗봇 도입, 응답 기준 수립)
  • 리뷰 기반 마케팅 콘텐츠 활용: 긍정 키워드 강조한 프로모션
  • 사용자 리뷰 데이터 기반 VOC(Voice of Customer) 시스템 설계

🧠 정리하며

해당 미니 프로젝트는 아래와 같은 의미를 가짐

  1. 소규모 리뷰 데이터(약 200건)를 가지고 고객의 소리(Voice of Customer)를 분석하여 인사이트를 도출한 실전 예시임
  2. 텍스트 마이닝, 감정 분석, 웹 스크래핑, 자연어 처리, 비정형 데이터 분석, 데이터 시각화 등 데이터 분석 공부를 하시는 분들이 직접 따라하며 실력을 키울 수 있도록 전체적인 데이터 분석의 사이클을 진행했다는 점에서 의미가 있음

더 자세한 분석 내용과 코드는 작성자(본인)의 >> github <<에서 확인 가능함


📚 참고 정보

  • 분석자: DS_Yujin LEE
  • 분석 기간: 2025.03.30 ~ 2025.04.01 (3일간)
  • 데이터 출처: Trustpilot 리뷰 페이지