2024년, 대학교 4학년 때 진행했던 세미 프로젝트..! 

이걸로 대학 데이터 분석 경진대회 대상을 받았다 ㅎ

전공자들 사이에서 유일한 비전공자로 대상..! 뿌듯하긴 했지만 지금 이 결과물을 보았을때는... 참 창피하다..!

그래도 기록용으로 업로드!

📌 프로젝트 개요

  • 진행 기간: 2024년 7월 ~ 2024년 8월
  • 프로젝트 목적:
    KONEX 시장은 중소기업을 지원하는 제3시장으로 출범했지만, 낮은 유동성 빠른 상장폐지율 등의 문제가 존재합니다.
    본 프로젝트에서는 KONEX 상장기업의 코스닥 이전상장 및 상장폐지를 예측하는 머신러닝 모델을 개발하여
    시장 안정성과 기업 성장 가능성을 평가하고, 투자 리스크를 줄이는 것을 목표로 합니다.

📊 데이터 준비 및 분석

🔹 (1) 사용 데이터

본 프로젝트에서는 재무 및 주가 데이터를 활용하여 KONEX 기업의 시장 동향을 분석했습니다.

  • 사용 데이터 출처: 한국거래소(KRX)
  • 데이터 범위: KONEX 출범(2013년 7월) ~ 2022년
  • 사용한 주요 데이터 유형:
    • 📊 재무 데이터: 총매출액, 순이익, 부채비율, ROE 등
    • 📈 주가 데이터: 거래량, 시가총액, 변동성 등
    • 📌 상장폐지 데이터: KONEX 시장에서 상장폐지된 기업 목록

🔹 (2) 데이터 전처리

 클래스 불균형 해결: SMOTE 방식의 오버샘플링 적용
 데이터 분할: 80% 학습(Train) / 20% 테스트(Test)
 결측치 처리: 재무 데이터의 누락된 값을 적절한 방식으로 보완

🔹 (3) 탐색적 데이터 분석 (EDA)

 이전상장 기업 vs. 상장폐지 기업 비교

  • 📈 이전상장 기업: 매출액 및 영업이익 증가, ROE 상승
  • 📉 상장폐지 기업: 부채비율 200% 이상, 자본잠식 빈번

 업종별 분석

  • 정보통신업 및 과학기술업의 이전상장 비율이 높음
  • 건설업에서는 상장폐지가 가장 많이 발생

 주가 및 거래량 분석

  • 이전상장 기업: 높은 거래량 유지
  • 상장폐지 기업: 거래량 거의 없음, 주가 지속적 하락

🏗 모델링 방법 및 결과

🔹 (1) 머신러닝 모델링 기법

  • 앙상블 학습 (Ensemble Learning)
    • CatBoost, XGBoost, RandomForest 등의 모델을 결합하여 최적의 예측 모델 생성
  • 단일 모델 기반 학습
    • Decision Tree, KNN, Naïve Bayes, SVM 등 개별 모델 평가

🔹 (2) 모델 성능 비교

모델정확도 (Accuracy)FNR (오류율)

Ensemble Voting Model 98.34% 0.017
CatBoost 98.07% 0.02
XGBoost & RandomForest 97.79% 0.023
Naïve Bayes & SVM 60~70% 0.339+

📌 결론: Ensemble Voting Model이 가장 높은 성능을 보이며, 상장폐지 기업을 예측하는 데 최적의 모델임! 🎯


🔍 결론 및 시사점

🎯 주요 변수 중요도

  •  가장 중요한 변수: 평균 거래량(Avg Volume), 매출액 증가율, 부채비율
  •  중요도가 낮은 변수: 평균 종가(Avg Close), 연차

🏆 프로젝트 성과

✅ KONEX 시장에서 기업의 코스닥 이전상장 및 상장폐지를 예측하는 유용한 모델을 개발
✅ 높은 정확도의 머신러닝 모델을 통해 투자 리스크를 낮추고, 기업 성장 가능성을 예측 가능


🔮 향후 연구 방향

📌 KONEX 데이터 부족 문제 해결 (추가 데이터 축적 필요)
📌 상장 시점을 고려한 시계열 분석 기법 추가
📌 다른 증권시장과의 비교 연구 진행


🔮 느낌점

- 일단 결측치가 너무 많았고, 애초에 데이터의 수가 너무 적었다. 그래서 어떤 방법으로 데이터 증강을 할지 고민했는데 결국 smote로 데이터를 증강했다. 증강하고 난 다음에는 파생변수를 어떻게 만들지에 대해서 고민이 많았다. 나는 정치외교학과이기 때문에 경제나 주식 시장 이런 것들에 문외한이었기 때문에 내 경영학과 짱친에게 커피 사주고 밥 사주며 물어가며 파생변수를 만들었던 것 같다.

그 다음 어려움은....! 너무 성능이 잘 나왔다는 것... 깨끗한 데이터들이었기도 하고 그래서 그럴 수 있겠다 싶었지만 전부 Accuracy가 90점이 넘는건... 생각하지도 못했다. 

하지만..? 포기하지 않구..ㅎ 성능을 더 잘 높일 수 있는 방법? 하면서 연계전공 수업시간에서 배운 머신러닝 앙상블을 떠올려서 그 기법을 적용했다. 결론은 앙상블 모델이 성능이 더 잘 나왔다는 것. 

대학원 입학 전 학부시절 치고는 나쁘지 않았던 것 같다. ㅎ

이건 내가 학부 시절 데이터분석에 관심이 있었을 때 잠깐 끄적여본거다. 그냥 추억겸... 예전의 내가 얼마나 허접했는지(?) 기억하기 위해서 새로 만든 이 블로그에 업로드 해보았다 ㅎㅎ

📊 서울시 신용카드 사용 추이와 사회적 요소의 연관성 분석

📌 프로젝트 개요

  • 진행 기간: 2023년 8월 
  • 사용 데이터: 2023년 당시 공공데이터포털에서 수집한 데이터
  • 연구 목적: 서울시의 신용카드 사용 추이와 사회적 요소(지역, 성별, 연령) 간의 관계를 분석하여 가설을 검증

1️⃣ 연구 배경 및 목표

🏦 연구 배경

  • 신용카드 사용량 증가 경제 성장에 따른 사회적 변화의 연관성에 대한 궁금증
  • 신용카드 사용 데이터가 소비 패턴을 설명하는 주요 지표가 될 수 있음

🎯 연구 목표

  • 카드 사용량을 소비 패턴의 주요 지표로 간주하여 서울시 지역별 소비량 추이를 분석
  • 여성의 경제적 지위 변화가 카드 사용 추이에 미치는 영향을 검증

2️⃣ 연구 가설

🏙️ 가설 1: 서울시 지역구별 카드 이용 건수 및 비용

🔹 가설 1-1: 카드 이용 건수가 가장 많은 지역구는 강남구일 것이다.

🔹 가설 1-2: 카드 이용 건수가 많은 지역구(강남구)의 카드 이용 건수와 비용은 비례할 것이다.


👩‍💼 가설 2: 카드 이용과 여성 경제권의 관계

🔹 가설 2-1: 여성 인구가 많은 지역구에서 미용 관련 비용이 높을 것이다.

🔹 가설 2-2: 연령이 증가할수록 경제적 주도권을 가진 여성의 카드 사용 비중이 높아질 것이다.


3️⃣ 가설 검증 및 분석 결과

📌 가설 1-1: 카드 이용 건수가 가장 많은 지역구는 강남구일 것이다.  (기각)

  • 결과: 카드 이용 건수가 가장 많은 지역은 마포구로 나타남
  • 강남구는 카드 이용 건수 기준 5위(320건)를 기록
  • ➡️ 카드 이용 건수가 가장 많은 지역구는 강남구라는 가설은 기각됨

📌 가설 1-2: 카드 이용 건수가 많은 지역구는 강남구이며, 카드 이용 건수와 비용이 비례할 것이다.  (기각)

  • 결과:
    • 강남구와 마포구의 카드 이용 금액이 다른 지역보다 높음
    • 그러나 카드 이용 건수와 이용 비용은 반비례 관계를 보임

  • ➡️ 카드 이용 건수와 비용이 비례한다는 가설은 기각됨

📌 가설 2-1: 여성 인구가 많은 지역구의 미용 비용이 높을 것이다.  (기각)

  • 결과:
    • 여성 비율이 높은 지역: 구로구, 서초구
    • 미용 관련 지출이 많은 지역: 용산구, 은평구

  • ➡️ 여성 비율과 미용 관련 지출 사이에 유의미한 상관관계가 없음

📌 가설 2-2: 연령이 증가할수록 경제적 주도권은 여성이 가질 것이다. 🟡 (보류)

  • 결과:
    • 30대~50대 연령층에서 여성의 카드 소비 비율이 높음
    • 그러나 전체적으로 남성의 카드 소비 금액이 더 높게 나타남
  • ➡️ 여성의 경제적 주도권을 카드 소비 금액만으로 판단하기에는 한계가 있음 → 가설 보류

4️⃣ 최종 결론

  • 데이터 기반 분석을 통해 설정한 가설 중 모두 기각되거나 보류
  • 카드 이용량과 소비 패턴을 분석하는 과정에서 지역, 성별, 연령별 소비 패턴이 예상과 다르게 나타남
  • 추가적인 변수와 데이터를 고려하여 보다 정교한 분석이 필요함

5️⃣ 한계점 및 향후 연구 방향

🔍 한계점

  • 분석 대상이 서울시 데이터에 한정되어 있어 전국적인 소비 패턴을 반영하기 어려움
  • 신용카드 데이터만 활용하여 현금, 간편결제 등 다른 지불 수단을 고려하지 않음
  • 여성의 경제적 주도권을 단순히 카드 소비로만 판단하는 데 한계가 있음

🚀 향후 연구 방향

  • 더 많은 변수를 고려한 다차원 분석 (예: 소득 수준, 가계 소비 패턴 등)
  • 지역별 소비 트렌드와 라이프스타일에 대한 심층 조사
  • 추가적인 데이터 수집을 통한 가설 보완 및 재검증

🔗 참고 자료

+ Recent posts