머신러닝 모델을 가장 무작위에 가깝고 말도 안 되는 상관관계들로 학습시키는 연재를 해볼까 생각 중이다.
예를 들어 독일 출산율이 오를 때 매수하거나, 뉴욕의 기온이 10도 아래로 떨어지면 매도하는 식의 엉뚱한 규칙들을 집어넣어 보는 거다 😂
진짜로 작동하는지 결과를 있는 그대로 공개하고, 작동하지 않으면 그 이유까지 보여주려고 한다. 스포일러: 학계에도 이런 터무니없는 상관관계를 다룬 논문들이 있고, 일부는 의외로 버티는 경우가 있다.
난 S&P를 이길 거다. 가장 미친 아이디어들을 댓글로 달아줘👇👇👇👇
🧐 배경 설명 및 요약
왜 이런 글이 나왔나: 글쓴이는 호기심과 실험 정신으로 '말도 안 되는' 외부 변수들을 머신러닝 입력으로 넣어 실제 성과가 나오는지 확인해보려 한다. 자극적인 제목과 자신감 있는 한마디(“난 S&P를 이긴다”)로 관심을 끌면서, 결과를 투명하게 공개하겠다는 의도를 보이고 있다.
작성자가 실질적으로 묻고 걱정하는 것: 이런 터무니없는 변수들이 단순한 우연의 상관관계인지, 아니면 실제로 예측력이 있는지 알고 싶어 한다. 또한 실험 과정에서 과적합(overfitting)이나 데이터 스누핑(data snooping) 같은 함정에 빠지지 않을지 우려하고, 실패와 성공 모두를 공개할 생각이다.
핵심 개념을 쉽게 설명하면 다음과 같다. 1) 상관관계 vs 인과관계: 두 변수가 함께 움직여도 한쪽이 다른 쪽을 일으킨다고 보긴 어렵다. 2) 과적합(오버피팅): 모델이 과거 데이터에 지나치게 맞춰져 미래에서는 성과가 나지 않을 수 있다. 3) 백테스트의 한계: 과거 성과가 미래 성과를 보장하지 않으므로 검증과 샘플 분할이 중요하다. 4) HMM(히든 마르코프 모델) 같은 모델은 상태 전이와 관측을 이용해 복잡한 패턴을 잡아내며, 퀀트들은 때때로 상식적으로 이상한 수많은 팩터를 만들어 테스트하기도 한다. 5) FinBERT 등 금융 특화 언어모델은 실적 발표나 콜에서 감성·신뢰도를 추출하는 데 쓰인다.
요약하면: 이 실험은 재미와 학습 목적 모두에서 의미가 있지만, 결과 해석 시 우연성과 과적합을 항상 의심해야 한다. 독자들은 실험의 재현성, 검증 방법, 그리고 실패 사례까지 함께 보는 것을 우선적으로 확인하면 좋다.
댓글 (0)
로그인하고 댓글을 작성하세요.
아직 댓글이 없습니다.