안녕하세요. 현재 강화학습(Stable Baselines3 / PPO)으로 비트코인 트레이딩 봇을 개발하고 있습니다.
문제는 데이터입니다. Yahoo Finance의 히스토리 데이터는 일간 데이터에는 괜찮지만 제가 만들고 있는 다중시간프레임(MTF) 전략에는 인트라데이(1H, 4H 등) 히스토리가 충분하지 않습니다.
특히 1시간 이하 또는 분 단위 데이터가 없어 직접 리샘플링해서 1H/4H/1D를 동시에 깔끔하게 맞추기가 어렵습니다. 타임스탬프 불일치나 리샘플링 과정에서 생기는 '룩어헤드' 간섭도 신경 쓰입니다.
제가 찾는 데이터 조건은 다음과 같습니다: 1) 최소 1시간 OHLCV(가능하면 15분·1분), 2) 2018 또는 2020년부터 현재까지의 연속된 히스토리, 3) CSV 파일이나 벌크 다운로드가 가능한 API(강한 속도 제한이 없는 것), 4) 1H·4H·1D를 맞출 때 타임스탬프가 엇갈리지 않는 정합성.
목표는 RSI와 변동성을 1H/4H/1D 세 타임프레임으로 보면서 PPO 에이전트를 학습시키는 것입니다. 인샘플 바이어스와 과적합을 피하려면 충분한 아웃오브샘플 기간이 필요한데, Yahoo는 인트라데이에서 그걸 충족시키지 못합니다.
혹시 무료나 저비용으로 쓸만한 소스 추천해주실 수 있나요? Binance API는 시도해봤지만 대량 히스토리 획득에 제약이 있더군요. Kaggle 데이터셋이나 CCXT 기반 스크립트 추천도 환영합니다. 미리 감사합니다.
🧐 배경 설명 및 요약
왜 이 글이 올라왔나: 작성자는 강화학습 기반 트레이딩 에이전트를 개발 중인데, 모델 학습과 검증에 필요한 고해상도 과거 가격 데이터가 부족해 도움을 구하고 있습니다. 일간 데이터는 충분해도 인트라데이(시간·분 단위) 히스토리가 없으면 다중시간프레임 전략 검증이 어렵습니다.
작성자가 실제로 묻고 걱정하는 것: 1) 충분한 기간(예: 2018·2020~현재)을 커버하는 분·시간 단위의 BTC OHLCV 데이터가 있는지, 2) 형식이 CSV이거나 벌크 다운로드가 가능한 API인지, 3) 서로 다른 타임프레임(1H/4H/1D)을 리샘플링해도 타임스탬프가 엇갈리지 않는 '정합성'이 있는지 등을 알고 싶어 합니다. 결국 목표는 학습 데이터와 검증(특히 아웃오브샘플) 세트를 확보해 과적합과 인샘플 편향을 줄이는 것입니다.
어려운 개념을 쉽게 정리하면: OHLCV는 각각 시가(Open), 고가(High), 저가(Low), 종가(Close), 거래량(Volume)을 의미합니다. 다중시간프레임(MTF)은 같은 자산을 여러 시간 단위(예: 1시간·4시간·1일)로 동시에 분석하는 방식입니다. 리샘플링은 분·시간 데이터를 모아 더 큰 시간 프레임의 캔들을 만드는 과정인데, 이 과정에서 타임스탬프가 맞지 않거나 미래 데이터를 잘못 사용하면(룩어헤드) 모델 성능이 부풀려질 수 있습니다.
PPO(정책 최적화 알고리즘)는 강화학습을 위한 알고리즘의 하나로, 학습·검증을 엄격히 나누지 않으면 성능 추정이 부정확해집니다. 그래서 충분한 아웃오브샘플 기간과 타임프레임 정합성이 중요합니다.
댓글 (0)
로그인하고 댓글을 작성하세요.
아직 댓글이 없습니다.