콘텐츠로 건너뛰기
Reddit

무료로 신뢰할 수 있는 과거 코인 데이터 소스 있을까요? 🤔

r/Daytrading 조회 36
원문 보기 →
💡

아직까지는 대부분 직접 데이터 수집 파이프라인을 구축하는 듯합니다. 거래소 API만으로는 데이터 정확성과 연속성에서 문제가 생길 수 있기 때문입니다. 유의미한 데이터를 확보하려면 오픈소스 생태계 상황과 가능한 우회법을 파악해보는 것이 중요합니다.

최근 백테스트 용도로 과거 코인 거래 데이터를 모으는 파이프라인을 찾고 있는데요, 유료 데이터 제공업체는 제외하고 오픈소스 범위 내에서 가능한 솔루션을 찾고 있습니다.

필요한 범위는 다음과 같아요:

- 자산: 암호화폐
- 시장: 현물 + 무기한 선물
- 거래소: 바이낸스, 바이비트, OKX, 코인베이스
- 데이터 종류: 과거 체결 데이터, OHLCV (1분 / 5분 기준)
- 실시간이나 주문 기능은 필요 없음, 단순 연구 및 백테스트 목적
- FOSS(오픈소스) 라이선스 우선

직접 ccxt나 각 거래소 SDK로 API 호출해 데이터를 쌓아봤지만, 현실적으로 이런 문제들이 생기네요:

- 특정 시점 API 응답 장애
- 중간에 데이터 구간이 비는 경우
- 재시도 시 중복 · 엉킨 데이터 발생
- 거래소 측에서 과거 데이터를 조정하는 경우도 있음

재시도 로직이나 중복 제거 작업으로 어느 정도 커버는 되지만, 장기 구간에서는 여전히 신뢰성이 떨어져 불안합니다.

혹시 이런 부분까지 감지하고 안전하게 과거 데이터를 처리해주는 오픈소스 프로젝트가 있을까요? 아니면 다들 그냥 각자 알아서 ingestion 파이프라인을 구축하는 걸까요?

정리하면, 이런 기능을 제대로 처리해주는 오픈소스가 이미 존재하는 건지, 아니면 대부분 DIY로 해결하는 게 현실인지 알고 싶습니다.


🧐 배경 설명 및 요약

이 글은 백테스트나 연구용으로 과거 암호화폐 거래 데이터를 모으는 방법을 찾는 투자자의 질문입니다. 특히 유료 데이터는 사용하지 않고 오픈소스만으로 신뢰할 수 있는 수집 파이프라인이 이미 있는지를 알고 싶어합니다.

작성자는 현물과 무기한 선물 시장에서의 거래 데이터를 수집하려고 했으나, 거래소 API를 통해 직접 가져오다 보면 장애나 누락, 중복 등 여러 문제가 반복된다고 지적합니다. ccxt 같은 툴로 해결하려 해도 완전하지 않아, 과연 이런 문제를 포괄적으로 관리해주는 오픈소스 솔루션이 존재하는지 궁금해 한 것입니다.

FOSS(Fully Open Source Software) 관점에서 백테스트용 데이터를 어떻게 수집하고 있는지, 현실적으로 DIY가 일반적인지를 묻는 맥락입니다.

💬 원문 댓글 (1)

u/sigstrikes ▲ 1
체결 단위로 데이터를 수집하려는 건가요?

저는 거래소 API를 활용해서 1분 캔들까지는 별 문제 없이 구축했었어요. 다만 공용 API는 과거 데이터 접근에 제한이 좀 있어요. 기억이 맞다면 바이낸스는 30일 정도, 바이비트는 최대 1000개 캔들 정도였던 것 같네요.

체결 단위로 수집하려면 데이터 양이 꽤 많겠지만, 티커별로 나눠서 하면 가능은 할 수도 있겠네요.

추가로, 접속 위치(IP 기반)에 따라 데이터 접근 범위가 달라질 수도 있어요. 이건 VPN이나 다른 리전 서버로 우회해서 해결할 수 있습니다.
원문 보기
You are looking to pull data at an individual trade level?

I've used the exchange APIs built some things that go as low as 1 min candles and haven't run into rate limits but off the public sources the lookback is pretty limited. Going off memory I think Binance is like 30 days and ByBit is 1000 'candles'.

Getting down to individual trade level is going to be pretty massive but maybe doable if it's 1 ticker at a time?

edit: oh also one thing I forgot, depending where you are based (IP address) the data access is going to differ as well. can workaround that with VPN or using a server hosted in a working region.

댓글 (0)

로그인하고 댓글을 작성하세요.

아직 댓글이 없습니다.