10분 만에 기관급 리서치 리포트 생성 시스템 공개 🚀

몇 주간 몰두해서 만든 것을 드디어 공유합니다.

문제: 은행에서 받는 정식 주식 리서치는 연간 3만 달러 이상이고, 온라인의 무료 자료는 표면적이고 재활용된 데이터에 AI 분석만 얹어진 경우가 많습니다. 저는 리서치팀이 주식을 보는 방식으로 실제로 생각하는 시스템을 원했습니다.

제가 만든 것: APEX Financial Intelligence Network. Node.js로 구현한 7단계 멀티에이전트 파이프라인으로 티커 입력만으로 4페이지 분량의 전문 PDF 리포트를 10분 내에 생성합니다. 골드만삭스의 모닝 노트 같은 퀄리티를 조직화된 AI 팀으로 비용은 달러 미만입니다.

아키텍처(단순화):

1. Data Harvest (LLM 호출 없음): FMP, AlphaVantage, FRED, SEC EDGAR, XBRL 동시 조회. 필드별 3단계 폴백, 가격 소스 교차검증, 이상치 탐지(스플릿 후 불가능한 52주 범위 등). 전부 결정론적 처리.

2. Sentiment Scan: 최신 촉발 요인, 애널리스트 동향, 규제 관련 뉴스 빠른 웹검색.

3. 병렬 5개 서브에이전트: 매크로 체제 분류기, 월가 리포트 수집기, SEC 공시 포렌식(10-K/10-Q 원문), 실적 컨퍼런스 콜 감사, 내부자 거래 패턴 탐지.

4. 3명의 AI 애널리스트 동시 토론: 각기 다른 관점(퀀트/테크, 펀더멘털, 매크로/플로우). 각 수치는 출처 태그로 반드시 인용: [DATA_ROOM], [SEARCH:url], [CALCULATED:formula], [SEC-XBRL]. 인용 없으면 환각으로 표기.

5. Devil's Advocate: Victor Strand가 모든 애널리스트 산출물을 받아 맹점·데이터 갭·집단사고·데이터 품질 문제를 공격합니다.

6. CIO 종합: Claude Opus를 사용해 교차검증, 확률 예측, 리스크 매트릭스, 진입/청산/스톱로스, 포지션 사이징, 관점 변경 요건 제시.

7. Brier Score 보정: 모든 확률 예측은 SQLite에 저장되고 결과가 확정되면 Brier 점수를 계산해 각 애널리스트의 가중치를 조정합니다. 시간이 지날수록 성능 향상.

거의 죽일 뻔한 버그들(문서화 안 된 사례들):

• AlphaVantage가 스플릿 후 물리적으로 불가능한 52주 범위를 반환함(예: 실제 거래 범위와 맞지 않음). 이걸 이상치로 잡아냄.

• SEC XBRL이 ASC 606 전후로 다른 개념의 매출을 반환해서 최신 연간값을 비교해 뽑는 latestAnnualBestOf() 함수를 만들었음.

• Claude가 JSON 스키마에 타입 플레이스홀더 쓰면 '<integer>'를 문자 그대로 출력함. 모든 스키마에 구체적 예시값을 넣어 해결.

• 웹 검색 서브에이전트가 각자 100K+ 입력 토큰을 소비해서 Phase 1이 바로 이어지면 레이트 리미트에 걸림. 15초 대기 + 지수 백오프(20s→40s→80s→160s) + 병렬 스트림의 무음 모드로 방어책 구현.

• 프롬프트 캐싱은 콘텐츠 블록을 문자열로 합치면 조용히 깨져 비용이 60% 증가함. 배열로 전달해야 정상 작동.

산출물: A4 4페이지 PDF. 표지에 CIO 결론, 서브에이전트 결과 요약, 애널리스트 토론(확신 배지 포함), 연구 결과 표, 데이터 충돌 경고, Devil's Advocate 레드플래그, CIO 리스크 매트릭스와 실행 계획 포함.

비용: 프롬프트 캐싱 사용 시 티커당 $0.40–$0.90.

스택: Node.js 22, ES 모듈, Anthropic SDK, Puppeteer, SQLite. 프레임워크 없음, TypeScript 없음. 기능별 15개 파일로 구성.

전체 사양—모든 단계, 모든 프롬프트, 모든 스키마, 모든 버그 픽스—배포 가능한 템플릿으로 문서화해 뒀습니다.

템플릿 원하시면 DM 보내세요.

🧐 배경 설명 및 요약

왜 이 글이 올라왔나: 작성자는 기존의 고가 리서치와 온라인 무료 자료의 한계를 지적하면서, 더 저렴하고 자동화된 방식으로 기관급 리포트를 재현하려는 노력을 공유하려고 게시했습니다. 기술 스택, 워크플로우, 실전에서 맞닥뜨린 문제와 해결책을 포함해 ‘배포 가능한 템플릿’을 제공하겠다는 의도입니다.

작성자가 실제로 묻거나 걱정하는 것: 자동화된 리서치가 신뢰할 만한가, 데이터 소스 간 불일치와 AI의 환각(hallucination)을 어떻게 막을 것인가, 그리고 시스템을 운영할 때 발생하는 비용·토큰·레이트 제한 문제를 어떻게 관리할 것인가를 우려하고 있습니다. 또한 시간이 지남에 따라 모델별 성능을 정량적으로 보정(예: Brier 점수)해 신뢰도를 높이고자 합니다.

어려운 개념을 쉽게 설명하면:

• 멀티에이전트 파이프라인: 여러 역할의 자동화 에이전트를 병렬·순차로 조합해 각기 다른 관점을 수집하고 종합하는 구조입니다. 하나의 모델이 모든 걸 하려 하기보다 역할을 나눠 오류를 줄입니다.

• XBRL/EDGAR 이슈: 기업 공시는 형식과 회계 기준이 바뀌면 같은 항목이라도 값이 달라질 수 있습니다. 그래서 가장 최신·일관된 값을 선택하는 추가 로직이 필요합니다.

• 프롬프트 캐싱과 토큰·레이트 제한: LLM 호출 비용과 API 한도를 줄이려면 동일한 입력에 대해 결과를 재사용(캐시)해야 합니다. 하지만 캐시 방식이 잘못되면 비용이 급증하거나 잘못된 출력이 재사용될 수 있습니다.

• Brier 점수: 예측(확률)의 정확도를 측정하는 지표로, 낮을수록 좋은 점수입니다. 개인(또는 에이전트)별 과거 성과로 가중치를 조정하면 전체 시스템의 예측 품질이 개선됩니다.

중요 포인트: 글은 기술적 완성도와 실제 운영에서 마주친 문제·해결 경험을 공유하는 것이 핵심입니다. 관심 있는 독자는 데이터 이상치 처리, 토큰·레이트 관리, 그리고 예측 보정(Brier 점수) 부분을 우선 확인하세요.

10분 만에 기관급 리서치 리포트 생성 시스템 공개 🚀

🧐 배경 설명 및 요약

💬 원문 댓글 (5)

댓글 (0)