Semble 프로젝트 분석: 코드 검색을 정적 임베딩으로 푼 에이전트용 RAG는 어떻게 만들어졌나요?
semblecode-searchhybrid-searchsemantic-searchmodel2vecstatic-embeddingsbm25ragtree-sittermcparchitecture
Semble은 tree-sitter로 코드를 청크로 자르고, Model2Vec 정적 임베딩과 BM25를 RRF로 융합한 뒤 코드 인지 리랭킹을 얹어, CPU에서 밀리초 만에 코드 검색을 돌리는 Python 라이브러리입니다. CodeGraph가 AST 지식 그래프로 같은 문제를 풀었다면, Semble은 검색(retrieval)으로 풉니다. 두 접근을 대조하며 구조를 분석합니다.
Read More