Showing posts with the label HNSW

RAG 응답속도 2초 벽 깨기: HNSW 인덱스 튜닝과 리랭킹(Re-ranking) 최적화 경험

RAG(Retrieval-Augmented Generation) 파이프라인을 구축해 본 엔지니어라면 누구나 마주하는 현실적인 벽이 있습니다. 바로 "정확도를 높이면 속도가 죽고, 속도를 높이면 엉뚱한 문서를 가져온다" 는 딜레마입니다. 특히 사용자가 질문을 던지고 LLM이 답변하기까지 3~4초가 걸린다면, 이는 모델의 추론 속도 문제…
RAG 응답속도 2초 벽 깨기: HNSW 인덱스 튜닝과 리랭킹(Re-ranking) 최적화 경험

Crushing RAG Latency: 50% Faster Retrieval with HNSW Tuning & Hybrid Re-ranking

You’ve built a RAG pipeline, the answers are accurate, but the retrieval step alone is eating up 800ms. In a recent project handling document search for a financial assistant, we faced exactly this…
Crushing RAG Latency: 50% Faster Retrieval with HNSW Tuning & Hybrid Re-ranking

RAGの応答遅延:HNSWパラメータ調整と軽量Rerankerでレイテンシを半減させる実装

RAG(検索拡張生成)システムにおいて、ユーザーが質問してから回答が返ってくるまでに「5秒以上」待たせていませんか?LLMの生成速度も要因の一つですが、実運用で最もボトルネックになりやすいのは、実は 「過剰な精度を求めたベクトル検索」と「重すぎるリランキング処理」 です。数百万件規模のドキュメントを扱うプロダクション環境において、私が実際にレイテンシを800msから300ms以下まで短縮した際…
RAGの応答遅延:HNSWパラメータ調整と軽量Rerankerでレイテンシを半減させる実装

RAG Lento: Ajuste de HNSW y Re-ranking para bajar la latencia un 80%

Hace unas semanas, un pipeline de RAG (Retrieval-Augmented Generation) en producción comenzó a mostrar tiempos de respuesta inaceptables. Con una base de conocimiento de apenas 5 millones de vector…
RAG Lento: Ajuste de HNSW y Re-ranking para bajar la latencia un 80%
OlderHomeNewest