Showing posts with the label LLMパフォーマンス

RAGの応答遅延:HNSWパラメータ調整と軽量Rerankerでレイテンシを半減させる実装

RAG(検索拡張生成)システムにおいて、ユーザーが質問してから回答が返ってくるまでに「5秒以上」待たせていませんか?LLMの生成速度も要因の一つですが、実運用で最もボトルネックになりやすいのは、実は 「過剰な精度を求めたベクトル検索」と「重すぎるリランキング処理」 です。数百万件規模のドキュメントを扱うプロダクション環境において、私が実際にレイテンシを800msから300ms以下まで短縮した際…
RAGの応答遅延:HNSWパラメータ調整と軽量Rerankerでレイテンシを半減させる実装
OlderHomeNewest