feat: add semantic search with pgvector (closes #68, #69, #70)

Issues resolved: - #68: pgvector Setup * Added pgvector vector index migration for knowledge_embeddings * Vector index uses HNSW algorithm with cosine distance * Optimized for 1536-dimension OpenAI embeddings - #69: Embedding Generation Pipeline * Created EmbeddingService with OpenAI integration * Automatic embedding generation on entry create/update * Batch processing endpoint for existing entries * Async generation to avoid blocking API responses * Content preparation with title weighting - #70: Semantic Search API * POST /api/knowledge/search/semantic - pure vector search * POST /api/knowledge/search/hybrid - RRF combined search * POST /api/knowledge/embeddings/batch - batch generation * Comprehensive test coverage * Full documentation in docs/SEMANTIC_SEARCH.md Technical details: - Uses OpenAI text-embedding-3-small model (1536 dims) - HNSW index for O(log n) similarity search - Reciprocal Rank Fusion for hybrid search - Graceful degradation when OpenAI not configured - Async embedding generation for performance Configuration: - Added OPENAI_API_KEY to .env.example - Optional feature - disabled if API key not set - Falls back to keyword search in hybrid mode
2026-01-30 00:24:41 -06:00
parent 22cd68811d
commit 3ec2059470
14 changed files with 1408 additions and 5 deletions
--- a/apps/api/prisma/migrations/20260130002000_add_knowledge_embeddings_vector_index/migration.sql
+++ b/apps/api/prisma/migrations/20260130002000_add_knowledge_embeddings_vector_index/migration.sql
@@ -0,0 +1,8 @@
+-- Add HNSW index for fast vector similarity search on knowledge_embeddings table
+-- Using cosine distance operator for semantic similarity
+-- Parameters: m=16 (max connections per layer), ef_construction=64 (build quality)
+
+CREATE INDEX IF NOT EXISTS knowledge_embeddings_embedding_idx
+ON knowledge_embeddings
+USING hnsw (embedding vector_cosine_ops)
+WITH (m = 16, ef_construction = 64);