Vector Databases

Status: draft · Confidence: low (0.43) · Basis: verified_sources

Quality notes: generic_source_homepage, no_verified_sources, partial_source_verification




## TL;DR

Vector databases store and query high-dimensional vector embeddings for similarity search, powering AI applications (semantic search, RAG, recommendation). Instead of exact match, they find nearest neighbors using Approximate Nearest Neighbor (ANN) algorithms. Key players: Pinecone, Weaviate, Qdrant, Milvus, pgvector (PostgreSQL extension).

## Core Explanation

Embedding: text/image/audio → vector (768-3072 dimensions). Similarity metrics: cosine similarity, Euclidean distance, dot product. ANN algorithms: HNSW (hierarchical navigable small world graphs — most popular), IVF (inverted file index), PQ (product quantization for compression). pgvector: add vector search to PostgreSQL — `SELECT * FROM items ORDER BY embedding <=> query_vector LIMIT 10`. Hybrid search: vector similarity + keyword/BM25 (Weaviate).

## Further Reading

- [Pinecone Documentation](undefined)

## Related Articles

- [Vector Databases: Approximate Nearest Neighbor Search, Embedding Storage, and Retrieval at Scale](../../ai/vector-databases.md)
- [Columnar Databases: Parquet, ORC, and Analytical Workloads](../columnar-databases-parquet-orc-and-analytical-workloads.md)
- [Graph Databases: Neo4j, Property Graphs, and Cypher Query Language](../graph-databases-neo4j-property-graphs-and-cypher-query-language.md)