vLLM

by Open Source (UC Berkeley)

Overview

High-throughput LLM serving engine

Best for: High-performance LLM serving; production inference; PagedAttention for throughput; batch processing

Pricing

Free

Ideal for

ML engineersplatform teamscompanies serving LLMs at scaleGPU server operators

Works with

Outputs

How to use vLLM on phones and tablets.

Completely free and open-source (Apache 2.0)

Limits: None (hardware-limited; designed for GPU servers)

When to upgrade: N/A (fully free)

Type: local

Offline: Yes

API: Yes

Languages: Multilingual (depends on model)

Integrations: OpenAI-compatible API, Hugging Face models, Ray (distributed), Kubernetes, LangChain, major frameworks

by Open Source

OpenAI API-compatible local inference

FreeAdvancedLocal & Open-Source AIWeb

Free: Completely free and open-source (MIT)