vllm.entrypoints.openai.api_server ¶

build_and_serve `async` ¶

build_and_serve(
    renderer_client: RendererClient,
    engine_client: EngineClient | None,
    listen_address: str,
    sock: socket,
    args: Namespace,
    **uvicorn_kwargs,
) -> Task

Build FastAPI app, initialize state, and start serving.

Returns the shutdown task for the caller to await.

Source code in vllm/entrypoints/openai/api_server.py

async def build_and_serve(
    renderer_client: RendererClient,
    engine_client: EngineClient | None,
    listen_address: str,
    sock: socket.socket,
    args: Namespace,
    **uvicorn_kwargs,
) -> asyncio.Task:
    """Build FastAPI app, initialize state, and start serving.

    Returns the shutdown task for the caller to await.
    """

    # Get uvicorn log config (from file or with endpoint filter)
    log_config = get_uvicorn_log_config(args)
    if log_config is not None:
        uvicorn_kwargs["log_config"] = log_config

    if engine_client is not None:
        supported_tasks = await engine_client.get_supported_tasks()
    else:
        supported_tasks = ("render",)
    logger.info("Supported tasks: %s", supported_tasks)

    app = build_app(args, supported_tasks)
    if engine_client is not None:
        await init_app_state(
            engine_client,
            app.state,
            args,
            supported_tasks,
            renderer_client=renderer_client,
        )
    else:
        await init_renderer_state(renderer_client, app.state, args)

    logger.info("Starting vLLM server on %s", listen_address)

    return await serve_http(
        app,
        sock=sock,
        enable_ssl_refresh=args.enable_ssl_refresh,
        host=args.host,
        port=args.port,
        log_level=args.uvicorn_log_level,
        # NOTE: When the 'disable_uvicorn_access_log' value is True,
        # no access log will be output.
        access_log=not args.disable_uvicorn_access_log,
        timeout_keep_alive=envs.VLLM_HTTP_TIMEOUT_KEEP_ALIVE,
        ssl_keyfile=args.ssl_keyfile,
        ssl_certfile=args.ssl_certfile,
        ssl_ca_certs=args.ssl_ca_certs,
        ssl_cert_reqs=args.ssl_cert_reqs,
        ssl_ciphers=args.ssl_ciphers,
        h11_max_incomplete_event_size=args.h11_max_incomplete_event_size,
        h11_max_header_count=args.h11_max_header_count,
        **uvicorn_kwargs,
    )

build_async_clients_from_engine_args `async` ¶

build_async_clients_from_engine_args(
    engine_args: AsyncEngineArgs,
    *,
    usage_context: UsageContext = OPENAI_API_SERVER,
    disable_frontend_multiprocessing: bool = False,
    client_config: dict[str, Any] | None = None,
) -> AsyncIterator[tuple[RendererClient, EngineClient]]

Create a co-located (RendererClient, EngineClient) pair backed by AsyncLLM.

Source code in vllm/entrypoints/openai/api_server.py

@asynccontextmanager
async def build_async_clients_from_engine_args(
    engine_args: AsyncEngineArgs,
    *,
    usage_context: UsageContext = UsageContext.OPENAI_API_SERVER,
    disable_frontend_multiprocessing: bool = False,
    client_config: dict[str, Any] | None = None,
) -> AsyncIterator[tuple[RendererClient, EngineClient]]:
    """Create a co-located (RendererClient, EngineClient) pair backed by AsyncLLM."""

    # Create the EngineConfig (determines if we can use V1).
    vllm_config = engine_args.create_engine_config(usage_context=usage_context)

    if disable_frontend_multiprocessing:
        logger.warning("V1 is enabled, but got --disable-frontend-multiprocessing.")

    from vllm.v1.engine.async_llm import AsyncLLM
    from vllm.v1.engine.async_renderer import AsyncRenderer

    async_renderer: AsyncRenderer | None = None
    async_llm: AsyncLLM | None = None

    # Don't mutate the input client_config
    client_config = dict(client_config) if client_config else {}
    client_count = client_config.pop("client_count", 1)
    client_index = client_config.pop("client_index", 0)

    try:
        async_renderer = AsyncRenderer.from_vllm_config(vllm_config=vllm_config)
        async_llm = AsyncLLM.from_vllm_config(
            vllm_config=vllm_config,
            usage_context=usage_context,
            enable_log_requests=engine_args.enable_log_requests,
            aggregate_engine_logging=engine_args.aggregate_engine_logging,
            disable_log_stats=engine_args.disable_log_stats,
            client_addresses=client_config,
            client_count=client_count,
            client_index=client_index,
        )

        # Don't keep the dummy data in memory
        await async_llm.reset_mm_cache()

        yield async_renderer, async_llm
    finally:
        if async_llm:
            async_llm.shutdown()
        if async_renderer:
            async_renderer.shutdown()

init_renderer_state `async` ¶

init_renderer_state(
    renderer_client: RendererClient,
    state: State,
    args: Namespace,
) -> None

Initialize app state for a render-only server (no EngineClient).

Sets up only the services that are meaningful without an inference engine: models listing, tokenization, and chat/completion rendering.

Source code in vllm/entrypoints/openai/api_server.py

async def init_renderer_state(
    renderer_client: RendererClient,
    state: State,
    args: Namespace,
) -> None:
    """Initialize app state for a render-only server (no EngineClient).

    Sets up only the services that are meaningful without an inference engine:
    models listing, tokenization, and chat/completion rendering.
    """
    vllm_config = renderer_client.vllm_config

    if args.served_model_name is not None:
        served_model_names = args.served_model_name
    else:
        served_model_names = [args.model]

    if args.enable_log_requests:
        request_logger = RequestLogger(max_log_len=args.max_log_len)
    else:
        request_logger = None

    base_model_paths = [
        BaseModelPath(name=name, model_path=args.model) for name in served_model_names
    ]

    state.renderer_client = renderer_client
    state.engine_client = None
    state.log_stats = not args.disable_log_stats
    state.vllm_config = vllm_config
    state.args = args
    resolved_chat_template = load_chat_template(args.chat_template)

    state.openai_serving_models = OpenAIServingModels(
        renderer_client=renderer_client,
        engine_client=None,
        base_model_paths=base_model_paths,
    )
    state.openai_serving_tokenization = OpenAIServingTokenization(
        renderer_client=renderer_client,
        models=state.openai_serving_models,
        request_logger=request_logger,
        chat_template=resolved_chat_template,
        chat_template_content_format=args.chat_template_content_format,
        trust_request_chat_template=args.trust_request_chat_template,
        log_error_stack=args.log_error_stack,
    )

    state.enable_server_load_tracking = args.enable_server_load_tracking
    state.server_load_metrics = 0

run_server `async` ¶

run_server(args, **uvicorn_kwargs) -> None

Run a single-worker API server.

Source code in vllm/entrypoints/openai/api_server.py

async def run_server(args, **uvicorn_kwargs) -> None:
    """Run a single-worker API server."""

    # Add process-specific prefix to stdout and stderr.
    decorate_logs("APIServer")

    listen_address, sock = setup_server(args)
    await run_server_worker(listen_address, sock, args, **uvicorn_kwargs)

run_server_worker `async` ¶

run_server_worker(
    listen_address,
    sock,
    args,
    client_config=None,
    **uvicorn_kwargs,
) -> None

Run a single API server worker.

Source code in vllm/entrypoints/openai/api_server.py

async def run_server_worker(
    listen_address, sock, args, client_config=None, **uvicorn_kwargs
) -> None:
    """Run a single API server worker."""

    if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
        ToolParserManager.import_tool_parser(args.tool_parser_plugin)

    if args.reasoning_parser_plugin and len(args.reasoning_parser_plugin) > 3:
        ReasoningParserManager.import_reasoning_parser(args.reasoning_parser_plugin)

    async with build_async_clients(
        args,
        client_config=client_config,
    ) as (async_renderer, engine_client):
        shutdown_task = await build_and_serve(
            async_renderer, engine_client, listen_address, sock, args, **uvicorn_kwargs
        )
    # NB: Await server shutdown only after the backend context is exited
    try:
        await shutdown_task
    finally:
        sock.close()

setup_server ¶

setup_server(args)

Validate API server args, set up signal handler, create socket ready to serve.

Source code in vllm/entrypoints/openai/api_server.py

@instrument(span_name="API server setup")
def setup_server(args):
    """Validate API server args, set up signal handler, create socket
    ready to serve."""

    log_version_and_model(logger, VLLM_VERSION, args.model)
    log_non_default_args(args)

    if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
        ToolParserManager.import_tool_parser(args.tool_parser_plugin)

    if args.reasoning_parser_plugin and len(args.reasoning_parser_plugin) > 3:
        ReasoningParserManager.import_reasoning_parser(args.reasoning_parser_plugin)

    validate_api_server_args(args)

    # workaround to make sure that we bind the port before the engine is set up.
    # This avoids race conditions with ray.
    # see https://github.com/vllm-project/vllm/issues/8204
    if args.uds:
        sock = create_server_unix_socket(args.uds)
    else:
        sock_addr = (args.host or "", args.port)
        sock = create_server_socket(sock_addr)

    # workaround to avoid footguns where uvicorn drops requests with too
    # many concurrent requests active
    set_ulimit()

    def signal_handler(*_) -> None:
        # Interrupt server on sigterm while initializing
        raise KeyboardInterrupt("terminated")

    signal.signal(signal.SIGTERM, signal_handler)

    if args.uds:
        listen_address = f"unix:{args.uds}"
    else:
        addr, port = sock_addr
        is_ssl = args.ssl_keyfile and args.ssl_certfile
        host_part = f"[{addr}]" if is_valid_ipv6_address(addr) else addr or "0.0.0.0"
        listen_address = f"http{'s' if is_ssl else ''}://{host_part}:{port}"
    return listen_address, sock

vllm.entrypoints.openai.api_server ¶

build_and_serve async ¶

build_async_clients_from_engine_args async ¶

init_renderer_state async ¶

run_server async ¶

run_server_worker async ¶

setup_server ¶

build_and_serve `async` ¶

build_async_clients_from_engine_args `async` ¶

init_renderer_state `async` ¶

run_server `async` ¶

run_server_worker `async` ¶