nemotron-speech (sha256:32e686ba622247e38ac0f3240c659f12d4c09e920e68bf802fcd2b34b7ae1575)

Published 2026-04-05 09:42:00 +00:00 by j

Pull the image from the command line:

docker pull forge.jde.nz/public/nemotron-speech@sha256:32e686ba622247e38ac0f3240c659f12d4c09e920e68bf802fcd2b34b7ae1575

Digest

sha256:32e686ba622247e38ac0f3240c659f12d4c09e920e68bf802fcd2b34b7ae1575

For more information on the Container registry, see the documentation.

ARG RELEASE

ARG LAUNCHPAD_BUILD_ARCH

LABEL org.opencontainers.image.ref.name=ubuntu

LABEL org.opencontainers.image.version=24.04

ADD file:b4619a63cd7829e1338ddaa4995ca17003002dd54b0dfd675a6f54a2b69151a6 in /

CMD ["/bin/bash"]

ENV NVARCH=x86_64

ENV NVIDIA_REQUIRE_CUDA=cuda>=13.0 brand=unknown,driver>=535,driver<536 brand=grid,driver>=535,driver<536 brand=tesla,driver>=535,driver<536 brand=nvidia,driver>=535,driver<536 brand=quadro,driver>=535,driver<536 brand=quadrortx,driver>=535,driver<536 brand=nvidiartx,driver>=535,driver<536 brand=vapps,driver>=535,driver<536 brand=vpc,driver>=535,driver<536 brand=vcs,driver>=535,driver<536 brand=vws,driver>=535,driver<536 brand=cloudgaming,driver>=535,driver<536 brand=unknown,driver>=550,driver<551 brand=grid,driver>=550,driver<551 brand=tesla,driver>=550,driver<551 brand=nvidia,driver>=550,driver<551 brand=quadro,driver>=550,driver<551 brand=quadrortx,driver>=550,driver<551 brand=nvidiartx,driver>=550,driver<551 brand=vapps,driver>=550,driver<551 brand=vpc,driver>=550,driver<551 brand=vcs,driver>=550,driver<551 brand=vws,driver>=550,driver<551 brand=cloudgaming,driver>=550,driver<551 brand=unknown,driver>=565,driver<566 brand=grid,driver>=565,driver<566 brand=tesla,driver>=565,driver<566 brand=nvidia,driver>=565,driver<566 brand=quadro,driver>=565,driver<566 brand=quadrortx,driver>=565,driver<566 brand=nvidiartx,driver>=565,driver<566 brand=vapps,driver>=565,driver<566 brand=vpc,driver>=565,driver<566 brand=vcs,driver>=565,driver<566 brand=vws,driver>=565,driver<566 brand=cloudgaming,driver>=565,driver<566 brand=unknown,driver>=570,driver<571 brand=grid,driver>=570,driver<571 brand=tesla,driver>=570,driver<571 brand=nvidia,driver>=570,driver<571 brand=quadro,driver>=570,driver<571 brand=quadrortx,driver>=570,driver<571 brand=nvidiartx,driver>=570,driver<571 brand=vapps,driver>=570,driver<571 brand=vpc,driver>=570,driver<571 brand=vcs,driver>=570,driver<571 brand=vws,driver>=570,driver<571 brand=cloudgaming,driver>=570,driver<571 brand=unknown,driver>=575,driver<576 brand=grid,driver>=575,driver<576 brand=tesla,driver>=575,driver<576 brand=nvidia,driver>=575,driver<576 brand=quadro,driver>=575,driver<576 brand=quadrortx,driver>=575,driver<576 brand=nvidiartx,driver>=575,driver<576 brand=vapps,driver>=575,driver<576 brand=vpc,driver>=575,driver<576 brand=vcs,driver>=575,driver<576 brand=vws,driver>=575,driver<576 brand=cloudgaming,driver>=575,driver<576

ENV NV_CUDA_CUDART_VERSION=13.0.48-1

ARG TARGETARCH

LABEL maintainer=NVIDIA CORPORATION <cudatools@nvidia.com>

RUN |1 TARGETARCH=amd64 /bin/sh -c apt-get update && apt-get install -y --no-install-recommends gnupg2 curl ca-certificates && curl -fsSL https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/${NVARCH}/3bf863cc.pub | apt-key add - && echo "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/${NVARCH} /" > /etc/apt/sources.list.d/cuda.list && apt-get purge --autoremove -y curl && rm -rf /var/lib/apt/lists/* # buildkit

ENV CUDA_VERSION=13.0.0

RUN |1 TARGETARCH=amd64 /bin/sh -c apt-get update && apt-get install -y --no-install-recommends cuda-cudart-13-0=${NV_CUDA_CUDART_VERSION} cuda-compat-13-0 && rm -rf /var/lib/apt/lists/* # buildkit

RUN |1 TARGETARCH=amd64 /bin/sh -c echo "/usr/local/cuda/lib64" >> /etc/ld.so.conf.d/nvidia.conf # buildkit

ENV PATH=/usr/local/nvidia/bin:/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

ENV LD_LIBRARY_PATH=/usr/local/nvidia/lib:/usr/local/nvidia/lib64:/usr/local/cuda/lib64

COPY NGC-DL-CONTAINER-LICENSE / # buildkit

ENV NVIDIA_VISIBLE_DEVICES=all

ENV NVIDIA_DRIVER_CAPABILITIES=compute,utility

ENV NV_CUDA_LIB_VERSION=13.0.0-1

ENV NV_NVTX_VERSION=13.0.39-1

ENV NV_LIBNPP_VERSION=13.0.0.50-1

ENV NV_LIBNPP_PACKAGE=libnpp-13-0=13.0.0.50-1

ENV NV_LIBCUSPARSE_VERSION=12.6.2.49-1

ENV NV_LIBCUBLAS_PACKAGE_NAME=libcublas-13-0

ENV NV_LIBCUBLAS_VERSION=13.0.0.19-1

ENV NV_LIBCUBLAS_PACKAGE=libcublas-13-0=13.0.0.19-1

ENV NV_LIBNCCL_PACKAGE_NAME=libnccl2

ENV NV_LIBNCCL_PACKAGE_VERSION=2.27.7-1

ENV NCCL_VERSION=2.27.7-1

ENV NV_LIBNCCL_PACKAGE=libnccl2=2.27.7-1+cuda13.0

ARG TARGETARCH

LABEL maintainer=NVIDIA CORPORATION <cudatools@nvidia.com>

RUN |1 TARGETARCH=amd64 /bin/sh -c apt-get update && apt-get install -y --no-install-recommends cuda-libraries-13-0=${NV_CUDA_LIB_VERSION} ${NV_LIBNPP_PACKAGE} cuda-nvtx-13-0=${NV_NVTX_VERSION} libcusparse-13-0=${NV_LIBCUSPARSE_VERSION} ${NV_LIBCUBLAS_PACKAGE} ${NV_LIBNCCL_PACKAGE} && rm -rf /var/lib/apt/lists/* # buildkit

RUN |1 TARGETARCH=amd64 /bin/sh -c apt-mark hold ${NV_LIBCUBLAS_PACKAGE_NAME} ${NV_LIBNCCL_PACKAGE_NAME} # buildkit

COPY entrypoint.d/ /opt/nvidia/entrypoint.d/ # buildkit

COPY nvidia_entrypoint.sh /opt/nvidia/ # buildkit

ENV NVIDIA_PRODUCT_NAME=CUDA

ENTRYPOINT ["/opt/nvidia/nvidia_entrypoint.sh"]

ENV NV_CUDA_LIB_VERSION=13.0.0-1

ENV NV_CUDA_CUDART_DEV_VERSION=13.0.48-1

ENV NV_NVML_DEV_VERSION=13.0.39-1

ENV NV_LIBCUSPARSE_DEV_VERSION=12.6.2.49-1

ENV NV_LIBNPP_DEV_VERSION=13.0.0.50-1

ENV NV_LIBNPP_DEV_PACKAGE=libnpp-dev-13-0=13.0.0.50-1

ENV NV_LIBCUBLAS_DEV_VERSION=13.0.0.19-1

ENV NV_LIBCUBLAS_DEV_PACKAGE_NAME=libcublas-dev-13-0

ENV NV_LIBCUBLAS_DEV_PACKAGE=libcublas-dev-13-0=13.0.0.19-1

ENV NV_CUDA_NSIGHT_COMPUTE_VERSION=13.0.0-1

ENV NV_CUDA_NSIGHT_COMPUTE_DEV_PACKAGE=cuda-nsight-compute-13-0=13.0.0-1

ENV NV_LIBNCCL_DEV_PACKAGE_NAME=libnccl-dev

ENV NV_LIBNCCL_DEV_PACKAGE_VERSION=2.27.7-1

ENV NCCL_VERSION=2.27.7-1

ENV NV_LIBNCCL_DEV_PACKAGE=libnccl-dev=2.27.7-1+cuda13.0

ARG TARGETARCH

LABEL maintainer=NVIDIA CORPORATION <cudatools@nvidia.com>

RUN |1 TARGETARCH=amd64 /bin/sh -c apt-get update && apt-get install -y --no-install-recommends cuda-cudart-dev-13-0=${NV_CUDA_CUDART_DEV_VERSION} cuda-command-line-tools-13-0=${NV_CUDA_LIB_VERSION} cuda-minimal-build-13-0=${NV_CUDA_LIB_VERSION} cuda-libraries-dev-13-0=${NV_CUDA_LIB_VERSION} cuda-nvml-dev-13-0=${NV_NVML_DEV_VERSION} ${NV_LIBNPP_DEV_PACKAGE} libcusparse-dev-13-0=${NV_LIBCUSPARSE_DEV_VERSION} ${NV_LIBCUBLAS_DEV_PACKAGE} ${NV_LIBNCCL_DEV_PACKAGE} ${NV_CUDA_NSIGHT_COMPUTE_DEV_PACKAGE} && rm -rf /var/lib/apt/lists/* # buildkit

RUN |1 TARGETARCH=amd64 /bin/sh -c apt-mark hold ${NV_LIBCUBLAS_DEV_PACKAGE_NAME} ${NV_LIBNCCL_DEV_PACKAGE_NAME} # buildkit

ENV LIBRARY_PATH=/usr/local/cuda/lib64/stubs

LABEL maintainer=nemotron-speech

LABEL description=Unified ASR + TTS + LLM container (ARM64 sm_121 CUDA 13.1 / x86_64 sm_120 CUDA 13.0)

LABEL version=1.2

ENV DEBIAN_FRONTEND=noninteractive

RUN /bin/sh -c apt-get update && apt-get install -y --no-install-recommends python3.12 python3.12-dev python3.12-venv python3-pip git curl wget cmake ninja-build ccache libopenblas-dev libomp-dev libffi-dev libssl-dev libnuma-dev libcurl4-openssl-dev ffmpeg sox libsndfile1 && rm -rf /var/lib/apt/lists/* && ln -sf /usr/bin/python3.12 /usr/bin/python3 && ln -sf /usr/bin/python3 /usr/bin/python # buildkit

COPY /uv /uvx /bin/ # buildkit

ENV UV_SYSTEM_PYTHON=1

ENV UV_BREAK_SYSTEM_PACKAGES=1

COPY /usr/lib/*/libcudnn* /tmp/cudnn_libs/ # buildkit

COPY /usr/include/cudnn* /usr/include/ # buildkit

COPY /usr/lib/*/libnccl* /tmp/nccl_libs/ # buildkit

COPY /usr/include/nccl.h /usr/include/ # buildkit

COPY /usr/include/nccl_device.h /usr/include/ # buildkit

COPY /usr/include/nccl_device/ /usr/include/nccl_device/ # buildkit

RUN /bin/sh -c ARCH=$(uname -m) && if [ "$ARCH" = "aarch64" ]; then LIB_DIR="/usr/lib/aarch64-linux-gnu"; else LIB_DIR="/usr/lib/x86_64-linux-gnu"; fi && echo "=== Detected architecture: $ARCH, using $LIB_DIR ===" && mkdir -p "$LIB_DIR" && mv /tmp/cudnn_libs/* "$LIB_DIR/" && mv /tmp/nccl_libs/* "$LIB_DIR/" && rmdir /tmp/cudnn_libs /tmp/nccl_libs && echo "=== cuDNN libraries ===" && ls -la "$LIB_DIR"/libcudnn* | head -3 && echo "=== NCCL libraries ===" && ls -la "$LIB_DIR"/libnccl* | head -3 && echo "=== NCCL device headers ===" && ls -la /usr/include/nccl_device/ | head -3 && echo "=== Checking ncclDevCommDestroy symbol ===" && nm -D "$LIB_DIR"/libnccl.so* 2>/dev/null | grep ncclDevCommDestroy | head -1 || echo "Note: nm check may fail on stripped library" && ldconfig # buildkit

RUN /bin/sh -c uv pip install --no-cache numpy pyyaml typing_extensions sympy filelock networkx jinja2 fsspec packaging setuptools wheel cffi future requests dataclasses pillow expecttest hypothesis pytest # buildkit

ARG PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f

WORKDIR /build

RUN |1 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f /bin/sh -c git clone --recursive https://github.com/pytorch/pytorch.git && cd pytorch && git checkout ${PYTORCH_COMMIT} # buildkit

WORKDIR /build/pytorch

RUN |1 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f /bin/sh -c git submodule sync && git submodule update --init --recursive # buildkit

ENV USE_CUDA=1

ENV USE_CUDNN=1

ENV USE_MKLDNN=1

ENV USE_DISTRIBUTED=1

ENV USE_NCCL=1

ENV USE_TENSORPIPE=0

ENV USE_SYSTEM_NCCL=1

ENV NCCL_ROOT=/usr

ENV NCCL_INCLUDE_DIR=/usr/include

ENV BUILD_TEST=0

ENV MAX_JOBS=8

ENV CMAKE_BUILD_TYPE=Release

ENV CUDNN_INCLUDE_DIR=/usr/include

ENV USE_PRIORITIZED_TEXT_FOR_LD=1

RUN |1 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f /bin/sh -c ln -sf /usr/local/cuda/include/cccl/cub /usr/local/cuda/include/cub && ln -sf /usr/local/cuda/include/cccl/thrust /usr/local/cuda/include/thrust && echo "=== Verifying CUB access ===" && ls /usr/local/cuda/include/cub/cub.cuh && ls /usr/local/cuda/include/cccl/cub/cub.cuh # buildkit

ENV CUB_INCLUDE_DIR=/usr/local/cuda/include/cccl

RUN |1 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f /bin/sh -c ARCH=$(uname -m) && if [ "$ARCH" = "aarch64" ]; then export TORCH_CUDA_ARCH_LIST="12.1"; export NCCL_LIB_DIR="/usr/lib/aarch64-linux-gnu"; export CUDNN_LIB_DIR="/usr/lib/aarch64-linux-gnu"; else export TORCH_CUDA_ARCH_LIST="12.0"; export NCCL_LIB_DIR="/usr/lib/x86_64-linux-gnu"; export CUDNN_LIB_DIR="/usr/lib/x86_64-linux-gnu"; fi && echo "=== Building PyTorch for $ARCH with CUDA arch $TORCH_CUDA_ARCH_LIST ===" && python3 setup.py bdist_wheel > /tmp/pytorch_build.log 2>&1 || { tail -50 /tmp/pytorch_build.log; exit 1; } && uv pip install --no-cache dist/*.whl && mkdir -p /tmp/pytorch_wheel && cp dist/*.whl /tmp/pytorch_wheel/ # buildkit

ARG TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73

WORKDIR /build

RUN |2 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73 /bin/sh -c git clone --recursive https://github.com/pytorch/audio.git && cd audio && git checkout ${TORCHAUDIO_COMMIT} # buildkit

WORKDIR /build/audio

ENV BUILD_SOX=0

ENV USE_CUDA=1

RUN |2 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73 /bin/sh -c ARCH=$(uname -m) && if [ "$ARCH" = "aarch64" ]; then export TORCH_CUDA_ARCH_LIST="12.1"; else export TORCH_CUDA_ARCH_LIST="12.0"; fi && echo "=== Building torchaudio for $ARCH with CUDA arch $TORCH_CUDA_ARCH_LIST ===" && python3 setup.py bdist_wheel > /tmp/torchaudio_build.log 2>&1 || { tail -50 /tmp/torchaudio_build.log; exit 1; } && uv pip install --no-cache dist/*.whl && mkdir -p /tmp/torchaudio_wheel && cp dist/*.whl /tmp/torchaudio_wheel/ # buildkit

WORKDIR /workspace

RUN |2 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73 /bin/sh -c rm -rf /build/pytorch /build/audio # buildkit

ARG NEMO_COMMIT=644201898480ec8c8d0a637f0c773825509ac4dc

RUN |3 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73 NEMO_COMMIT=644201898480ec8c8d0a637f0c773825509ac4dc /bin/sh -c git clone https://github.com/NVIDIA/NeMo.git /opt/nemo && cd /opt/nemo && git checkout ${NEMO_COMMIT} # buildkit

RUN |3 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73 NEMO_COMMIT=644201898480ec8c8d0a637f0c773825509ac4dc /bin/sh -c uv pip install --no-cache Cython hydra-core>=1.3.0 omegaconf>=2.3 pytorch-lightning>=2.0 torchmetrics>=0.11.0 transformers>=4.36.0 sentencepiece webdataset lhotse>=1.20.0 braceexpand editdistance g2p_en inflect kaldi-python-io kaldiio librosa>=0.10.0 marshmallow ruamel.yaml soundfile text-unidecode numba kaldialign # buildkit

COPY <<EOF /tmp/patch_nvrtc.py # buildkit

RUN |3 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73 NEMO_COMMIT=644201898480ec8c8d0a637f0c773825509ac4dc /bin/sh -c uv pip install --no-cache tokenizers>=0.19 fastapi uvicorn[standard] pydantic>=2.0 prometheus_client py-cpuinfo tiktoken lm-format-enforcer outlines xgrammar pyzmq msgspec gguf compressed-tensors importlib_metadata mistral_common>=1.5.0 partial-json-parser # buildkit

ARG VLLM_COMMIT=bb80f69bc98cbf062bf030cb11185f7ba526e28a

ARG VLLM_CACHE_BUSTER=v1

WORKDIR /build

WORKDIR /build/vllm

ENV VLLM_TARGET_DEVICE=cuda

ENV MAX_JOBS=8

RUN |5 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73 NEMO_COMMIT=644201898480ec8c8d0a637f0c773825509ac4dc VLLM_COMMIT=bb80f69bc98cbf062bf030cb11185f7ba526e28a VLLM_CACHE_BUSTER=v1 /bin/sh -c python3 - <<'PY' from pathlib import Path path = Path("/build/vllm/vllm/model_executor/layers/mamba/mamba_mixer2.py") text = path.read_text() if "import os\n" not in text: text = text.replace( "import torch\n", "import os\nimport torch\n", 1, ) if "init_logger" not in text: text = text.replace( "from vllm.forward_context import ForwardContext, get_forward_context\n", "from vllm.forward_context import ForwardContext, get_forward_context, is_forward_context_available\n" "from vllm.logger import init_logger\n", 1, ) if "per_tensor_dequantize" not in text: text = text.replace( "from vllm.model_executor.layers.quantization import QuantizationConfig\n", "from vllm.model_executor.layers.quantization import QuantizationConfig\n" "from vllm.model_executor.layers.quantization.utils.w8a8_utils import per_tensor_dequantize\n", 1, ) if "_MAMBA_REF_USED" not in text: insert_after = "from vllm.v1.attention.backends.mamba2_attn import Mamba2AttentionMetadata\n" if insert_after not in text: raise SystemExit("Failed to locate Mamba2AttentionMetadata import") helper = "".join( [ "\nlogger = init_logger(__name__)\n", "_MAMBA_REF_USED = 0\n", "_MAMBA_INPROJ_BYPASS_USED = 0\n\n", "def _dequantize_linear_weight_for_ref(layer, logical_widths=None):\n", " weight = layer.weight\n", " scale = getattr(layer, \"weight_scale\", None)\n", " if scale is None:\n", " return weight.to(torch.bfloat16)\n", " scale = scale.detach()\n", " if scale.numel() == 1 or not logical_widths:\n", " s = scale.max()\n", " return per_tensor_dequantize(weight, s).to(torch.bfloat16)\n", " if scale.numel() == len(logical_widths):\n", " splits = torch.split(weight, logical_widths, dim=1)\n", " dq_splits = [\n", " per_tensor_dequantize(w, scale[idx]) for idx, w in enumerate(splits)\n", " ]\n", " return torch.cat(dq_splits, dim=1).to(torch.bfloat16)\n", " s = scale.max()\n", " return per_tensor_dequantize(weight, s).to(torch.bfloat16)\n", "def _matmul_weight(x, w):\n", " if w.shape[0] == x.shape[-1]:\n", " return torch.matmul(x, w)\n", " return torch.matmul(x, w.t())\n", ] ) text = text.replace(insert_after, insert_after + helper, 1) if "Mamba BF16 ref compare" not in text: old = " # 1. Gated MLP's linear projection\n projected_states, _ = self.in_proj(hidden_states)\n" if old not in text: raise SystemExit("Failed to locate MambaMixer2 projection block") new = "".join( [ " input_states = hidden_states\n", " # 1. Gated MLP's linear projection\n", " weight_scale = getattr(self.in_proj, \"weight_scale\", None)\n", " input_scale = getattr(self.in_proj, \"input_scale\", None)\n", " use_fp8_inproj = (\n", " hasattr(self.in_proj, \"fp8_keep_scales\")\n", " and self.in_proj.fp8_keep_scales\n", " and weight_scale is not None\n", " and input_scale is not None\n", " and weight_scale.numel() > 1\n", " and input_scale.numel() == weight_scale.numel()\n", " and hasattr(self.in_proj, \"quant_method\")\n", " and hasattr(self.in_proj.quant_method, \"fp8_linear\")\n", " )\n", " output_sizes = getattr(self.in_proj, \"output_sizes\", None)\n", " if isinstance(output_sizes, list):\n", " output_sizes = tuple(output_sizes)\n", " if os.getenv(\"VLLM_FP8_MAMBA_INPROJ_DEBUG\"):\n", " logger.info_once(\n", " \"Mamba in_proj per-chunk FP8 eligible=%s weight_scale=%s input_scale=%s output_sizes=%s\",\n", " use_fp8_inproj,\n", " None if weight_scale is None else tuple(weight_scale.shape),\n", " None if input_scale is None else tuple(input_scale.shape),\n", " output_sizes,\n", " )\n", " if use_fp8_inproj:\n", " # Mamba in_proj unfused FP8: apply per-chunk scales.\n", " weight = self.in_proj.weight\n", " weight_scales = weight_scale\n", " input_scales = input_scale\n", " outputs = []\n", " bias = self.in_proj.bias\n", " bias_chunks = None\n", " if bias is not None:\n", " bias_chunks = torch.split(bias, self.in_proj.output_sizes, dim=0)\n", " for idx, out_size in enumerate(self.in_proj.output_sizes):\n", " w_chunk = weight[:, :out_size]\n", " weight = weight[:, out_size:]\n", " b_chunk = None\n", " if bias_chunks is not None:\n", " b_chunk = bias_chunks[idx]\n", " chunk_out = self.in_proj.quant_method.fp8_linear.apply(\n", " input=hidden_states,\n", " weight=w_chunk,\n", " weight_scale=weight_scales[idx],\n", " input_scale=input_scales[idx],\n", " bias=b_chunk,\n", " )\n", " outputs.append(chunk_out)\n", " projected_states = torch.cat(outputs, dim=-1)\n", " else:\n", " projected_states, _ = self.in_proj(hidden_states)\n", ] ) text = text.replace(old, new, 1) # Mark Mamba in_proj to keep per-chunk scales for FP8. if "fp8_keep_scales" not in text: tag = " self.in_proj.fp8_keep_scales = True\n" merged_block = "".join( [ " self.in_proj = MergedColumnParallelLinear(\n", " input_size=hidden_size,\n", " output_sizes=[\n", " intermediate_size,\n", " intermediate_size,\n", " self.groups_ssm_state_size,\n", " self.groups_ssm_state_size,\n", " self.num_heads,\n", " ],\n", " bias=use_bias,\n", " quant_config=quant_config,\n", " prefix=f\"{prefix}.in_proj\",\n", " )\n", ] ) column_block = "".join( [ " self.in_proj = ColumnParallelLinear(\n", " input_size=hidden_size,\n", " output_size=intermediate_size + self.conv_dim + self.num_heads,\n", " bias=use_bias,\n", " quant_config=quant_config,\n", " prefix=f\"{prefix}.in_proj\",\n", " )\n", ] ) if merged_block in text: text = text.replace(merged_block, merged_block + tag, 1) if column_block in text: text = text.replace(column_block, column_block + tag, 1) # Per-chunk FP8 in_proj path is installed by the projection block replacement. bypass_old = ( " if mup_vector is not None:\n" " projected_states = projected_states * mup_vector\n" ) if bypass_old not in text: raise SystemExit("Failed to locate MambaMixer2 mup_vector block") bypass_insert = "".join( [ bypass_old, " bypass_mode = os.getenv(\"VLLM_FP8_MAMBA_INPROJ_BF16_BYPASS\")\n", " if bypass_mode in {\"1\", \"all\"}:\n", " global _MAMBA_INPROJ_BYPASS_USED\n", " if (\n", " is_forward_context_available()\n", " and get_forward_context().attn_metadata is not None\n", " ):\n", " if bypass_mode == \"all\" or _MAMBA_INPROJ_BYPASS_USED < 1:\n", " _MAMBA_INPROJ_BYPASS_USED += 1\n", " with torch.no_grad():\n", " x_bf16 = input_states.to(torch.bfloat16)\n", " in_w = _dequantize_linear_weight_for_ref(\n", " self.in_proj,\n", " getattr(self.in_proj, \"output_sizes\", None),\n", " )\n", " proj_ref = _matmul_weight(x_bf16, in_w)\n", " if self.in_proj.bias is not None:\n", " proj_ref = proj_ref + self.in_proj.bias\n", " if mup_vector is not None:\n", " proj_ref = proj_ref * mup_vector.to(torch.bfloat16)\n", " projected_states = proj_ref.to(projected_states.dtype)\n", " if bypass_mode == \"all\":\n", " logger.info_once(\n", " \"Mamba in_proj BF16 bypass enabled (all layers)\")\n", " else:\n", " logger.info_once(\n", " \"Mamba in_proj BF16 bypass enabled (single call)\")\n", ] ) text = text.replace(bypass_old, bypass_insert, 1) old_out = " output, _ = self.out_proj(hidden_states)\n\n return output\n" if old_out not in text: raise SystemExit("Failed to locate MambaMixer2 output return") insert = "".join( [ " output, _ = self.out_proj(hidden_states)\n", " if os.getenv(\"VLLM_FP8_MAMBA_BF16_REF\") == \"1\":\n", " global _MAMBA_REF_USED\n", " if (\n", " is_forward_context_available()\n", " and get_forward_context().attn_metadata is not None\n", " ):\n", " if _MAMBA_REF_USED < 1:\n", " _MAMBA_REF_USED += 1\n", " with torch.no_grad():\n", " x_bf16 = input_states.to(torch.bfloat16)\n", " in_w = _dequantize_linear_weight_for_ref(\n", " self.in_proj,\n", " getattr(self.in_proj, \"output_sizes\", None),\n", " )\n", " proj_ref = _matmul_weight(x_bf16, in_w)\n", " if self.in_proj.bias is not None:\n", " proj_ref = proj_ref + self.in_proj.bias\n", " if mup_vector is not None:\n", " proj_ref = proj_ref * mup_vector.to(torch.bfloat16)\n", " diff_in = (proj_ref.float() - projected_states.float()).abs()\n", " logger.info_once(\n", " \"Mamba BF16 ref compare (in_proj): mean_abs=%s max_abs=%s ref_norm=%s out_norm=%s\",\n", " diff_in.mean().item(),\n", " diff_in.max().item(),\n", " proj_ref.float().norm().item(),\n", " projected_states.float().norm().item(),\n", " )\n", " ssm_ref = torch.empty(\n", " [\n", " input_states.shape[0],\n", " (self.num_heads // self.tp_size) * self.head_dim,\n", " ],\n", " dtype=proj_ref.dtype,\n", " device=proj_ref.device,\n", " )\n", " torch.ops.vllm.mamba_mixer2(\n", " proj_ref,\n", " ssm_ref,\n", " self.prefix,\n", " )\n", " diff_ssm = (ssm_ref.float() - ssm_output.float()).abs()\n", " logger.info_once(\n", " \"Mamba BF16 ref compare (ssm): mean_abs=%s max_abs=%s ref_norm=%s out_norm=%s\",\n", " diff_ssm.mean().item(),\n", " diff_ssm.max().item(),\n", " ssm_ref.float().norm().item(),\n", " ssm_output.float().norm().item(),\n", " )\n", " gate_ref = proj_ref[..., : self.tped_intermediate_size]\n", " hidden_ref = self.norm(ssm_ref, gate_ref)\n", " out_w = _dequantize_linear_weight_for_ref(self.out_proj)\n", " hidden_ref_bf16 = hidden_ref.to(torch.bfloat16)\n", " ref_out = _matmul_weight(hidden_ref_bf16, out_w)\n", " if self.out_proj.bias is not None:\n", " ref_out = ref_out + self.out_proj.bias\n", " diff_out = (ref_out.float() - output.float()).abs()\n", " logger.info_once(\n", " \"Mamba BF16 ref compare (out_proj): mean_abs=%s max_abs=%s ref_norm=%s out_norm=%s\",\n", " diff_out.mean().item(),\n", " diff_out.max().item(),\n", " ref_out.float().norm().item(),\n", " output.float().norm().item(),\n", " )\n", "\n", " return output\n", ] ) text = text.replace(old_out, insert, 1) path.write_text(text) PY # buildkit

WORKDIR /build

ARG LLAMACPP_COMMIT=c18428423018ed214c004e6ecaedb0cbdda06805

RUN |6 PYTORCH_COMMIT=32cb1dac896fe212d77073a4a53fee840c13442f TORCHAUDIO_COMMIT=0764cfdedb769e63f3ab8b90bc06541a6a2c0b73 NEMO_COMMIT=644201898480ec8c8d0a637f0c773825509ac4dc VLLM_COMMIT=bb80f69bc98cbf062bf030cb11185f7ba526e28a VLLM_CACHE_BUSTER=v1 LLAMACPP_COMMIT=c18428423018ed214c004e6ecaedb0cbdda06805 /bin/sh -c ARCH=$(uname -m) && if [ "$ARCH" = "aarch64" ]; then CUDA_ARCH="121a"; else CUDA_ARCH="120a"; fi && echo "=== Building llama.cpp for $ARCH with CUDA arch $CUDA_ARCH ===" && git clone https://github.com/ggerganov/llama.cpp.git /opt/llama.cpp && cd /opt/llama.cpp && git checkout ${LLAMACPP_COMMIT} && echo "=== Applying hybrid cache fix patch ===" && patch -p1 < /tmp/llama-cpp-hybrid-cache-fix.patch && cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_F16=ON -DCMAKE_CUDA_ARCHITECTURES="$CUDA_ARCH" -DCMAKE_BUILD_TYPE=Release > /tmp/llamacpp_cmake.log 2>&1 || { tail -50 /tmp/llamacpp_cmake.log; exit 1; } && cmake --build build --config Release -j$(nproc) > /tmp/llamacpp_build.log 2>&1 || { tail -50 /tmp/llamacpp_build.log; exit 1; } && cp build/bin/llama-server /usr/local/bin/ && cp build/bin/llama-cli /usr/local/bin/ && cp build/bin/llama-quantize /usr/local/bin/ && cp build/bin/llama-bench /usr/local/bin/ && cp build/bin/*.so* /usr/local/lib/ 2>/dev/null || true && ldconfig && rm -rf /opt/llama.cpp/build && rm -rf /opt/llama.cpp/.git # buildkit

WORKDIR /workspace

Key	Value
description	Unified ASR + TTS + LLM container (ARM64 sm_121 CUDA 13.1 / x86_64 sm_120 CUDA 13.0)
maintainer	nemotron-speech
org.opencontainers.image.ref.name	ubuntu
org.opencontainers.image.version	24.04
version	1.2

Details

Container

2026-04-05 09:42:00 +00:00

OCI / Docker

linux/amd64

23 GiB

Versions (1) View all

latest

2026-04-05

nemotron-speech (sha256:32e686ba622247e38ac0f3240c659f12d4c09e920e68bf802fcd2b34b7ae1575)

Installation

Image layers

Labels