AI 大模型全景与选型指南 · Dylan AI Agent Nexus

Landscape of LLMs, VLMs, Embeddings, Speech, Vision and Generative Models

概览与原则

本页从能力与应用视角，系统梳理当前主流的 AI 模型谱系与典型用途，并给出在本地化部署与企业落地场景下的选型建议。我们强调：数据主权、安全合规、可维护的工程化治理，以及稳定可控的推理性能。

关键原则：需求驱动（任务与约束）→ 模型族群（能力与成本）→ 部署形态（云/本地）→ 推理后端（GPU/量化）→ 观测与治理。

大语言模型（LLM）

聚焦文本理解、生成、结构化信息抽取、工具调用、函数/工作流编排等。

综合通用 GPT 系列、DeepSeek、Claude、Gemini、Mistral、Llama、Yi、Qwen、GLM 等。
中文优化 Qwen 系列、GLM、Yi、Baichuan、Chinese-LLaMA 等。
开源自部署 Llama 家族、Mistral、Qwen 开源版、Phi、TinyLlama、Mixtral 等（可配合 Ollama）。
函数/工具调用选择支持 Function/Tool Calling 的模型与 SDK，便于系统集成。
RAG 最佳拍档结合高质量 Embedding、检索、重排序与上下文压缩。

落地建议：优先确定任务类型（问答/写作/结构化/代理），评估上下文窗口、推理成本与延迟，若需本地化可先用中等规模模型试点。

多模态语言模型（VLM）

支持图像/文本（部分支持音频/视频）输入输出的模型，适合图文理解、图文问答、表格/文档解析、视觉定位描述等。

代表 LLaVA 家族、Qwen-VL、IDEFICS、MiniCPM-V、InternVL 等。
场景图片理解与问答、UI/报表解析、文档结构抽取（配合 OCR）。
部署本地推理需关注显存与上下文长度；可用 TensorRT/INT4 量化优化延迟。

向量与 Embedding 模型

用于文本/文档/代码/多模态的语义向量化，是 RAG、搜索与聚类的基础。

中文向量 bge/击中率优化的中文 Embedding、m3e 等。
英文/多语 text-embedding-3、E5、GTE、Instructor 等。
重排序 cross-encoder/mmono/multilingual reranker 提升相关性与鲁棒性。
实践统一切片策略、元数据与去重；向量库选型与索引参数需压测验证。

语音（ASR/TTS）

ASR（语音转文本）与 TTS（文本转语音）支撑语音助手、会议纪要、无障碍阅读等场景。

ASR Whisper 家族、Paraformer、Conformer、WeNet、NeMo-ASR。
TTS VITS、FastPitch、Tacotron2、NeMo-TTS、CosyVoice、F5-TTS 等。
中文适配选择具备中文语料与声码器（HiFi-GAN）优化的方案。
工程建议实时流式、增量缓存、端点检测（VAD）、说话人分离（SD）。

视觉理解（Detection/Segmentation/OCR）

适用于质检、安防、工业识别、票据与文档数字化等。

检测 YOLOv5/8/9/10、RT-DETR、DETR、DINO 系列。
分割 SAM（Segment Anything）、Mask R-CNN、U2Net、DeepLab。
OCR PP-OCR、TrOCR、Tesseract（传统）与多模态解析结合。
实践结合后处理（版面分析、结构还原）与知识规则提升可用性。

文生图 / 图生图（Diffusion）

品牌视觉、海报生成、风格化与修复增强的核心能力，建议配合 ComfyUI 进行可视化编排与留痕。

基础模型 Stable Diffusion 1.5/2.x、SDXL、Stable Cascade、FLUX、Kandinsky。
增强 ControlNet/T2I-Adapter、LoRA/Embeddings、IP-Adapter、修复/超分链路。
部署本地 GPU 推理，关注显存与显卡算力；结合批量渲染、模板化输出。

视频生成 / 动画

适合营销短视频、动画分镜、运动风格迁移；对显存与存储带宽要求较高。

扩散序列 AnimateDiff、Stable Video Diffusion、VideoCrafter 系列。
工具链帧插值/上采样、运动控制与后期合成（与 ComfyUI 结合）。

中文场景选型参考

通用问答/写作：Qwen/GLM/Yi（本地或云），或 Llama/Mistral 派生。
行业知识检索：高质量中文 Embedding + Reranker + RAG（段落切片+元数据）。
政企文档处理：VLM（文档解析）+ OCR + 版面分析 + 审计留痕。
品牌视觉生成：SDXL/FLUX + ControlNet/LoRA + ComfyUI 模板化。
语音能力：Whisper/Paraformer（ASR）+ CosyVoice/F5-TTS（TTS）。

推理后端与性能

GPU 栈：CUDA/cuDNN/TensorRT 的版本匹配与环境变量；参考相关科普页。
量化/加速：INT8/INT4、KV Cache、Flash/Paged Attention、Speculative/Medusa、LoRA 合并。
上下文：长上下文模型的显存开销与吞吐权衡；RAG/摘要压缩减少上下文成本。
观测：记录延迟、吞吐、显存、失败率与质量指标，建立压测基线。

部署形态与治理

接入方式：云 API、私有化 API、本地推理（Ollama/自建服务）。
容器化：Docker/Compose 部署，结合 GPU 与网络隔离；见容器化指南。
安全合规：数据最小化、脱敏、权限分级、审计与配额、模型来源许可核验。
成本：推理成本（显卡/电力/云计费）与质量/延迟平衡，做好容量规划。

扩展阅读（关联文档）

已模拟提交：数据已缓存到本地（等待后端 API 接入）