AI 大模型全景与选型指南 · Dylan AI Agent Nexus

Landscape of LLMs, VLMs, Embeddings, Speech, Vision and Generative Models

概览与原则

本页从能力与应用视角,系统梳理当前主流的 AI 模型谱系与典型用途,并给出在本地化部署与企业落地场景下的选型建议。我们强调:数据主权、安全合规、可维护的工程化治理,以及稳定可控的推理性能。

关键原则:需求驱动(任务与约束)→ 模型族群(能力与成本)→ 部署形态(云/本地)→ 推理后端(GPU/量化)→ 观测与治理。

大语言模型(LLM)

聚焦文本理解、生成、结构化信息抽取、工具调用、函数/工作流编排等。

  • 综合通用 GPT 系列、DeepSeek、Claude、Gemini、Mistral、Llama、Yi、Qwen、GLM 等。
  • 中文优化 Qwen 系列、GLM、Yi、Baichuan、Chinese-LLaMA 等。
  • 开源自部署 Llama 家族、Mistral、Qwen 开源版、Phi、TinyLlama、Mixtral 等(可配合 Ollama)。
  • 函数/工具调用 选择支持 Function/Tool Calling 的模型与 SDK,便于系统集成。
  • RAG 最佳拍档 结合高质量 Embedding、检索、重排序与上下文压缩。
落地建议:优先确定任务类型(问答/写作/结构化/代理),评估上下文窗口、推理成本与延迟,若需本地化可先用中等规模模型试点。

多模态语言模型(VLM)

支持图像/文本(部分支持音频/视频)输入输出的模型,适合图文理解、图文问答、表格/文档解析、视觉定位描述等。

  • 代表 LLaVA 家族、Qwen-VL、IDEFICS、MiniCPM-V、InternVL 等。
  • 场景 图片理解与问答、UI/报表解析、文档结构抽取(配合 OCR)。
  • 部署 本地推理需关注显存与上下文长度;可用 TensorRT/INT4 量化优化延迟。

向量与 Embedding 模型

用于文本/文档/代码/多模态的语义向量化,是 RAG、搜索与聚类的基础。

  • 中文向量 bge/击中率优化的中文 Embedding、m3e 等。
  • 英文/多语 text-embedding-3、E5、GTE、Instructor 等。
  • 重排序 cross-encoder/mmono/multilingual reranker 提升相关性与鲁棒性。
  • 实践 统一切片策略、元数据与去重;向量库选型与索引参数需压测验证。

语音(ASR/TTS)

ASR(语音转文本)与 TTS(文本转语音)支撑语音助手、会议纪要、无障碍阅读等场景。

  • ASR Whisper 家族、Paraformer、Conformer、WeNet、NeMo-ASR。
  • TTS VITS、FastPitch、Tacotron2、NeMo-TTS、CosyVoice、F5-TTS 等。
  • 中文适配 选择具备中文语料与声码器(HiFi-GAN)优化的方案。
  • 工程建议 实时流式、增量缓存、端点检测(VAD)、说话人分离(SD)。

视觉理解(Detection/Segmentation/OCR)

适用于质检、安防、工业识别、票据与文档数字化等。

  • 检测 YOLOv5/8/9/10、RT-DETR、DETR、DINO 系列。
  • 分割 SAM(Segment Anything)、Mask R-CNN、U2Net、DeepLab。
  • OCR PP-OCR、TrOCR、Tesseract(传统)与多模态解析结合。
  • 实践 结合后处理(版面分析、结构还原)与知识规则提升可用性。

文生图 / 图生图(Diffusion)

品牌视觉、海报生成、风格化与修复增强的核心能力,建议配合 ComfyUI 进行可视化编排与留痕。

  • 基础模型 Stable Diffusion 1.5/2.x、SDXL、Stable Cascade、FLUX、Kandinsky。
  • 增强 ControlNet/T2I-Adapter、LoRA/Embeddings、IP-Adapter、修复/超分链路。
  • 部署 本地 GPU 推理,关注显存与显卡算力;结合批量渲染、模板化输出。

视频生成 / 动画

适合营销短视频、动画分镜、运动风格迁移;对显存与存储带宽要求较高。

  • 扩散序列 AnimateDiff、Stable Video Diffusion、VideoCrafter 系列。
  • 工具链 帧插值/上采样、运动控制与后期合成(与 ComfyUI 结合)。

中文场景选型参考

  • 通用问答/写作:Qwen/GLM/Yi(本地或云),或 Llama/Mistral 派生。
  • 行业知识检索:高质量中文 Embedding + Reranker + RAG(段落切片+元数据)。
  • 政企文档处理:VLM(文档解析)+ OCR + 版面分析 + 审计留痕。
  • 品牌视觉生成:SDXL/FLUX + ControlNet/LoRA + ComfyUI 模板化。
  • 语音能力:Whisper/Paraformer(ASR)+ CosyVoice/F5-TTS(TTS)。

推理后端与性能

  • GPU 栈:CUDA/cuDNN/TensorRT 的版本匹配与环境变量;参考相关科普页。
  • 量化/加速:INT8/INT4、KV Cache、Flash/Paged Attention、Speculative/Medusa、LoRA 合并。
  • 上下文:长上下文模型的显存开销与吞吐权衡;RAG/摘要压缩减少上下文成本。
  • 观测:记录延迟、吞吐、显存、失败率与质量指标,建立压测基线。

部署形态与治理

  • 接入方式:云 API、私有化 API、本地推理(Ollama/自建服务)。
  • 容器化:Docker/Compose 部署,结合 GPU 与网络隔离;见容器化指南。
  • 安全合规:数据最小化、脱敏、权限分级、审计与配额、模型来源许可核验。
  • 成本:推理成本(显卡/电力/云计费)与质量/延迟平衡,做好容量规划。

扩展阅读(关联文档)

已模拟提交:数据已缓存到本地(等待后端 API 接入)