Observations - VectorPeak

大模型岗位观察

Written: 2026.06 讨论大模型岗位时，不能只看岗位名字。更重要的是看它处在整条链路的哪个位置，以及这个位置对技术深度、工程能力、行业理解和面试准备方式分别提出了什么要求。大模型岗位可以先放进这条链路里理解：

数据 -> 训练/对齐 -> 评测 -> 推理部署 -> 应用落地 -> 监控迭代

常见岗位大致包括：大模型算法工程师、大模型开发工程师、大模型数据工程师、大模型推理部署工程师、垂直领域微调工程师。它们都围绕大模型展开，但真正解决的问题并不相同。

算法工程师更靠近训练、对齐和模型能力上限。
推理部署工程师更靠近性能、稳定性和线上成本。
应用开发工程师更靠近业务系统、用户场景和产品落地。
数据工程师支撑训练、微调、评测和模型质量边界。
垂直领域微调工程师负责把通用模型适配到具体行业任务中。

对新人来说，机会密度比概念含金量更重要。一个方向再高级，如果岗位少、门槛高、反馈慢，也不一定适合作为第一选择。更务实的问题是：这个方向有没有足够多的岗位，能不能快速形成作品，面试官能不能理解你的价值，简历以后能不能迁移到其他方向。

岗位速览

应用开发工程师：相对容易入门，重工程实现与业务落地，适合新人、后端开发、数据开发或业务系统开发方向转入。 大模型算法工程师：技术含量和上限较高，深度依赖数学基础、深度学习理论、训练经验和论文阅读能力，通常对学历、论文、科研背景和模型训练经历要求更高。 大模型推理部署工程师：工程壁垒较高，关注模型如何跑得快、跑得稳、跑得便宜，需要后端、系统、GPU、部署和性能优化能力，直接影响线上成本与服务质量。 大模型数据工程师：容易被低估，但在大模型链路中不可或缺。数据质量决定模型训练效果、泛化能力和业务可用性，工作重点在语料清洗、样本构造、数据版本和数据质量控制。 垂直领域微调工程师：最贴近行业落地，负责将通用模型适配到法律、医疗、金融、工业等具体场景中，强调领域理解、数据构造、Prompt 设计、微调经验和评测迭代。

如果是新人或转岗，优先选择能快速形成作品、能被面试官理解、能持续迭代的方向。应用开发、Agent 工程、RAG 落地、模型调用链路和评测系统，通常比一上来冲最窄的高壁垒方向更稳。

大模型算法工程师

大模型算法工程师是模型研发链路中的核心岗位，主要负责模型结构设计、算法优化、训练流程管理和模型性能评估。这个方向决定模型能力的上限，但进入门槛也最高。

岗位定位

算法工程师通常参与模型架构设计、训练任务定义、损失函数设计、训练策略制定、训练过程监控和评估结果分析。更高级的岗位还会参与算法创新，例如设计新的注意力机制、稀疏结构、低秩模块或对齐方法。

关键能力

深度学习理论基础：理解神经网络结构、前向传播、反向传播、梯度计算、参数更新、正则化和优化算法。
Transformer 架构理解：熟悉 Self-Attention、Multi-Head Attention、LayerNorm、位置编码、MLP、残差连接和 KV Cache。
训练范式掌握：理解预训练、指令微调、RLHF、DPO、偏好对齐等阶段的任务目标、数据形式和训练方法。
训练优化经验：熟悉分布式训练、数据并行、模型并行、流水线并行、混合精度训练、梯度累积和 ZeRO 优化。
调优与分析能力：能够根据 Loss 曲线、梯度变化、参数分布和评测结果判断训练状态，定位梯度爆炸、收敛异常、过拟合或欠拟合。
论文阅读与复现能力：能够快速理解前沿论文，并将新的模型结构、训练策略或优化方法落地到具体任务中。

工作流程

任务理解与模型设计：根据任务目标确定模型规模、结构类型、训练目标和核心设计方案。
数据适配与样本处理：参与 Tokenization 策略、输入格式、训练集与验证集划分等设计。
训练调试与性能迭代：监控训练指标，分析异常现象，调整训练参数和优化策略。
评估验证与结果产出：基于验证集、测试集和人工评估结果判断模型表现，并形成可复现的实验结论。

常用工具

算法工程师常用 PyTorch、TensorFlow、HuggingFace Transformers、DeepSpeed、Megatron-LM、ColossalAI、Accelerate、TensorBoard、Weights & Biases、MLflow 等工具。大规模训练中还需要理解 NCCL、CUDA、多卡通信、混合精度和分布式调度。

适合的人

这个方向适合数学、算法、科研和深度学习基础较强的人。如果目标是大厂算法岗，学历、论文、实习、训练经验和项目深度都会被严格考察。对普通新人来说，不建议把它当作唯一入口，可以先从工程化或应用落地项目切入，再逐步补训练和算法能力。

大模型开发工程师

大模型开发工程师主要承担大模型在工程化过程中的实现、封装与平台集成任务，是连接底层算法研究与上层应用系统的关键岗位。它的核心不是训练出一个更强的模型，而是把模型能力稳定地放进真实系统中。

岗位定位

开发工程师通常介入模型推理服务搭建、接口 API 封装、前后端调用、缓存机制设计、任务调度实现、多模型集成、模型评估体系建设等多个工程层面，是大模型应用落地的直接执行者与系统支撑者。

关键能力

模型调用与封装能力：能够使用 HuggingFace Transformers、OpenAI API、Qwen、ChatGLM 等模型或服务，熟悉 Prompt 构造、Token 控制和输出解析。
推理服务部署经验：能够完成本地部署、云端部署及容器化部署，理解 KV Cache、批处理、并发控制等推理优化方法。
系统架构与微服务设计：能基于业务需求完成模块划分、服务拆分、任务路由、接口设计、异常处理和日志记录。
任务调度与状态管理：能够构建智能体或多模块系统中的状态机、上下文管理、历史信息追踪和工具调用链路。
工程质量与可维护性：具备代码组织、测试覆盖、日志记录、错误处理和模块抽象能力。

工作流程

模型能力接入与封装：获取模型权重或接口文档，完成输入格式适配、调用封装和输出结构化。
模型服务化与性能优化：通过 FastAPI、Triton 或 vLLM 部署服务，并结合缓存、限流、负载均衡和请求分流机制。
功能集成与系统设计：构建智能问答、文档摘要、代码生成、知识库检索、Agent 工作流等场景。
多模型管理与路由：设计统一模型管理接口，实现多模型版本切换、上下文状态路由和模型能力分发。
监控与异常处理：统计响应时长、异常次数、Token 消耗、内存使用等指标，并通过日志系统定位问题。

常用工具

开发工程师常用 Python、Go、FastAPI、Flask、Transformers、vLLM、LangChain、LlamaIndex、Redis、MongoDB、PostgreSQL、SQLAlchemy、Docker、Kubernetes、Nginx、Prometheus、Grafana 和 Sentry。

适合的人

这个方向适合希望尽快进入大模型行业的人，尤其适合有后端、数据系统、业务系统、自动化工具或 Web 工程经验的人。它的优势是岗位多、作品容易展示、面试反馈快，也能向 RAG 工程、Agent 工程、AI 平台、推理服务等方向迁移。

大模型数据工程师

数据工程师是支撑预训练、微调与评测各阶段的底层力量，负责数据采集、清洗、结构化、存储与分发。与传统数据分析岗位不同，大模型数据工程师面对的是大规模、高维度、多模态的非结构化数据。

岗位定位

该岗位主要负责搭建数据获取与处理流程，构建高质量训练语料，设计分词策略与 Token 机制，实现分布式数据加载优化，建立数据版本与可追溯机制，并支持多语言、多模态和领域数据处理。

关键能力

大规模文本处理能力：掌握文本清洗、去重、切分、规整和编码处理，熟悉正则表达式、文本处理库和分布式文件系统。
分词与 Token 机制理解：熟悉 BPE、SentencePiece、WordPiece 等分词器，理解词表训练、长度分布控制和文本对齐。
数据增强与样本构造：能够使用改写、扩写、反事实样本、边界样本、指令生成等方法构造训练样本。
分布式数据加载优化：熟悉 DataLoader、Sharding、缓存策略、异步加载和数据流水线设计。
多模态与多语言处理：能够处理文本、图像、语音、视频等多模态数据，并进行格式统一、语义对齐和质量控制。

工作流程

语料采集与初筛：从开源项目、公开网站、内部知识库、社交平台等渠道获取文本，并进行合规审查和初步清洗。
数据清洗与格式规整：统一文本编码，清除特殊字符、HTML 标签、异常断句、乱码和冗余标记。
数据切分与 Token 统计：将长文本切分为适合上下文窗口的片段，统计平均长度、最大 Token 数、分布范围和覆盖情况。
训练样本构造与增强：构造问答、对话、摘要、偏好排序、Few-shot 示例等训练数据。
数据版本管理与溯源：记录每次数据构建的版本号、处理脚本、时间戳、来源和处理规则，保证结果可复现。

常用工具

数据工程师常用 Python、Bash、Pandas、Polars、HuggingFace Datasets、spaCy、Jieba、OpenCC、NLPAug、Spark、Flink、Ray、Airflow、MLflow、DVC、Delta Lake、Parquet、JSONL 等工具。

适合的人

这个方向门槛相对低一些，但要避免长期停留在低价值的数据搬运里。更好的路线是把数据工程做成“模型质量工程”：能解释数据质量如何影响模型效果，能设计数据版本和评测闭环，能做指令数据、合成数据、领域语料和安全数据。

大模型推理部署工程师

推理部署工程师负责模型上线、服务发布与推理性能优化。它解决的问题非常具体：模型怎么跑得快、跑得稳、跑得便宜。

岗位定位

该岗位通常需要与算法、开发、系统运维、安全团队协作，在模型格式转换、量化、硬件适配、服务封装、资源调度等多个层面形成闭环，是大模型从实验室走向生产环境的关键执行者。

关键能力

模型格式转换与兼容适配：掌握 PyTorch、ONNX、TensorRT、GGUF、vLLM 等格式或框架之间的转换流程。
推理加速与性能优化：熟悉 FP16、INT8、KV Cache、Batching、PagedAttention、多线程异步调用等推理优化方法。
多卡部署与资源调度：掌握多卡部署、NCCL 通信、模型并行、张量并行、流水线并行、GPU 负载监控和资源分配策略。
服务封装与接口管理：能够使用 FastAPI、Flask、Triton、BentoML、gRPC 等构建模型服务接口。
监控与容错能力：熟悉请求量、响应时延、失败率、硬件利用率等指标监控，能够设计熔断、重启、超时、回退和告警机制。

工作流程

模型接收与格式标准化：获取训练完成的模型及配置文件，完成格式转换和输入输出结构标准化。
推理引擎选择与性能测试：根据部署场景选择 vLLM、TensorRT、ONNX Runtime、Triton 等方案，并进行延迟、吞吐和显存测试。
服务封装与线上部署：基于推理方案封装模型服务，配置多进程或多实例机制，完成 Docker 化与持续集成配置。
资源调度与运行监控：根据模型资源需求配置 GPU 或 CPU-GPU 混合部署，使用监控工具观察推理链路。
优化迭代与问题修复：基于真实调用数据和用户反馈持续优化响应路径、推理性能和异常处理机制。

常用工具

推理部署工程师常用 ONNX Runtime、TensorRT、vLLM、Triton Server、DeepSpeed Inference、FastAPI、BentoML、gRPC、Docker、Kubernetes、NVIDIA Container Toolkit、Nginx、Prometheus、Grafana、Sentry 和 ELK。

适合的人

这个方向很有价值，但并不适合所有新人默认选择。它更适合有后端、系统、Linux、GPU、C++、高性能计算或部署经验的人。如果基础还不够，可以先从应用服务和简单推理部署做起，再逐步深入性能优化和基础设施。

垂直领域微调工程师

垂直领域微调工程师专注于模型在特定行业或任务上的再训练与能力定制。它的价值在于把通用模型变成能解决具体问题的行业模型。

岗位定位

与算法工程师不同，微调工程师通常不负责从零构建模型底层结构，而是更多参与数据处理、训练策略设计、指标评估与迭代优化，围绕法律问答、医疗报告生成、金融分析、政务问询、工业运维等任务构建专业能力闭环。

关键能力

行业知识与任务理解：理解目标行业的术语、流程、知识结构和业务边界，能抽象出任务定义与评价标准。
模型微调与参数优化：掌握全参数微调、冻结微调、LoRA、QLoRA、Adapter、Prefix Tuning 等技术路线。
指令构造与 Prompt 设计：能够针对具体任务构造高质量 Prompt 模板、示例指令和上下文配置。
数据增强与标注指导：具备设计反事实样本、扰动样本、边界样本等方法的经验，能够协助构建高质量样本集。
评估指标与质量控制：熟悉 BLEU、ROUGE、EM、F1、准确率、召回率、人工评分和 A/B 测试等评估方式。

工作流程

场景需求分析与任务定义：根据业务需求提炼可落地的模型任务，明确输入输出格式、预期效果和边界条件。
语料准备与数据构建：联合数据工程师完成语料搜集、结构化、指令体系设计、样本构造和标签体系建设。
模型选择与训练策略制定：根据任务复杂度和资源条件选择 Qwen、ChatGLM、LLaMA、Baichuan 等预训练模型，并确定微调策略。
训练调试与指标监控：持续监控 Loss、精度、样本覆盖和泛化表现，诊断过拟合、漂移和语义偏差。
评估验证与业务集成：使用测试集、自动指标、人工评估或 A/B 测试验证效果，确认具备上线条件后对接开发或推理部署团队。

常用工具

垂直领域微调工程师常用 Transformers、PEFT、TRL、DeepSpeed、ColossalAI、Weights & Biases、TensorBoard、Pandas、Datasets、spaCy、Jieba、OpenCC、Label Studio、Doccano 等工具。

适合的人

这个方向适合既愿意理解行业，又愿意掌握模型训练和评测的人。它不是单纯调几个参数，而是把业务问题转化为数据、任务、训练和评估闭环。越往深处做，越容易形成专家化壁垒。

需要谨慎选择的方向

下面几个方向都有真实价值，也都有做得很好的人。这里的“谨慎”不是否定它们，而是站在新人选择入口的角度，提醒不要被概念热度带着走。

AI 产品经理

AI 产品经理能把模糊的 AI 能力翻译成清晰的产品形态，也能在算法、工程和业务之间做翻译。做得好的 AI PM 很有价值。但新人入口并不轻松：各专业、各学历的人都在挤，岗位数量不一定多，钱也不一定比技术岗高。更重要的是，PRD、竞品分析、需求拆解等工作已经能被模型部分辅助甚至替代。如果选择 AI PM，真正要证明的不是“不写代码”，而是能定义问题、判断机会、协调资源、推动落地。AI 时代的产品能力不再是绕开技术，而是更懂技术边界。

AI Infra

AI Infra 含金量很高，训练框架、推理优化、分布式调度、GPU 通信和系统性能都是行业里稀缺的技术能力。但它对普通新人不是默认入口。一个应用组可能招很多人，AI Infra 组可能只招少数人。你竞争的不只是同届同学，也包括有多年 C++、系统、分布式和 GPU 经验的人。如果你已经有系统基础，这个方向很值得；如果还没有，更现实的策略是先从应用、推理部署或工程化链路切入，再逐步补系统能力。

面试准备重点

不同岗位的面试重点差异很大，准备时最好围绕目标岗位展开，而不是泛泛地“学大模型”。 算法工程师：重点准备 Transformer 结构、训练机制、优化策略、Loss 分析、论文复现、模型改造和实验设计。 开发工程师：重点准备模型封装、API 设计、RAG、Agent、上下文管理、任务调度、日志系统、系统设计和工程项目。 数据工程师：重点准备语料清洗流程、Tokenizer、数据增强、数据质量、数据版本、样本构造和数据处理脚本。 推理部署工程师：重点准备 ONNX、TensorRT、vLLM、KV Cache、量化、并发优化、多卡部署、服务监控和故障处理。 垂直领域微调工程师：重点准备任务定义、领域数据、Prompt、LoRA、评测指标、业务闭环和上线后的迭代方式。

一个更实用的选择原则

新人选方向，不要只看方向听起来多高端，而要看它能不能形成正循环。一个好的起步方向，最好同时满足几个条件：

岗位数量足够多
能快速做出可展示项目
面试反馈来得快
简历能迁移到其他方向
技术栈和行业趋势在同一条线上

所以当前更稳的路线，通常不是在最窄、最硬、最卷的入口硬冲，而是先站到大模型应用落地的主航道里：Agent、RAG、模型调用链路、评测、推理服务、业务自动化、垂直场景微调。先进入牌桌，再根据反馈往更深的地方走。职业选择不是一次性押注，而是持续校准。

​大模型岗位观察

​岗位速览

​大模型算法工程师

​岗位定位

​关键能力

​工作流程

​常用工具

​适合的人

​大模型开发工程师

​岗位定位

​关键能力

​工作流程

​常用工具

​适合的人

​大模型数据工程师

​岗位定位

​关键能力

​工作流程

​常用工具

​适合的人

​大模型推理部署工程师

​岗位定位

​关键能力

​工作流程

​常用工具

​适合的人

​垂直领域微调工程师

​岗位定位

​关键能力

​工作流程

​常用工具

​适合的人

​需要谨慎选择的方向

​AI 产品经理

​推荐算法

​AI Infra

​面试准备重点

​一个更实用的选择原则

大模型岗位观察

岗位速览

大模型算法工程师

岗位定位

关键能力

工作流程

常用工具

适合的人

大模型开发工程师

岗位定位

关键能力

工作流程

常用工具

适合的人

大模型数据工程师

岗位定位

关键能力

工作流程

常用工具

适合的人

大模型推理部署工程师

岗位定位

关键能力

工作流程

常用工具

适合的人

垂直领域微调工程师

岗位定位

关键能力

工作流程

常用工具

适合的人

需要谨慎选择的方向

AI 产品经理

推荐算法

AI Infra

面试准备重点

一个更实用的选择原则