前端工程师转 AI Agent 开发,我的学习路线

这篇文章不是一份“权威路线图”,而是我作为一名前端工程师,在转向 AI Agent / AI 应用开发过程中的阶段性思考和学习计划。

我希望把这个过程记录下来,一方面方便自己回顾,另一方面也给同样想从前端转向 AI 应用开发的同学一个参考。

一、为什么要转 AI Agent 开发?

让我决定拓宽方向的原因很直接:现在已经进入 AI 时代了,前端开发不会消失,但如果只会做前端,未来的路会越来越窄。

我过去 4 年主要做前端开发。以前,前端开发是一件很具体的事情,产品给出需求,设计给出页面,而我只需要负责把页面实现出来,把交互做好,接上接口,把异常处理掉,最后让用户可以稳定地使用这个功能。后来,前端开始涉及更多工程化、性能优化、组件设计和项目架构相关的内容,前端开发也不再只是单纯把页面写出来。而现在,AI 又把这个变化往前推了一步,各大小公司都在前赴后继地转向 AI,它不仅开始影响软件开发的方式,也开始影响前端工程师未来的能力边界。

我开始关注 AI Agent。AI Agent 是一种应用形态,它把大模型接入真实工具和业务流程,变成一个能帮人干活的系统。相比单纯调用大模型生成一段回答,AI Agent 更像是一个能理解任务、结合上下文、调用工具并完成具体工作的智能助手。它不只是“会聊天”,而是可以围绕一个目标去检索资料、分析问题、生成结果,甚至协助推进后续动作。

对我来说,在 AI 时代里,主动把自己的能力从单纯的前端开发,扩展到更完整的 AI Agent 开发,也算是在追热点。但这个热点不是短期噱头,而是一个正在改变软件开发和职业方向的长期趋势。

开头

二、前端转 AI Agent 的跨度

一开始,我也想过先从 Python 学起。后来我想明白自己想做的到底是哪一层。学习 AI Agent 并不意味着放弃自己熟悉的技术栈,因为各大模型调用方式和各种工具,基本都有支持 Node.js 的开发方式。

在还没有接触机器学习、数据处理、模型训练这些更底层内容的时候,Python 并不是必须的。等后面熟悉 AI 应用开发之后,如果需要接触更底层的内容,再补 Python 会更合适。只是做 AI 应用,TypeScript + Node.js 完全可以作为起点。

AI 应用开发的重点,不是从零训练一个模型,而是如何把现有模型能力接入真实业务,让它在具体场景里产生价值。

调用大模型接口、实现流式输出、处理工具调用、接入数据库、做 RAG 检索、封装业务 API、做权限控制,这些事情 Node.js 都能完成。

对我来说,先用熟悉的 TypeScript 把 AI 应用开发的主线跑通,比一开始同时学习新语言、新框架、新概念要现实得多。现在很多主流开源项目,也有不少是用 TypeScript 做出来的。

所以我的选择是:先用自己熟悉的技术栈进入这个方向。后面遇到确实需要 Python 的场景,再补 Python,给自己找一个更容易启动的入口。

三、理解 AI Agent

我现在对 AI Agent 的理解是:AI Agent 是一个能够理解用户目标、结合上下文、调用工具,并在一定流程中自主完成任务的 AI 应用。

对比普通聊天机器人偏向的回答,Agent 更偏向做事

比如用户问:“帮我整理一下这个项目最近的风险点,并列出每个风险对应的负责人。”

如果只是普通聊天,模型可能会给出一段很通用的建议,比如建议关注进度风险、技术风险、沟通风险。但这对真实工作帮助有限,因为它没有团队上下文,也不知道这个项目最近发生了什么。

一个更接近 Agent 的系统,应该能够去查项目文档、会议纪要、任务状态、历史问题,然后基于这些真实信息进行总结。如果它发现某个风险没有负责人,甚至可以继续提示需要补充责任人。再进一步,它还可以创建待办、发通知、生成日报,甚至接入更多工具,完成一些自动化操作。现在很多主流 Agent 产品,也都在快速增强这类能力。

当然,第一阶段我更关心的是先把几个核心问题弄明白:大模型如何接入,Prompt 如何设计,流式输出怎么做,模型如何调用工具,RAG 如何让回答基于知识库等。

这些看起来像一个个技术点,但串起来以后,其实就是 AI Agent 的基本骨架。当模型调用工具、检索知识、执行任务这些能力逐步串起来之后,AI Agent 才会从一个普通聊天入口,慢慢变成一个真正能参与工作流程的系统。

四、学习路线

学习 AI Agent 很容易被各种方向带着跑。

一会儿看到模型训练,一会儿看到微调;一会儿看到 RAG,一会儿又看到 Tool Calling、MCP、LangChain、LangGraph、向量数据库、工作流编排。每个概念都很重要,每个方向也都能继续深入。

但对我来说,现阶段最重要的不是一上来什么都学,而是先明确边界。如果不先划清边界,很容易什么都想学,最后什么都学得很浅。

我更想先解决的是:如何使用现有大模型能力,把大模型接入真实业务系统,让 AI 能力变成一个用户可以使用、工程上可以维护、后续可以扩展的应用能力。

所以,我给自己定的学习路线,会围绕 AI Agent 应用开发逐步展开。

学习路线

1. 大模型调用和 Prompt Engineering

第一个阶段,先学会和大模型打交道。

这里不只是简单调一次接口,而是要理解大模型在应用里到底怎么工作。比如 system、user、assistant 这些消息角色分别起什么作用,模型参数会怎样影响输出。

同时,这一阶段也要学习 Prompt Engineering。

学习 Prompt 后会发现,Prompt 不只是“提示词”,而是一种和模型协作的任务说明书。它需要告诉模型当前任务是什么、输入内容是什么、输出格式是什么、有哪些限制、不确定时应该怎么处理。

很多时候模型回答不好,并不是模型笨,而是没有把任务、上下文和边界讲清楚。

这一阶段的目标,是先把大模型基础调用和 Prompt 设计跑通。至少能做出一个完整的聊天链路:用户输入问题,后端调用模型,能让模型按照相对稳定的格式返回内容。

2. 调用工具 Tool Calling

第二个阶段,学习 Tool Calling。

通俗来说,调用工具一方面是让模型判断自己要使用哪个工具,另一方面是把模型返回的指定格式数据作为参数传递给工具函数,最后把结果再回传给模型,以此给模型添加使用工具的能力。

模型本身并不知道外部系统里的实时数据,也不能凭空访问业务接口。如果希望它完成更具体的任务,就需要通过 Tool Calling 把模型和外部工具连接起来。

这一阶段需要重点理解:如何定义工具,如何描述工具能力,如何设计工具参数,如何校验模型传来的参数,如何执行工具,如何把工具结果再交还给模型。

工具调用看起来像是模型能力,但背后其实是工程设计。工具定义得不清楚,模型可能不知道什么时候该调用;参数设计得不合理,后端执行起来就会很混乱。

所以 Tool Calling 是 AI Agent 开发里非常核心的一步。

3. 检索增强生成 RAG

第三个阶段,学习 RAG。

大模型自身的知识是有限的。它不知道本地文档,不知道公司内部资料,也不知道某些实时变化的信息。如果直接让模型回答,它回答得可能会比较笼统,或者只是告诉我们可以去哪里查看。

RAG 的意义就在于:先从外部知识库检索相关内容,再让模型基于这些内容回答。

这一阶段需要理解 Embedding 是什么,为什么要把文本变成向量,向量数据库解决什么问题,文档如何切分,除了向量检索还有哪些检索方式,检索到的内容又如何放进上下文里交给模型。

RAG 看起来只是“检索 + 生成”,但真正做起来会遇到很多细节。比如 chunk 太大或太小都会影响效果,检索结果不准确会影响回答质量,上下文太长会增加成本和时间,没有检索到内容时也要控制模型的回答。

这一阶段的重点,不只是把 RAG 跑通,还要理解它在 AI Agent 里的位置:负责给模型补充外部知识,让回答不只依赖模型自身记忆。

4. Agent 工作流和任务编排

第四个阶段,学习 Agent 的工作流和任务编排。

当模型可以调用工具,也可以基于外部知识回答之后,下一步就是让它围绕一个目标完成多步骤任务。

这时就会涉及任务拆解、步骤规划、状态管理、上下文传递、工具调用顺序、失败重试等问题。

简单来说,AI Agent 不应该只是“调用一次模型,然后返回结果”。更完整的 Agent 往往需要经历一个过程:理解目标,判断需要哪些信息,决定是否调用工具,读取工具结果,再继续分析,最后生成结果。

这一阶段可以开始理解 Workflow、Planning、Memory、Multi-step Reasoning 这些概念。

对我来说,先理解一个 Agent 如何完成一个简单的多步骤任务,比一上来研究多个 Agent 怎么协作更重要。

走到这一步之后,就已经可以尝试做一个真实项目了。

5. AI Agent 工程化能力

第五个阶段,是补齐 AI Agent 的工程化能力。

真正做一个 AI Agent 应用,不只是写 Prompt,也不只是调用模型。它需要有完整的工程系统来支撑。

比如服务端要负责模型调用、会话管理、工具编排、上下文管理、数据存储、错误处理、日志记录和接口封装。前端要负责输入交互、流式展示、结果渲染、状态反馈和用户体验。

这一阶段我会以实践为主,继续用 TypeScript / Node.js 作为主要起点。后端服务可以选择 Hono、Koa,或者直接使用 NestJS;数据库选择 PostgreSQL,ORM 可以考虑 Prisma 或 Drizzle,向量数据库可以选择 Qdrant,异步任务后面可以通过 Worker 结合 Redis 和 BullMQ。

但我不会一开始就把所有技术都堆上去。

第一版最重要的是先跑通核心链路。等基础能力稳定之后,再逐步补上任务队列、日志、监控、安全和部署这些工程能力。

AI Agent 最终还是一个软件系统,所以工程化能力一定绕不开。

6. LangChain 和 LangGraph

等大模型调用、Prompt、Tool Calling、RAG 和基础 Agent 工作流跑通之后,我会开始学习 LangChainLangGraph。这两个框架刚好也支持 TypeScript。

LangChain 更像是一个 AI 应用开发工具库,它把模型调用、Prompt、工具调用、RAG、记忆、链式调用等能力做了封装,可以帮助开发者更快搭建 AI 应用。

LangGraph 则更偏向 Agent 工作流编排。相比简单的一次模型调用,它更适合处理多步骤任务、状态流转、条件判断、循环执行和复杂 Agent 流程。

先用原生方式把核心流程跑通,再学习 LangChain 和 LangGraph。这样看框架时,就能更清楚它们到底解决了什么问题,也能更快上手和理解。

我的计划是:在真正需要 LangChain 或 LangGraph 之前,先进行下面的项目实践。等项目发展到确实需要框架能力时,再把它们逐步引入进来。

五、用项目实践检验学习路线

学习 AI Agent 最好的方式,肯定不是只看概念,而是做一个真实项目。

我目前要做的项目,是一个 AI 助理,同时也是在工作中需要的一个团队 AI 助理。

这个项目对我来说比较合适,因为它既有实际业务价值,又能把 AI 应用开发中的关键能力串起来。后续也能接入自己的知识库,以及为我的 blog 添加一个 AI 助理。

第一版团队 AI 助理先解决几个简单但真实的问题。

比如团队知识库问答。很多团队都有大量文档,但真正找起来很痛苦。业务规则、技术方案、流程规范、历史问题,可能散落在不同系统里。AI 助理如果能基于知识库回答,并且给出来源,就已经能节省很多重复沟通成本。

再比如日常工作跟进。团队每天都会产生进度、风险、待办、负责人这些信息。如果 AI 能帮助汇总这些内容,就可以减少一些机械整理工作。

会议辅助也是一个很自然的场景。会议结束后,AI 可以帮助提取结论、待办和责任人。现在的会议基本都能自动生成相关会议纪要,但这些纪要后续能不能被持续跟踪、快速检索,我想 AI 助理可以很好地解决这个问题。

我选择这个项目,不是因为它听起来最酷,而是因为它足够贴近真实工作。它会让我逐步思考数据来源、权限控制、回答可信度和用户体验这些问题。

能够做一个真实解决这些问题的项目,比单纯做一个聊天 Demo 更有意义,也更能得到成长。

团队AI助理下

六、总结

以上是我现阶段对 AI Agent 开发的学习路线。对我来说,这条路既不会完全脱离已有的工程经验,又能让我从单纯的前端开发,逐步扩展到更完整的 AI Agent 应用开发。

它可能会随着实践不断调整,但至少现在,我已经知道自己要从哪里开始了。

如果你也是前端开发,你肯定知道前端技术的更新迭代很快,学习新技术是一种常态 :)

这篇文章算是一个起点。后面我会继续记录学习 AI Agent / AI 应用开发的过程,更希望每篇都解决一个真实问题。

评论