關(guān)于舉辦 “構(gòu)建企業(yè)級(jí)可控自進(jìn)化大模型智能體:LLM RL 強(qiáng)化學(xué)習(xí)內(nèi)核技術(shù)、七大關(guān)鍵痛點(diǎn)解決方案與項(xiàng)目落地實(shí)戰(zhàn)” 線(xiàn)上高級(jí)研修講座的通知
各有關(guān)單位:
當(dāng)前,大模型智能體正邁入以 “推理能力” 為核心競(jìng)爭(zhēng)力的新紀(jì)元。OpenAI CEO Sam Altman 多次公開(kāi)表示,將大模型打造為高效推理引擎才是技術(shù)演進(jìn)的正確方向。尤其在基于數(shù)學(xué)題解、代碼生成、邏輯推演的復(fù)雜任務(wù)中,如何持續(xù)提升大模型解決難題的 “思考、反思、自?xún)?yōu)化” 能力,從而確保智能體產(chǎn)品可控、靈活且具備持續(xù)進(jìn)化能力,已成為 Agentic AI 成功的關(guān)鍵。強(qiáng)化學(xué)習(xí)(Reinforcement Learning)正是推動(dòng)這一躍遷的核心引擎。谷歌首席科學(xué)家 Jeff Dean 曾指出,通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)經(jīng)驗(yàn)驅(qū)動(dòng)的能力進(jìn)化,是提升 LLM 智能體能力的清晰路徑。從 GPT 系列采用的 RLHF+PPO 策略對(duì)齊,到 DeepSeek 提出的可編程強(qiáng)化學(xué)習(xí)(GRPO)與自監(jiān)督獎(jiǎng)勵(lì)調(diào)度,再到 Google Gemini 實(shí)踐的多 Agent 協(xié)同演化和 self - play 優(yōu)化,強(qiáng)化學(xué)習(xí)已成為提升推理智能體泛化能力、自適應(yīng)性與演化能力的核心驅(qū)動(dòng)力。
在此背景下,為幫助各單位成功落地大模型智能體技術(shù),構(gòu)建可控、可靠、可規(guī)模化的 Agentic AI 系統(tǒng),CIIT 項(xiàng)目辦公室聯(lián)合北京智益方信息科技有限公司、北京智聯(lián)新一代信息技術(shù)有限公司將于 2025 年 7 月 25 日至 27 日舉辦 “構(gòu)建企業(yè)級(jí)可控自進(jìn)化大模型智能體:LLM RL 強(qiáng)化學(xué)習(xí)內(nèi)核技術(shù)、七大關(guān)鍵痛點(diǎn)解決方案與項(xiàng)目落地實(shí)戰(zhàn)” 線(xiàn)上高級(jí)實(shí)訓(xùn)講座。本講座課程以強(qiáng)化學(xué)習(xí)技術(shù)體系為核心,系統(tǒng)解析 RLHF→GRPO - DAPO→TTRL→AZR 五階段閉環(huán)推理系統(tǒng)的工程實(shí)現(xiàn)路徑,涵蓋算法設(shè)計(jì)、訓(xùn)練機(jī)制與部署落地的全鏈路技術(shù)方案。特邀曾任硅谷頂級(jí) AI 研究機(jī)構(gòu) Chief Technology Officer、Chief AI Officer、Chief Data Scientist 等職位的專(zhuān)家授課,通過(guò) “實(shí)戰(zhàn)驅(qū)動(dòng) + 源碼解析 + 項(xiàng)目落地” 三位一體教學(xué)模式,深度賦能學(xué)員掌握強(qiáng)化學(xué)習(xí)核心技術(shù),全面提升模型 “能思考、能反饋、能自進(jìn)化” 的核心能力。課程以五大強(qiáng)化學(xué)習(xí)核心技術(shù)為基礎(chǔ):RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)),從人類(lèi)偏好數(shù)據(jù)出發(fā),訓(xùn)練獎(jiǎng)勵(lì)模型并結(jié)合 PPO 優(yōu)化策略,構(gòu)建模型對(duì)齊能力與基礎(chǔ)推理質(zhì)量控制機(jī)制;GRPO(群體相對(duì)策略?xún)?yōu)化),以 Python 定義任務(wù)反饋邏輯,替代傳統(tǒng)獎(jiǎng)勵(lì)模型,尤其適用于數(shù)學(xué)、代碼等結(jié)構(gòu)化任務(wù);DAPO(解裁剪與動(dòng)態(tài)采樣策略?xún)?yōu)化),在 GRPO 基礎(chǔ)上引入 Token 級(jí)策略調(diào)度、邊界控制及動(dòng)態(tài)采樣獎(jiǎng)勵(lì)機(jī)制,提升策略泛化性與訓(xùn)練穩(wěn)定性;TTRL(測(cè)試時(shí)強(qiáng)化學(xué)習(xí)),無(wú)需人工標(biāo)簽與獎(jiǎng)勵(lì)模型,通過(guò)無(wú)監(jiān)督獎(jiǎng)勵(lì)構(gòu)造與多輪生成反饋,直接在測(cè)試階段優(yōu)化推理行為;AZR(絕對(duì)零推理者),構(gòu)建自演化的推理智能體,集成自博弈、多數(shù)投票、語(yǔ)言模型獎(jiǎng)勵(lì)生成等機(jī)制,形成閉環(huán)強(qiáng)化進(jìn)化系統(tǒng)。通過(guò) 21 大模塊的源碼驅(qū)動(dòng)教學(xué),逐層解析強(qiáng)化學(xué)習(xí)算法組件與實(shí)現(xiàn)細(xì)節(jié),覆蓋 RLHF+GRPO+DAPO+TTRL+AZR 的完整訓(xùn)練路徑。課程分三階段推進(jìn):第一階段聚焦推理型 LLM 核心機(jī)制與強(qiáng)化學(xué)習(xí)基礎(chǔ),掌握策略梯度方法(RLHF/PP0/GRPO)及思維鏈(CoT)推理引導(dǎo)技術(shù);第二階段深入 DeepSeek - R1/Open - R1 源碼,構(gòu)建 Token 級(jí)獎(jiǎng)勵(lì)鏈路與訓(xùn)練評(píng)估流程;第三階段實(shí)戰(zhàn)演練 AZR 自演化系統(tǒng),實(shí)現(xiàn)多 Agent 自博弈與自生成獎(jiǎng)勵(lì)的閉環(huán)推理架構(gòu)。此外,課程還包含大模型部署進(jìn)階內(nèi)容,涵蓋多 LoRA 融合、推理加速優(yōu)化及 vLLM 部署等工程實(shí)踐,助力企業(yè)構(gòu)建生產(chǎn)級(jí)推理智能體系統(tǒng)。
通過(guò)本課程,學(xué)員將系統(tǒng)掌握前沿推理型大模型構(gòu)建范式,顯著提升模型推理精度、自適應(yīng)能力及無(wú)監(jiān)督進(jìn)化潛能,搶占智能時(shí)代 Agentic AI 技術(shù)制高點(diǎn)。
敬請(qǐng)各相關(guān)單位積極參加!
聯(lián)系人:吳
聯(lián)系方式:13817964035(微信同號(hào))
中國(guó)通信工業(yè)協(xié)會(huì)
通信和信息技術(shù)創(chuàng)新人才培養(yǎng)工程項(xiàng)目辦公室
2025 年 6 月 11 日
《構(gòu)建企業(yè)級(jí)可控自進(jìn)化大模型智能體:LLM RL 強(qiáng)化學(xué)習(xí)內(nèi)核技術(shù)、七大關(guān)鍵痛點(diǎn)解決方案與項(xiàng)目落地實(shí)戰(zhàn)》高級(jí)實(shí)訓(xùn)講座簡(jiǎn)章
一、實(shí)訓(xùn)時(shí)間和方式
時(shí)間:2025 年 7 月 25 日至 7 月 27 日(周五、周六、周日共 3 天)
方式:騰訊線(xiàn)上直播
二、實(shí)訓(xùn)對(duì)象
涉及人工智能及大模型技術(shù)全產(chǎn)業(yè)鏈各廠(chǎng)商、大模型技術(shù)提供商、企業(yè)級(jí) AI 解決方案商、云計(jì)算與大數(shù)據(jù)平臺(tái)商、分布式計(jì)算技術(shù)服務(wù)商、智能體框架開(kāi)發(fā)商、電信與廣電運(yùn)營(yíng)商、云廠(chǎng)商、互聯(lián)網(wǎng)公司、IT 公司、智能交互技術(shù)公司、科研院所、AI 實(shí)驗(yàn)室與高等院校,央國(guó)企各級(jí) IT 主管、部門(mén)負(fù)責(zé)人及 CIO、大模型智能體研發(fā)專(zhuān)家、人工智能技術(shù)專(zhuān)家、AI 研發(fā)工程師、AI 解決方案工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、機(jī)器學(xué)習(xí)工程師、大模型工程師、算法工程師、信息系統(tǒng)研發(fā)與運(yùn)維工程師、分布式系統(tǒng)架構(gòu)師、分布式系統(tǒng)研發(fā)工程師 / DevOps 工程師、智能體通信協(xié)議設(shè)計(jì)師、AGI 系統(tǒng)設(shè)計(jì)者、大模型推理引擎開(kāi)發(fā)者、LLM 企業(yè)級(jí)應(yīng)用開(kāi)發(fā)者、LLM 微調(diào) / 訓(xùn)練工程師、多智能體系統(tǒng)開(kāi)發(fā)工程師、AI 平臺(tái)系統(tǒng)架構(gòu)師、推理型 LLM 架構(gòu)設(shè)計(jì)負(fù)責(zé)人,來(lái)自金融、制造、零售、醫(yī)療、教育、能源、交通、電商等行業(yè)的 AI 負(fù)責(zé)人,負(fù)責(zé)企業(yè)內(nèi)部 AI 戰(zhàn)略決策、研發(fā)、部署及維護(hù)的專(zhuān)業(yè)技術(shù)人員、架構(gòu)師、產(chǎn)品經(jīng)理、項(xiàng)目經(jīng)理等,包括從事 Agentic AI 系統(tǒng)在多模態(tài)推理、自動(dòng)化運(yùn)維、智慧客服、智能制造、個(gè)性化推薦、場(chǎng)景決策支持等方向的產(chǎn)業(yè)級(jí)落地實(shí)踐、強(qiáng)化推理優(yōu)化與閉環(huán)演化機(jī)制的技術(shù)廠(chǎng)商與研發(fā)團(tuán)隊(duì)、對(duì) Agentic AI 系統(tǒng)構(gòu)建有實(shí)際需求的開(kāi)發(fā)者、組織、創(chuàng)業(yè)者及所有對(duì)智能體有深入興趣或需求的單位和個(gè)人。
三、實(shí)訓(xùn)大綱
四、實(shí)訓(xùn)收益
五、實(shí)訓(xùn)詳細(xì)內(nèi)容
模塊
具體內(nèi)容
模塊一:構(gòu)建可控大模型智能體 —— RL 強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的 Reasoning LLM 推理優(yōu)化閉環(huán) | 推理型大模型(Reasoning LLM)的定義、結(jié)構(gòu)化推理步驟、思維鏈提示技術(shù)、推理能力提升技術(shù)路徑、推理與訓(xùn)練階段算力對(duì)比等多方面內(nèi)容,還涉及多種優(yōu)化技術(shù)及評(píng)估指標(biāo) |
模塊二:LLM 微調(diào)技術(shù) —— 多任務(wù)適配 ×LoRA×QLoRA 算法及源碼級(jí) PEFT 工程實(shí)現(xiàn) | 任務(wù)類(lèi)型分解、多任務(wù)訓(xùn)練問(wèn)題及解決方法、LoRA 和 QLoRA 算法核心機(jī)制、源碼實(shí)現(xiàn)細(xì)節(jié)以及多 LoRA 路徑加載和相關(guān)訓(xùn)練策略等 |
模塊三:解構(gòu)人類(lèi)偏好對(duì)齊閉環(huán) —— RLHF× 策略?xún)?yōu)化 × 獎(jiǎng)勵(lì)建模的工程級(jí)全流程實(shí)戰(zhàn) | RLHF 基本流程、人類(lèi)偏好數(shù)據(jù)采集、SFT 階段目標(biāo)、獎(jiǎng)勵(lì)模型相關(guān)內(nèi)容、強(qiáng)化學(xué)習(xí)階段核心思想及優(yōu)化目標(biāo)函數(shù)等,還探討了 RLHF 面臨的問(wèn)題及解決方案 |
模塊四:構(gòu)建穩(wěn)定可控的 RLHF 訓(xùn)練閉環(huán) —— 基于 TRL 的 PPO 在 LLM 中的策略?xún)?yōu)化實(shí)戰(zhàn) | PPO 中各模型的來(lái)源與作用、訓(xùn)練流程、關(guān)鍵組件及核心機(jī)制,以及常見(jiàn)訓(xùn)練問(wèn)題及應(yīng)對(duì)策略等 |
模塊五:RLHF token - level 到 sequence - level —— 從 Policy Gradient 到 PPO×DPO 實(shí)現(xiàn) | 策略梯度理論基礎(chǔ)、PPO 和 DPO 的策略?xún)?yōu)化方式及兩者對(duì)比,以及常見(jiàn)組合策略等 |
模塊六:可編程 RL —— 基于 GRPO 的 RL Fine - Tuning 驅(qū)動(dòng)下一代推理調(diào)優(yōu)范式技術(shù) | GRPO 與其他方法的對(duì)比、核心理念、總 loss 分解、可編程 reward function 相關(guān)內(nèi)容、訓(xùn)練和評(píng)估相關(guān)要點(diǎn)以及工程化部署集成等 |
模塊七:DeepSeek R1 源碼詳解:數(shù)據(jù)生成的工程實(shí)現(xiàn)與自動(dòng)化任務(wù)結(jié)構(gòu)生成系統(tǒng) | 未詳細(xì)列出具體子項(xiàng),推測(cè)圍繞 DeepSeek R1 源碼在數(shù)據(jù)生成和任務(wù)結(jié)構(gòu)生成方面的工程實(shí)現(xiàn)展開(kāi)講解 |
模塊八:源碼詳解 DeepSeek - R1 的 SFT + GRPO 多階段強(qiáng)化訓(xùn)練及 Reward Engine | 未詳細(xì)列出具體子項(xiàng),應(yīng)聚焦于 DeepSeek - R1 的 SFT 與 GRPO 多階段強(qiáng)化訓(xùn)練過(guò)程及獎(jiǎng)勵(lì)引擎的源碼解析 |
模塊九:推理服務(wù)與系統(tǒng)評(píng)估全流程 ——Evaluation×vLLM×Slurm×Make 實(shí)戰(zhàn) | 評(píng)估入口、任務(wù)注冊(cè)、模型推理、Slurm 執(zhí)行腳本、輸出評(píng)估格式、配置文件使用等多方面的實(shí)戰(zhàn)內(nèi)容,還包括模型部署和服務(wù)相關(guān)要點(diǎn) |
模塊十:GRPO 進(jìn)階 ——Clip - Higher 策略、動(dòng)態(tài)樣本和 Token - Level 策略 loss 結(jié)構(gòu) | DAPO 對(duì) GRPO 的改進(jìn)、相關(guān)策略和結(jié)構(gòu)的詳細(xì)解析、實(shí)驗(yàn)指標(biāo)和對(duì)比以及源碼實(shí)現(xiàn)等 |
模塊十一:源碼詳解 LLM DAPO Token - Level 策略梯度 × 動(dòng)態(tài)采樣 × 推理穩(wěn)定性的實(shí)現(xiàn) | DAPO 的整體架構(gòu)與策略?xún)?yōu)化路徑、關(guān)鍵策略和技術(shù)的源碼實(shí)現(xiàn),以及訓(xùn)練穩(wěn)定性指標(biāo)設(shè)計(jì)等 |
模塊十二:解鎖 LLM Test - Time RL 強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制重塑 LLM 的推理對(duì)齊與推理自演化 | TTRL 的定義、無(wú)監(jiān)督獎(jiǎng)勵(lì)機(jī)制、多次推理機(jī)制、獎(jiǎng)勵(lì)信號(hào)估計(jì)方法等多方面內(nèi)容,還涉及與傳統(tǒng) RLHF 比較及應(yīng)用效果驗(yàn)證等 |
模塊十三:基于強(qiáng)化學(xué)習(xí)的零監(jiān)督獎(jiǎng)勵(lì) × 自我演化閉環(huán) × 推理能力自發(fā)現(xiàn)的智能體技術(shù) | Absolute Zero Reasoning 定義、相關(guān)機(jī)制和技術(shù)、自我演化閉環(huán)系統(tǒng)以及無(wú)監(jiān)督推理進(jìn)化相關(guān)內(nèi)容等 |
模塊十四:Absolute Zero RL 多策略自博弈系統(tǒng)源碼精解 —— 多策略自博弈與行為優(yōu)化 | Zero - shot Prompting 與 Self - refinement 策略、環(huán)境交互接口、Arena 類(lèi)、自我博弈控制流以及多種策略實(shí)現(xiàn)和動(dòng)態(tài)加載策略的工廠(chǎng)模式等 |
模塊十五:RL 多策略評(píng)分 × 多層獎(jiǎng)勵(lì) × 多模判斷的復(fù)雜推理評(píng)估引擎源碼實(shí)戰(zhàn)全解析 | 獎(jiǎng)勵(lì)模型設(shè)計(jì)與調(diào)用接口、多類(lèi)型獎(jiǎng)勵(lì)、多步打分策略、支持的評(píng)估模式、兼容的 Judge 模型等多方面內(nèi)容,還包括獎(jiǎng)勵(lì)相關(guān)的多種機(jī)制和操作 |
模塊十六:精控訓(xùn)練閉環(huán)的 Token - Level PPO 策略?xún)?yōu)化全解:從 Loss 構(gòu)造到 Entropy | Token 級(jí) reward 分配、PPO loss 構(gòu)成、支持的多種機(jī)制和策略,以及訓(xùn)練過(guò)程中的各種設(shè)置和記錄等 |
模塊十七:自我演化 ×Curriculum Learning 策略 —— 多任務(wù)構(gòu)建、自舉、難度調(diào)度源碼 | 任務(wù)生成、難度自定義、任務(wù)類(lèi)型支持、自舉策略、任務(wù)切換調(diào)度周期等多方面內(nèi)容,還涉及任務(wù)池管理和 curriculum 更新相關(guān)要點(diǎn) |
模塊十八:多 Agent 推理協(xié)作系統(tǒng) ——Reflection×Backtracking×Evaluation 系統(tǒng)源碼 | 多 Agent 角色職責(zé)、多輪對(duì)話(huà)機(jī)制、角色行為模式、獎(jiǎng)勵(lì)計(jì)算、反思和回溯機(jī)制等多方面內(nèi)容,還包括評(píng)估和日志記錄相關(guān)要點(diǎn) |
模塊十九:Absolute Zero Reasoner 運(yùn)行框架,訓(xùn)練腳本與自形成推理進(jìn)程全鏈路解析 | 配置文件作用、運(yùn)行腳本類(lèi)型、self - play 訓(xùn)練腳本、策略模塊輸入等多方面內(nèi)容,還涉及 seeding 腳本、testing 模塊以及演練相關(guān)要點(diǎn) |
模塊二十:RL Absolute Zero Reasoner 端到端測(cè)試流程、推理驗(yàn)證與策略評(píng)估體系解析 | 支持的測(cè)試功能、測(cè)試框架、測(cè)試樣例、結(jié)果輸出和評(píng)估指標(biāo)等多方面內(nèi)容,還包括多模型比較評(píng)估和測(cè)試結(jié)果可視化相關(guān)要點(diǎn) |
模塊二十一:大模型部署系統(tǒng)進(jìn)階:多 LoRA 融合 × 推理優(yōu)化 ×vLLM 部署全鏈路工程實(shí)戰(zhàn) | 部署場(chǎng)景分類(lèi)、LoRA 微調(diào)后模型部署策略、部署環(huán)境配置、推理指標(biāo)定義等多方面內(nèi)容,還包括 LLM 文本生成結(jié)構(gòu)、配置與調(diào)度要點(diǎn)以及 vLLM 相關(guān)技術(shù)解析 |
六、特邀專(zhuān)家
王老師:現(xiàn)任美國(guó)一家大模型分布式 Agentic AI 公司的 Co - Founder 和 CTO、杰出 AI 工程師、Chief Data Scientist 及首席機(jī)器學(xué)習(xí)工程師,擁有豐富的大語(yǔ)言模型(LLM)和智能 Agent 產(chǎn)品落地經(jīng)驗(yàn)。專(zhuān)注于以 Reinforcement Learning 驅(qū)動(dòng)的對(duì)話(huà)式 AI(Conversational AI)、生成式 AI(Generative AI)、大語(yǔ)言模型(LLM)的微調(diào)與對(duì)齊(Fine - tuning/Alignment)、LLM 幻覺(jué)檢測(cè)與控制技術(shù),以及 LLM Computer Use 等領(lǐng)域。在硅谷任職期間,王老師曾領(lǐng)導(dǎo)多個(gè)企業(yè)級(jí)大模型與 Agent 產(chǎn)品的架構(gòu)設(shè)計(jì)和開(kāi)發(fā),不僅滿(mǎn)足復(fù)雜業(yè)務(wù)需求,還有效最小化 LLM 的幻覺(jué)(Hallucinations)和偏見(jiàn)(Biases)風(fēng)險(xiǎn),助力企業(yè)構(gòu)建高效可靠的生成式 AI 解決方案。
聯(lián)系方式:13817964035(微信同號(hào))
