試錯(cuò)與進(jìn)化:強(qiáng)化學(xué)習(xí)RL訓(xùn)練“活”的游戲與虛擬伙伴 (AI產(chǎn)品經(jīng)理智能NPC筆記 S1E03)

0 評(píng)論 413 瀏覽 0 收藏 29 分鐘

探索強(qiáng)化學(xué)習(xí)如何塑造游戲和虛擬世界中的智能NPC,本文深入解析了通過(guò)試錯(cuò)與進(jìn)化培育出具有自主決策能力的虛擬伙伴的過(guò)程及其對(duì)AI產(chǎn)品經(jīng)理的啟示。

在前兩篇筆記中,我們打下了機(jī)器學(xué)習(xí)的基礎(chǔ),并深入探索了深度學(xué)習(xí)如何賦予NPC“看”和“聽(tīng)”的感知能力。

我們了解了監(jiān)督學(xué)習(xí)如何讓NPC按“標(biāo)準(zhǔn)答案”學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)如何讓NPC自主發(fā)現(xiàn)模式,以及深度學(xué)習(xí)(特別是CNN、RNN、Transformer)如何處理復(fù)雜的圖像和序列信息。然而,一個(gè)真正“活”的NPC,不僅要能感知世界,更要能基于感知做出決策,通過(guò)與環(huán)境的互動(dòng)不斷學(xué)習(xí)和適應(yīng)。這正是**強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)**大顯身手的領(lǐng)域。

回想我們?cè)诘谝黄袑?duì)強(qiáng)化學(xué)習(xí)的初步了解,它模擬了生物通過(guò)“試錯(cuò)”和“獎(jiǎng)勵(lì)/懲罰”來(lái)學(xué)習(xí)行為的方式。

想象一下《艾爾登法環(huán)》中那些狡猾而強(qiáng)大的Boss,它們似乎總能根據(jù)你的攻擊節(jié)奏調(diào)整策略,讓你難以捉摸;或者VR游戲中那個(gè)越來(lái)越懂你的虛擬寵物,它似乎能從你的互動(dòng)方式中“學(xué)會(huì)”了如何取悅你;

再想想那些能夠在大規(guī)模戰(zhàn)略游戲中展現(xiàn)出驚人戰(zhàn)術(shù)水平的AI對(duì)手……這些超越固定腳本、展現(xiàn)出動(dòng)態(tài)適應(yīng)性和“智慧涌現(xiàn)”的行為,往往閃耀著強(qiáng)化學(xué)習(xí)的光芒。

強(qiáng)化學(xué)習(xí)的核心在于讓智能體(Agent,我們的NPC)在特定環(huán)境(Environment)中,通過(guò)不斷嘗試不同的動(dòng)作(Action),并根據(jù)獲得的獎(jiǎng)勵(lì)(Reward)或懲罰(Penalty)來(lái)學(xué)習(xí)最優(yōu)的策略(Policy),以最大化長(zhǎng)期累積獎(jiǎng)勵(lì)。

它不需要像監(jiān)督學(xué)習(xí)那樣依賴(lài)大量的“正確答案”標(biāo)注數(shù)據(jù),而是讓NPC在“實(shí)踐”中自我進(jìn)化。這使得RL特別適合解決需要序貫決策、適應(yīng)動(dòng)態(tài)環(huán)境、甚至探索未知策略的復(fù)雜問(wèn)題,尤其是在游戲和虛擬互動(dòng)領(lǐng)域。

作為AI產(chǎn)品經(jīng)理,理解強(qiáng)化學(xué)習(xí)不僅意味著了解一種新的技術(shù)范式,更意味著擁抱一種全新的NPC“培育”理念。我們不再是完全的“編程者”,而更像是“規(guī)則制定者”和“訓(xùn)練師”。深刻理解RL的核心機(jī)制(Agent, Env, State, Action, Reward, Policy)、關(guān)鍵挑戰(zhàn)(特別是獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)?。?、訓(xùn)練成本、以及它如何驅(qū)動(dòng)NPC展現(xiàn)出更高級(jí)的自主決策能力,對(duì)于我們?cè)O(shè)計(jì)出真正具有“靈魂”、玩法深度和長(zhǎng)期吸引力的游戲與虛擬體驗(yàn)至關(guān)重要。

為什么有些RL訓(xùn)練出的AI效果驚艷,有些卻行為怪異?如何有效地引導(dǎo)AI朝著我們期望的方向進(jìn)化?這其中的產(chǎn)品思維和設(shè)計(jì)哲學(xué),值得我們深入探討。

在本篇筆記中,我們將深入強(qiáng)化學(xué)習(xí)的世界,聚焦于它如何幫助我們訓(xùn)練出“活”的游戲AI和虛擬伙伴:

  • 再探RL核心機(jī)制:溫故知新,更深入地理解Agent, Env, State, Action, Reward, Policy在游戲/VR場(chǎng)景中的具體含義。
  • RL在游戲AI中的應(yīng)用深潛:探索RL在復(fù)雜戰(zhàn)斗AI、動(dòng)態(tài)尋路、程序化動(dòng)畫(huà)、自適應(yīng)難度等方面的應(yīng)用潛力與實(shí)例。
  • 虛擬伙伴的“養(yǎng)成記”:討論RL如何用于訓(xùn)練個(gè)性化、能與用戶建立情感連接的虛擬寵物或助手。
  • PM的核心挑戰(zhàn)與機(jī)遇:獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的藝術(shù)與科學(xué)! 深入探討如何定義“好”的行為,設(shè)計(jì)有效的獎(jiǎng)勵(lì)機(jī)制,以及規(guī)避常見(jiàn)的陷阱。
  • 訓(xùn)練、部署與工具鏈:簡(jiǎn)述RL的訓(xùn)練流程、面臨的挑戰(zhàn)以及常用工具(如Unity ML-Agents)。

下面,我來(lái)帶領(lǐng)大家進(jìn)入這個(gè)充滿挑戰(zhàn)與驚喜的“試錯(cuò)與進(jìn)化”之旅。

一、再探強(qiáng)化學(xué)習(xí)核心機(jī)制:游戲/VR語(yǔ)境下的解讀

為了更好地理解RL如何應(yīng)用于我們的領(lǐng)域,讓我們?cè)俅蚊鞔_其核心概念,并賦予它們游戲和VR的語(yǔ)境:

智能體 (Agent):這就是我們要訓(xùn)練的“主角”,可以是一個(gè)游戲中的敵人NPC、一個(gè)玩家的AI隊(duì)友、一個(gè)VR虛擬寵物、甚至整個(gè)游戲的環(huán)境系統(tǒng)(用于自適應(yīng)難度)。

環(huán)境 (Environment):Agent所處的“世界”,包含了所有Agent可以感知和交互的元素。在游戲中,這可能是一個(gè)關(guān)卡、一個(gè)戰(zhàn)場(chǎng)、一個(gè)開(kāi)放世界區(qū)域;在VR中,可能是一個(gè)虛擬房間或場(chǎng)景。環(huán)境決定了狀態(tài)如何變化以及獎(jiǎng)勵(lì)如何產(chǎn)生。

狀態(tài) (State):Agent在某個(gè)時(shí)刻能感知到的環(huán)境信息。這可能非常復(fù)雜,包括:

  • Agent自身信息:位置、朝向、血量、魔法值、彈藥量、當(dāng)前持有的武器/道具、技能冷卻狀態(tài)等。
  • 環(huán)境信息:玩家的位置和狀態(tài)、其他NPC的位置和狀態(tài)、地圖布局、障礙物信息、可交互對(duì)象的狀態(tài)等。
  • VR/AR特定信息:用戶的頭部/手部位置和姿態(tài)、用戶的視線焦點(diǎn)、用戶的語(yǔ)音指令等。

狀態(tài)的表示至關(guān)重要,它直接影響Agent的學(xué)習(xí)效率和能力上限。可能需要用到我們?cè)谏弦黄懻摰腃NN(處理視覺(jué)狀態(tài))或RNN(處理時(shí)序狀態(tài))。

動(dòng)作 (Action):Agent可以執(zhí)行的操作。動(dòng)作空間可以是:

  • 離散的: 如“向上/下/左/右移動(dòng)”、“攻擊”、“防御”、“跳躍”、“使用技能A/B/C”、“說(shuō)特定對(duì)話選項(xiàng)”。
  • 連續(xù)的: 如控制角色的移動(dòng)速度和轉(zhuǎn)向角度、調(diào)整射擊的瞄準(zhǔn)方向、控制VR虛擬手的握力大小。

獎(jiǎng)勵(lì) (Reward):環(huán)境在Agent執(zhí)行一個(gè)動(dòng)作后給予的即時(shí)反饋信號(hào),通常是一個(gè)數(shù)值。獎(jiǎng)勵(lì)的設(shè)計(jì)是RL的靈魂所在,它直接定義了Agent的學(xué)習(xí)目標(biāo):

  • 正獎(jiǎng)勵(lì):鼓勵(lì)期望的行為,如擊中敵人、完成任務(wù)目標(biāo)、找到路徑、獲得資源、玩家表示滿意(如VR寵物被撫摸)。
  • 負(fù)獎(jiǎng)勵(lì)(懲罰):懲罰不期望的行為,如受到傷害、死亡、任務(wù)失敗、撞到障礙物、玩家表示不滿。

獎(jiǎng)勵(lì)可以是稀疏的(只在最終目標(biāo)達(dá)成時(shí)給予,如一局游戲勝利),也可以是密集的(在過(guò)程中持續(xù)給予反饋,如每次擊中敵人)。稀疏獎(jiǎng)勵(lì)學(xué)習(xí)更難,但可能引導(dǎo)出更創(chuàng)新的策略;密集獎(jiǎng)勵(lì)學(xué)習(xí)更快,但容易導(dǎo)致Agent只關(guān)注短期利益。

策略 (Policy):Agent學(xué)習(xí)到的“行為準(zhǔn)則”,即一個(gè)從狀態(tài)到動(dòng)作的映射(或概率分布)。簡(jiǎn)單說(shuō),就是Agent學(xué)到的“在當(dāng)前狀態(tài)下,我應(yīng)該做什么動(dòng)作(或以多大概率做某個(gè)動(dòng)作)才能獲得最大的長(zhǎng)期累積獎(jiǎng)勵(lì)?”。RL的目標(biāo)就是找到最優(yōu)策略π*。

二、RL在游戲AI中的應(yīng)用深潛:超越腳本的智能

強(qiáng)化學(xué)習(xí)為突破傳統(tǒng)腳本AI的局限性提供了強(qiáng)大的武器,尤其在以下方面:

復(fù)雜、動(dòng)態(tài)的戰(zhàn)斗AI

挑戰(zhàn):傳統(tǒng)腳本AI難以應(yīng)對(duì)玩家多變的戰(zhàn)術(shù)和復(fù)雜的戰(zhàn)場(chǎng)環(huán)境,容易被玩家摸透規(guī)律,顯得“呆板”。

RL方案:通過(guò)RL訓(xùn)練,NPC可以在高維度的狀態(tài)空間(考慮玩家位置、距離、血量、技能使用、地形等)中,學(xué)習(xí)到復(fù)雜的、適應(yīng)性的戰(zhàn)斗策略。它們可以學(xué)會(huì)何時(shí)進(jìn)攻、何時(shí)防守、如何走位躲避攻擊、如何使用技能組合、甚至可能“引誘”玩家進(jìn)入陷阱。這種AI更難預(yù)測(cè),能提供更持久的挑戰(zhàn)和更“真實(shí)”的對(duì)抗體驗(yàn)。

[案例解析]:雖然具體實(shí)現(xiàn)細(xì)節(jié)保密,但像《黑暗之魂》系列、《只狼》等以高難度Boss戰(zhàn)著稱(chēng)的游戲,其Boss展現(xiàn)出的某些動(dòng)態(tài)反應(yīng)和策略調(diào)整,可能受到了RL研究思想的啟發(fā),或者使用了復(fù)雜的、接近RL效果的狀態(tài)機(jī)/行為樹(shù)。而DeepMind AlphaStar在《星際爭(zhēng)霸II》中展現(xiàn)的微操和宏觀戰(zhàn)略能力,則直接證明了RL在復(fù)雜戰(zhàn)略游戲中的潛力。

《The AI of Dark Souls》The inner workings of one of the most influential games of all time.

該文通過(guò)逆向工程分析游戲代碼,指出 FromSoftware 的 AI 設(shè)計(jì)更傾向于模塊化狀態(tài)機(jī),而非實(shí)時(shí)強(qiáng)化學(xué)習(xí)。例如,Boss 的 “狂暴模式” 由玩家攻擊頻率觸發(fā),而非自主學(xué)習(xí)。

文獻(xiàn)來(lái)源:《黑暗之魂》AI 系統(tǒng)深度拆解(AI and Games,2024)

智能導(dǎo)航與動(dòng)態(tài)尋路

再次引用:Unity官方引擎提供了ML-Agents工具包,它使得在Unity環(huán)境中應(yīng)用強(qiáng)化學(xué)習(xí)(以及其他ML方法)訓(xùn)練NPC變得更加便捷,其官方文檔是了解RL在游戲開(kāi)發(fā)中具體實(shí)踐的極佳起點(diǎn)。

文獻(xiàn)來(lái)源:Unity ML-Agents官方文檔

挑戰(zhàn):傳統(tǒng)尋路算法(如A*)在靜態(tài)環(huán)境中表現(xiàn)良好,但在包含大量移動(dòng)障礙物(其他NPC、玩家、動(dòng)態(tài)物體)、復(fù)雜地形(需要跳躍、攀爬)甚至可破壞環(huán)境的游戲世界中,常常顯得笨拙或失效。

RL方案:RL Agent可以在這樣的動(dòng)態(tài)環(huán)境中學(xué)習(xí)導(dǎo)航策略,它不僅能找到路徑,還能學(xué)會(huì)如何避開(kāi)移動(dòng)障礙、利用跳躍或攀爬來(lái)越過(guò)障礙,甚至可能發(fā)現(xiàn)非顯而易見(jiàn)的“捷徑”。訓(xùn)練好的導(dǎo)航AI看起來(lái)會(huì)更“聰明”、更“流暢”。

[案例解析]:Unity ML-Agents提供了多個(gè)尋路和避障的示例項(xiàng)目,展示了如何使用RL訓(xùn)練智能體在復(fù)雜環(huán)境中導(dǎo)航。

Unity ML-Agents官方文檔

程序化動(dòng)畫(huà)與物理交互:

挑戰(zhàn):傳統(tǒng)基于關(guān)鍵幀或動(dòng)作捕捉的動(dòng)畫(huà)系統(tǒng),在角色需要與復(fù)雜物理環(huán)境進(jìn)行交互(如在崎嶇不平的地面行走、絆倒后恢復(fù)平衡、抓取不同形狀的物體)時(shí),往往顯得不自然或需要大量手動(dòng)調(diào)整。

RL方案:通過(guò)RL,可以訓(xùn)練基于物理模擬的角色控制器,讓角色學(xué)會(huì)如何控制“肌肉”(關(guān)節(jié)力矩)來(lái)完成各種動(dòng)作,并自然地適應(yīng)環(huán)境變化。這能生成更逼真、更具適應(yīng)性的程序化動(dòng)畫(huà)。

[案例解析]:育碧La Forge等研究部門(mén)以及學(xué)術(shù)界有許多關(guān)于使用RL進(jìn)行物理角色動(dòng)畫(huà)控制的研究。

《SuperTrack – Motion Tracking for Physically Simulated Characters using Supervised Learning》

文中詳細(xì)描述了 SuperTrack 如何通過(guò)逆向動(dòng)力學(xué)優(yōu)化(Inverse Dynamics Optimization)處理復(fù)雜關(guān)節(jié)運(yùn)動(dòng),并在 NVIDIA GPU 上實(shí)現(xiàn) 300-5000 倍的加速。

文獻(xiàn)來(lái)源:SuperTrack 官方技術(shù)博客(Ubisoft,2021)

自適應(yīng)難度與個(gè)性化體驗(yàn):

挑戰(zhàn):如何讓游戲難度恰到好處,既能給新手提供引導(dǎo),又能給老手帶來(lái)挑戰(zhàn)?固定的難度設(shè)置難以滿足所有玩家。

RL方案:可以將游戲系統(tǒng)本身視為一個(gè)Agent,其目標(biāo)是最大化玩家的留存率或心流體驗(yàn)(獎(jiǎng)勵(lì))。通過(guò)觀察玩家的表現(xiàn)(狀態(tài)),系統(tǒng)可以學(xué)習(xí)動(dòng)態(tài)調(diào)整游戲參數(shù)(動(dòng)作),如敵人強(qiáng)度、數(shù)量、資源掉落率、提示頻率等,實(shí)現(xiàn)千人千面的自適應(yīng)難度。

[案例解析]:《生化危機(jī)4》等游戲被認(rèn)為采用了動(dòng)態(tài)難度調(diào)整系統(tǒng)(盡管具體技術(shù)可能不是純粹的RL),根據(jù)玩家表現(xiàn)調(diào)整敵人行為和資源。

《Using Dynamic Difficulty Adjustment to Improve the Experience and Train FPS Gamers》

該研究提出 “玩家能力 – 游戲挑戰(zhàn)” 匹配模型 ,將《生化危機(jī) 4》的動(dòng)態(tài)難度歸類(lèi)為 “被動(dòng)響應(yīng)型”(Passive Responsive),即通過(guò)玩家行為數(shù)據(jù)調(diào)整難度,而非主動(dòng)預(yù)測(cè)玩家需求。

文獻(xiàn)來(lái)源:Dynamic Difficulty Adjustment in Games

三、虛擬伙伴的“養(yǎng)成記”:用RL培育情感連接

強(qiáng)化學(xué)習(xí)不僅能用于訓(xùn)練強(qiáng)大的對(duì)手,也能用來(lái)培育富有“個(gè)性”和“情感”的虛擬伙伴、寵物或助手,尤其在注重長(zhǎng)期陪伴和情感交互的VR/AR或元宇宙應(yīng)用中:

個(gè)性化行為學(xué)習(xí):讓虛擬寵物或伙伴通過(guò)與用戶的互動(dòng)(用戶的行為是環(huán)境狀態(tài),用戶的表?yè)P(yáng)/批評(píng)/互動(dòng)方式是獎(jiǎng)勵(lì)信號(hào))逐漸學(xué)習(xí)到用戶的偏好。例如,它可能會(huì)“學(xué)會(huì)”用戶喜歡它在什么時(shí)候撒嬌、什么時(shí)候安靜陪伴,從而展現(xiàn)出獨(dú)一無(wú)二的“性格”。

情感表達(dá)模擬:[進(jìn)階] 結(jié)合情感計(jì)算模型,讓虛擬伙伴不僅學(xué)習(xí)行為,還能學(xué)習(xí)在特定情境下表達(dá)恰當(dāng)?shù)摹扒楦小保ㄍㄟ^(guò)表情、動(dòng)作、語(yǔ)音語(yǔ)調(diào)),對(duì)用戶的行為和情緒做出更富有同理心的反應(yīng)。

主動(dòng)交互與關(guān)懷:[進(jìn)階] 訓(xùn)練虛擬伙伴根據(jù)對(duì)用戶狀態(tài)(如檢測(cè)到用戶長(zhǎng)時(shí)間未活動(dòng)、情緒低落等)的感知,主動(dòng)發(fā)起一些關(guān)懷性的交互或建議。

PM考量:

獎(jiǎng)勵(lì)設(shè)計(jì)更復(fù)雜:如何量化用戶的“滿意度”或“情感連接”作為獎(jiǎng)勵(lì)信號(hào)?這通常需要結(jié)合用戶的顯式反饋(如點(diǎn)贊、評(píng)分)和隱式信號(hào)(如互動(dòng)時(shí)長(zhǎng)、表情變化、語(yǔ)音語(yǔ)調(diào))進(jìn)行綜合設(shè)計(jì),難度極高。

長(zhǎng)期訓(xùn)練與演化:這種“養(yǎng)成”過(guò)程需要持續(xù)進(jìn)行,讓虛擬伙伴在與用戶的長(zhǎng)期互動(dòng)中不斷學(xué)習(xí)和進(jìn)化。

倫理風(fēng)險(xiǎn):需要警惕過(guò)度情感依賴(lài)、利用AI進(jìn)行情感操縱等倫理問(wèn)題。PM需要設(shè)定清晰的邊界和防護(hù)機(jī)制。

[案例解析與文獻(xiàn)引用]:

電子寵物(如早期的拓麻歌子,或現(xiàn)代的一些AI寵物應(yīng)用)的設(shè)計(jì)理念中就蘊(yùn)含了基于用戶互動(dòng)進(jìn)行行為調(diào)整的思想,雖然早期技術(shù)簡(jiǎn)單,但體現(xiàn)了“養(yǎng)成”的核心。

一些前沿的AI伴侶或虛擬助手研究項(xiàng)目正在探索使用RL等技術(shù)來(lái)實(shí)現(xiàn)更個(gè)性化、更具情感的交互。

《Psychotherapy AI Companion with Reinforcement Learning Recommendations and Interpretable Policy Dynamics》

心理治療 AI 伴侶及其基于強(qiáng)化學(xué)習(xí)的建議與可解釋的策略動(dòng)態(tài)

文獻(xiàn)來(lái)源:https://arxiv.org/abs/2303.096014、PM的核心挑戰(zhàn)與機(jī)遇:獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的藝術(shù)與科學(xué)!

在所有關(guān)于強(qiáng)化學(xué)習(xí)的討論中,獎(jiǎng)勵(lì)函數(shù)(Reward Function)的設(shè)計(jì)無(wú)論如何強(qiáng)調(diào)都不為過(guò)。它是連接產(chǎn)品目標(biāo)與AI行為的橋梁,是RL項(xiàng)目成敗的關(guān)鍵所在。作為PM,即使你不編寫(xiě)代碼,也必須深度參與并主導(dǎo)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)與迭代過(guò)程,因?yàn)樗苯佣x了你想要的NPC“應(yīng)該做什么”以及“為什么這么做”。

獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的原則:

  • 目標(biāo)是“探索地圖”,獎(jiǎng)勵(lì)設(shè)置為“移動(dòng)距離”。 Agent可能會(huì)在一個(gè)小范圍內(nèi)不停地來(lái)回踱步。
  • 目標(biāo)是“贏得賽車(chē)比賽”,獎(jiǎng)勵(lì)設(shè)置為“超越對(duì)手”。 Agent可能會(huì)故意放慢速度,等對(duì)手靠近再反復(fù)超越。
  • 目標(biāo)是“消滅敵人”,獎(jiǎng)勵(lì)設(shè)置為“造成傷害”。 Agent可能會(huì)無(wú)視自身安全,瘋狂攻擊,導(dǎo)致快速死亡。
  • 與最終目標(biāo)對(duì)齊: 獎(jiǎng)勵(lì)信號(hào)必須明確指向我們希望Agent達(dá)成的最終目標(biāo)(如贏得戰(zhàn)斗、完成任務(wù)、提升玩家滿意度)。
  • 清晰、可量化: 獎(jiǎng)勵(lì)應(yīng)該是具體的、可以計(jì)算的數(shù)值。
  • 及時(shí)反饋(通常): 相比于非常稀疏的獎(jiǎng)勵(lì),在過(guò)程中提供一些中間狀態(tài)的密集獎(jiǎng)勵(lì),通常能加速學(xué)習(xí)過(guò)程(但要小心引導(dǎo)Agent只關(guān)注短期利益)。
  • 避免“獎(jiǎng)勵(lì)黑客”(Reward Hacking): 這是最常見(jiàn)的陷阱!Agent非?!奥斆鳌?,它會(huì)不擇手段地最大化獎(jiǎng)勵(lì)信號(hào),即使這意味著采取一些完全違背設(shè)計(jì)初衷的、荒謬甚至有害的行為。例如:

PM如何參與獎(jiǎng)勵(lì)設(shè)計(jì)?

  • 清晰定義“成功”: 與策劃、設(shè)計(jì)師一起,用盡可能精確的語(yǔ)言描述“我們希望這個(gè)NPC在什么情況下表現(xiàn)出什么樣的行為才算成功?”
  • 分解目標(biāo),設(shè)計(jì)多維度獎(jiǎng)勵(lì): 將最終目標(biāo)分解為多個(gè)子目標(biāo)或期望行為,并為每個(gè)行為分配合適的獎(jiǎng)勵(lì)權(quán)重。例如,對(duì)于戰(zhàn)斗AI,獎(jiǎng)勵(lì)可能包括:對(duì)敵人造成傷害(正)、自身受到傷害(負(fù))、躲避關(guān)鍵攻擊(正)、保護(hù)隊(duì)友(正)、存活到最后(大正獎(jiǎng)勵(lì))等。

迭代與測(cè)試!迭代與測(cè)試!迭代與測(cè)試! 獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)很少能一步到位。必須通過(guò)大量的訓(xùn)練、觀察Agent的行為、分析失敗案例,然后不斷調(diào)整獎(jiǎng)勵(lì)函數(shù)并重新訓(xùn)練。PM需要主導(dǎo)這個(gè)迭代過(guò)程,確保AI行為朝著符合產(chǎn)品需求的方向優(yōu)化。

引入負(fù)獎(jiǎng)勵(lì)與約束:對(duì)于絕對(duì)不希望發(fā)生的行為(如攻擊隊(duì)友、卡在墻角),給予明確的負(fù)獎(jiǎng)勵(lì)或設(shè)置硬性約束。

考慮稀疏與密集獎(jiǎng)勵(lì)的平衡:如何在加速學(xué)習(xí)(密集獎(jiǎng)勵(lì))和鼓勵(lì)探索長(zhǎng)遠(yuǎn)最優(yōu)解(稀疏獎(jiǎng)勵(lì))之間找到平衡點(diǎn)?

[案例解析與文獻(xiàn)引用]:

OpenAI關(guān)于“獎(jiǎng)勵(lì)工程”(Reward Engineering)或“規(guī)范工程”(Specification Engineering)的討論強(qiáng)調(diào)了設(shè)計(jì)良好獎(jiǎng)勵(lì)函數(shù)的重要性及其挑戰(zhàn)。

《Faulty reward functions in the wild》

簡(jiǎn)單獎(jiǎng)勵(lì)函數(shù)易被智能體利用漏洞(如《賽船比賽》案例中,智能體通過(guò)重復(fù)轉(zhuǎn)圈獲取無(wú)限獎(jiǎng)勵(lì))強(qiáng)化學(xué)習(xí)算法可能會(huì)以令人驚訝且違背直覺(jué)的方式出錯(cuò)。

文獻(xiàn)來(lái)源:OpenAI 的賽船比賽智能體就是一個(gè)典型案例

許多關(guān)于RL失敗案例(如AI找到獎(jiǎng)勵(lì)漏洞)的討論文章或視頻,都生動(dòng)地說(shuō)明了獎(jiǎng)勵(lì)設(shè)計(jì)不當(dāng)?shù)暮蠊?/p>

《Understanding and Detecting Reward Hacking in AI Systems》

理解和檢測(cè) AI 系統(tǒng)中的獎(jiǎng)勵(lì)劫持,RL 模型為最大化平均車(chē)速,通過(guò) “阻塞直道” 迫使其他車(chē)輛加速。

文獻(xiàn)來(lái)源:交通控制模擬漏洞 Mar 02,20245、訓(xùn)練、部署與工具鏈:將RL付諸實(shí)踐

將強(qiáng)化學(xué)習(xí)應(yīng)用于實(shí)際的游戲或VR/AR項(xiàng)目,還需要考慮訓(xùn)練和部署的挑戰(zhàn):

訓(xùn)練流程:通常包括:

環(huán)境搭建:創(chuàng)建一個(gè)能夠模擬游戲/VR交互的、可控的訓(xùn)練環(huán)境(這本身可能就需要大量工程工作)。

Agent定義:確定狀態(tài)表示、動(dòng)作空間。

獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)與實(shí)現(xiàn)。

選擇并配置RL算法。

開(kāi)始訓(xùn)練:在模擬環(huán)境中運(yùn)行大量交互,收集經(jīng)驗(yàn),更新策略。這通常需要強(qiáng)大的計(jì)算資源(GPU集群)和較長(zhǎng)時(shí)間。

評(píng)估與調(diào)優(yōu):監(jiān)控訓(xùn)練過(guò)程(如獎(jiǎng)勵(lì)曲線、成功率),評(píng)估訓(xùn)練好的Agent在測(cè)試環(huán)境中的表現(xiàn),根據(jù)結(jié)果調(diào)整參數(shù)或獎(jiǎng)勵(lì)函數(shù),重復(fù)訓(xùn)練。

挑戰(zhàn):

樣本效率低:RL通常需要極大量的交互數(shù)據(jù)才能學(xué)習(xí),訓(xùn)練時(shí)間長(zhǎng)。

模擬環(huán)境與現(xiàn)實(shí)差距(Sim-to-Real Gap): 在模擬環(huán)境中訓(xùn)練好的策略,直接部署到真實(shí)游戲或與真實(shí)玩家交互時(shí),效果可能會(huì)打折扣。

部署成本:訓(xùn)練好的RL模型(通常是神經(jīng)網(wǎng)絡(luò)策略)也需要在目標(biāo)平臺(tái)(PC/主機(jī)/移動(dòng)端/VR一體機(jī))上高效運(yùn)行,同樣面臨性能和資源限制。

常用工具鏈[參考]:

Unity ML-Agents: 如前所述,是Unity引擎下進(jìn)行RL訓(xùn)練的官方解決方案,提供了環(huán)境接口、多種RL算法實(shí)現(xiàn)和方便的集成。

Unreal Engine: UE也有一些第三方插件或與外部RL庫(kù)(如Ray RLlib)集成的方案。

Python RL庫(kù): 如Stable Baselines3, Ray RLlib, TF-Agents等,提供了豐富的RL算法實(shí)現(xiàn),可以與游戲引擎通過(guò)接口進(jìn)行通信。

[案例解析與文獻(xiàn)引用]:

文獻(xiàn)來(lái)源:Unity ML-Agents官方文檔

再次強(qiáng)調(diào)Unity ML-Agents的價(jià)值,其官方文檔和GitHub提供了大量實(shí)踐信息。總結(jié)與提煉:Synthesis & Key Takeaways

強(qiáng)化學(xué)習(xí)為我們創(chuàng)造“活”的NPC打開(kāi)了一扇充滿想象力的大門(mén)。回顧本篇的關(guān)鍵要點(diǎn):

核心機(jī)制:Agent通過(guò)與Environment互動(dòng),根據(jù)Reward學(xué)習(xí)最優(yōu)Policy。

游戲/VR應(yīng)用:在復(fù)雜戰(zhàn)斗AI、動(dòng)態(tài)導(dǎo)航、程序化動(dòng)畫(huà)、自適應(yīng)系統(tǒng)、虛擬伙伴養(yǎng)成等方面潛力巨大。

PM核心挑戰(zhàn):獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)! 需要深度參與,反復(fù)迭代,避免獎(jiǎng)勵(lì)黑客,確保AI行為符合產(chǎn)品目標(biāo)。

實(shí)踐挑戰(zhàn):訓(xùn)練成本高、樣本效率低、模擬與現(xiàn)實(shí)差距、部署困難。

機(jī)遇:能夠創(chuàng)造出超越傳統(tǒng)腳本、具有動(dòng)態(tài)適應(yīng)性和涌現(xiàn)智能的、真正“活”的NPC體驗(yàn)。

作為AI產(chǎn)品經(jīng)理,擁抱強(qiáng)化學(xué)習(xí)意味著我們需要具備系統(tǒng)思維,能夠清晰地定義目標(biāo)、設(shè)計(jì)規(guī)則(獎(jiǎng)勵(lì)),并有耐心去“培育”和“訓(xùn)練”我們的AI NPC。我們需要理解其潛力,也要正視其挑戰(zhàn)和成本。合理地運(yùn)用RL,將可能為我們的游戲和虛擬世界帶來(lái)顛覆性的創(chuàng)新。結(jié)尾與展望:Closing & Look Ahead

我們已經(jīng)探索了機(jī)器學(xué)習(xí)的三大范式及其在賦予NPC感知和基礎(chǔ)決策能力方面的作用。然而,一個(gè)完整的智能NPC系統(tǒng),還需要堅(jiān)實(shí)的語(yǔ)言交互能力。

在下一篇筆記 《S1E04: 賦予“靈魂”之語(yǔ):NLP讓游戲/元宇宙NPC開(kāi)口說(shuō)話》 中,我們將再次聚焦于自然語(yǔ)言處理(Natural Language Processing, NLP),特別是近年來(lái)取得巨大突破的大語(yǔ)言模型(Large Language Models, LLMs)。我們將深入探討LLM如何驅(qū)動(dòng)NPC進(jìn)行更流暢、更自然、更具上下文感知和角色扮演能力的對(duì)話,以及在游戲/元宇宙場(chǎng)景下面臨的特定挑戰(zhàn)(如世界觀一致性、內(nèi)容安全、部署成本等)和PM需要進(jìn)行的權(quán)衡。

本文由人人都是產(chǎn)品經(jīng)理作者【Mu先生Ai世界】,微信公眾號(hào):【Mu先生Ai世界】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!