337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

南京大學(xué)聯(lián)合騰訊團(tuán)隊(duì)破解大語言模型智能體難題

0
分享至


這項(xiàng)由南京大學(xué)人工智能學(xué)院聯(lián)合騰訊FiT團(tuán)隊(duì)、香港城市大學(xué)等機(jī)構(gòu)合作完成的研究發(fā)表于2026年3月的預(yù)印本論文平臺(tái),論文編號為arXiv:2603.08754v1。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為HCAPO(Hindsight Credit Assignment Policy Optimization)的新框架,專門解決大語言模型智能體在復(fù)雜任務(wù)中的信用分配問題。有興趣深入了解的讀者可以通過該論文編號查詢完整技術(shù)文檔。

想象你正在教一個(gè)孩子下象棋。當(dāng)這個(gè)孩子最終贏得比賽時(shí),你需要告訴他哪些步驟是明智的,哪些是無關(guān)緊要的,甚至是錯(cuò)誤的。這正是當(dāng)前人工智能面臨的一個(gè)核心挑戰(zhàn):當(dāng)AI智能體完成復(fù)雜任務(wù)時(shí),如何準(zhǔn)確判斷過程中每一步行動(dòng)的價(jià)值?

目前的大語言模型智能體就像一個(gè)只知道最終結(jié)果的學(xué)生——它們知道任務(wù)成功了,但不清楚成功路徑上哪些步驟真正重要。這種盲目性導(dǎo)致AI在學(xué)習(xí)過程中無法區(qū)分關(guān)鍵決策和冗余動(dòng)作,就好比一個(gè)學(xué)生不知道考試成功是因?yàn)檎J(rèn)真復(fù)習(xí)還是因?yàn)檫\(yùn)氣好,下次就無法重現(xiàn)成功。

這個(gè)問題在需要多步推理和決策的復(fù)雜任務(wù)中尤為突出。比如在網(wǎng)上購物時(shí),AI需要搜索商品、比較價(jià)格、篩選條件、最終下單,這個(gè)過程可能涉及十幾個(gè)步驟。傳統(tǒng)的訓(xùn)練方法只能告訴AI最終是否成功購買到合適商品,但無法指出具體哪一步搜索最關(guān)鍵,哪次篩選最有效。這種粗糙的反饋機(jī)制嚴(yán)重限制了AI的學(xué)習(xí)效率。

研究團(tuán)隊(duì)提出的HCAPO框架巧妙地解決了這個(gè)難題,它的核心思想是讓AI學(xué)會(huì)"事后諸葛亮"——當(dāng)任務(wù)完成后,AI會(huì)重新審視整個(gè)決策過程,結(jié)合最終成功的結(jié)果來重新評估每個(gè)步驟的價(jià)值。這種后見之明的分析能夠幫助AI準(zhǔn)確識別哪些行動(dòng)真正推動(dòng)了任務(wù)成功,哪些只是無關(guān)的噪音。

一、傳統(tǒng)方法的局限性:盲人摸象般的學(xué)習(xí)困境

當(dāng)前主流的AI訓(xùn)練方法面臨著類似"盲人摸象"的困境。現(xiàn)有的GRPO(Group Relative Policy Optimization)等方法就像一個(gè)只能看到故事結(jié)尾的讀者,雖然知道故事是喜劇還是悲劇,但完全不清楚情節(jié)發(fā)展的起伏轉(zhuǎn)折。

具體來說,傳統(tǒng)方法存在兩個(gè)根本性缺陷。第一個(gè)問題是步驟級評估的不準(zhǔn)確性。當(dāng)AI完成一個(gè)包含多個(gè)步驟的任務(wù)時(shí),傳統(tǒng)方法會(huì)將最終的成功獎(jiǎng)勵(lì)平均分配給所有步驟,就像給一個(gè)足球隊(duì)的每個(gè)隊(duì)員發(fā)相同的獎(jiǎng)金,不管他們在比賽中的實(shí)際貢獻(xiàn)如何。這種做法顯然無法體現(xiàn)不同行動(dòng)的真實(shí)價(jià)值。

第二個(gè)問題是價(jià)值基線的錯(cuò)位。傳統(tǒng)方法使用全局的平均值作為評判標(biāo)準(zhǔn),這就像用全校學(xué)生的平均成績來評價(jià)每個(gè)年級的表現(xiàn)一樣不合理。在復(fù)雜任務(wù)中,任務(wù)的不同階段具有完全不同的難度和重要性,用統(tǒng)一標(biāo)準(zhǔn)來衡量必然會(huì)產(chǎn)生偏差。

這些局限性在實(shí)際應(yīng)用中造成了嚴(yán)重后果。AI智能體往往會(huì)學(xué)到錯(cuò)誤的經(jīng)驗(yàn),比如認(rèn)為某些無關(guān)緊要的步驟很重要,或者忽視了真正的關(guān)鍵決策點(diǎn)。更糟糕的是,這種混亂的學(xué)習(xí)信號會(huì)讓AI的行為變得冗長和低效,就像一個(gè)不會(huì)抓重點(diǎn)的學(xué)生,總是在次要問題上花費(fèi)大量時(shí)間。

二、HCAPO的創(chuàng)新思路:讓AI學(xué)會(huì)"復(fù)盤"

HCAPO框架的核心創(chuàng)新在于引入了"后見之明"的概念,讓AI能夠像優(yōu)秀的棋手那樣進(jìn)行復(fù)盤分析。當(dāng)一局棋結(jié)束后,高手總是會(huì)回過頭來分析:如果當(dāng)時(shí)沒有走那步關(guān)鍵的棋,結(jié)果會(huì)如何?哪些看似平常的走法實(shí)際上為最終勝利奠定了基礎(chǔ)?

研究團(tuán)隊(duì)巧妙地讓大語言模型本身充當(dāng)這個(gè)"復(fù)盤分析師"的角色。具體方法是在任務(wù)完成后,將成功的結(jié)果信息重新輸入給模型,然后讓模型重新評估之前每一步行動(dòng)的概率。這種方法被稱為"生成式驗(yàn)證",它不需要額外的外部模型,而是充分利用了大語言模型本身的推理能力。

這個(gè)過程可以用一個(gè)生動(dòng)的比喻來理解。假設(shè)你在玩一個(gè)解謎游戲,最終成功找到了寶藏。現(xiàn)在,如果有人告訴你寶藏的具體位置,你重新審視之前的每個(gè)選擇時(shí),就能清晰地判斷出哪些決定真正指向了正確方向,哪些只是碰運(yùn)氣的隨機(jī)嘗試。

HCAPO通過計(jì)算"后見重要性比率"來量化每個(gè)步驟的真實(shí)價(jià)值。如果某個(gè)行動(dòng)在知道最終結(jié)果后看起來更加合理,它的重要性就會(huì)被放大;相反,那些看起來不太相關(guān)的行動(dòng)就會(huì)被抑制。這種機(jī)制能夠自動(dòng)識別出任務(wù)中的關(guān)鍵轉(zhuǎn)折點(diǎn)和決定性行動(dòng)。

三、多尺度優(yōu)化策略:既見樹木又見森林

HCAPO的另一個(gè)重要?jiǎng)?chuàng)新是采用了"多尺度優(yōu)化"策略,這就像同時(shí)用顯微鏡和望遠(yuǎn)鏡來觀察問題一樣。在保持宏觀視野的同時(shí),也能捕捉到微觀細(xì)節(jié)的重要信息。

宏觀層面的信號來自傳統(tǒng)的軌跡級評估方法,它提供了整體任務(wù)成敗的大方向指導(dǎo),就像GPS導(dǎo)航中的主要路線規(guī)劃。這個(gè)信號雖然粗糙,但非常穩(wěn)定可靠,確保AI不會(huì)在優(yōu)化過程中偏離正確的大方向。

微觀層面的信號則來自HCAPO的后見分析,它提供了精確的步驟級指導(dǎo),就像GPS導(dǎo)航中的實(shí)時(shí)路況調(diào)整。這個(gè)信號能夠幫助AI識別出具體哪個(gè)路口轉(zhuǎn)彎最關(guān)鍵,哪段路程可以優(yōu)化。

兩種信號的巧妙融合產(chǎn)生了令人驚喜的協(xié)同效應(yīng)。研究團(tuán)隊(duì)發(fā)現(xiàn),全局平均值自然地成為了一個(gè)理想的"適應(yīng)性閾值"。對于任務(wù)中的關(guān)鍵突破點(diǎn),后見分析會(huì)給出高于平均值的評分,從而獲得正向強(qiáng)化;而對于那些無關(guān)緊要的步驟,評分會(huì)低于平均值,從而被適當(dāng)抑制。

這種設(shè)計(jì)的巧妙之處在于它的自適應(yīng)性。隨著任務(wù)的進(jìn)展,系統(tǒng)會(huì)自動(dòng)調(diào)整對不同類型行動(dòng)的關(guān)注度,就像一個(gè)經(jīng)驗(yàn)豐富的教練能夠根據(jù)比賽情況實(shí)時(shí)調(diào)整戰(zhàn)術(shù)重點(diǎn)一樣。

四、實(shí)驗(yàn)驗(yàn)證:三大benchmark全面超越

為了驗(yàn)證HCAPO的有效性,研究團(tuán)隊(duì)在三個(gè)具有挑戰(zhàn)性的測試環(huán)境中進(jìn)行了全面比較。這些測試就像為AI安排的"綜合素質(zhì)考試",涵蓋了不同類型的復(fù)雜決策任務(wù)。

在ALFWorld環(huán)境中,AI需要在虛擬家庭中完成各種日常任務(wù),比如清潔物品、烹飪食物、整理房間等。這個(gè)環(huán)境特別考驗(yàn)AI的多步推理和空間導(dǎo)航能力。測試結(jié)果顯示,使用Qwen2.5-7B模型時(shí),HCAPO將成功率從77.6%提升到91.4%,相當(dāng)于提高了13.8個(gè)百分點(diǎn)。更令人印象深刻的是,在應(yīng)用了時(shí)間平滑技術(shù)后,同樣的模型達(dá)到了96.9%的近乎完美表現(xiàn)。

WebShop環(huán)境模擬了真實(shí)的電商購物場景,AI需要在HTML網(wǎng)頁中搜索商品、比較價(jià)格、篩選屬性,最終找到符合要求的商品。在這個(gè)更接近真實(shí)應(yīng)用的環(huán)境中,HCAPO同樣表現(xiàn)出色,將7B模型的成功率從66.1%提升到73.8%,平均得分從79.3提高到85.1。

在搜索增強(qiáng)的問答任務(wù)中,AI需要通過多輪搜索來收集信息并回答復(fù)雜問題。這個(gè)任務(wù)特別考驗(yàn)AI的信息整合和推理能力。HCAPO在7B模型上達(dá)到了48.3%的平均成功率,在多個(gè)數(shù)據(jù)集上都超過了現(xiàn)有的強(qiáng)基線方法。

更有趣的是,研究團(tuán)隊(duì)還觀察到了AI行為的質(zhì)量改善。在訓(xùn)練過程中,HCAPO能夠逐漸減少冗余行動(dòng)的比例,讓AI的決策變得更加簡潔高效。平均軌跡長度從7.8步縮短到5.8步,這意味著AI學(xué)會(huì)了更直接地解決問題,避免了不必要的繞路。

五、技術(shù)突破的深層機(jī)制:自適應(yīng)信用分配

HCAPO之所以能夠取得如此顯著的改進(jìn),關(guān)鍵在于它解決了一個(gè)基礎(chǔ)性的技術(shù)難題:如何在不依賴外部模型的情況下,準(zhǔn)確估計(jì)每個(gè)行動(dòng)的后見重要性。

傳統(tǒng)的后見信用分配方法需要訓(xùn)練專門的模型來預(yù)測"如果知道最終結(jié)果,每個(gè)行動(dòng)的合理性如何"。這種方法不僅計(jì)算代價(jià)高昂,還容易產(chǎn)生預(yù)測偏差。HCAPO巧妙地繞過了這個(gè)困難,直接利用大語言模型本身的推理能力。

具體操作方式是這樣的:當(dāng)任務(wù)成功完成后,系統(tǒng)會(huì)將成功結(jié)果作為額外信息加入到原始的決策上下文中,然后讓模型重新計(jì)算每個(gè)已執(zhí)行行動(dòng)的概率。這就像讓一個(gè)象棋大師在知道最終獲勝后,重新評估每一步棋的質(zhì)量。

為了解決概率計(jì)算的技術(shù)難題,研究團(tuán)隊(duì)引入了"自歸一化重要性比率估計(jì)"方法。由于語言的組合空間過于龐大,直接計(jì)算所有可能行動(dòng)的概率分布是不現(xiàn)實(shí)的。HCAPO通過在軌跡內(nèi)部進(jìn)行歸一化來近似這個(gè)分布,就像用樣本均值來估計(jì)總體均值一樣。

這種設(shè)計(jì)還帶來了一個(gè)意想不到的好處:計(jì)算效率的顯著提升。與需要逐步生成文本的傳統(tǒng)方法不同,后見評估只需要計(jì)算已有文本的概率,這個(gè)過程可以并行化處理,大大減少了計(jì)算時(shí)間。實(shí)驗(yàn)數(shù)據(jù)顯示,后見分析僅占總訓(xùn)練時(shí)間的8.3%,這個(gè)開銷是完全可以接受的。

六、理論基礎(chǔ)的創(chuàng)新洞察:跨狀態(tài)歸一化的智慧

HCAPO的一個(gè)重要理論創(chuàng)新是"跨狀態(tài)歸一化"機(jī)制的合理性證明。乍一看,用來自不同狀態(tài)的數(shù)據(jù)來計(jì)算統(tǒng)一的歸一化基線似乎是不合理的,就像用不同地區(qū)的房價(jià)平均值來評估某個(gè)特定小區(qū)的房價(jià)一樣。

然而,研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)分析證明,在多步?jīng)Q策任務(wù)中,這種看似粗糙的方法實(shí)際上具有深刻的理論合理性。關(guān)鍵洞察在于:全局平均值自然地反映了任務(wù)中"瓶頸狀態(tài)"和"普通狀態(tài)"之間的價(jià)值差異。

具體來說,在復(fù)雜任務(wù)中通常存在一些關(guān)鍵的"突破點(diǎn)",一旦成功通過這些點(diǎn),任務(wù)成功的概率會(huì)大幅提升。全局平均值恰好落在突破前的"低價(jià)值區(qū)間"和突破后的"高價(jià)值區(qū)間"之間,從而成為一個(gè)天然的分界線。

這個(gè)發(fā)現(xiàn)頗有哲學(xué)意味:看似簡單粗暴的全局平均值,實(shí)際上蘊(yùn)含著任務(wù)結(jié)構(gòu)的深層信息。它自動(dòng)適應(yīng)了任務(wù)的內(nèi)在復(fù)雜度,無需人工設(shè)計(jì)復(fù)雜的狀態(tài)分類規(guī)則。

更進(jìn)一步,研究團(tuán)隊(duì)證明了HCAPO的復(fù)合優(yōu)勢機(jī)制能夠在保持全局穩(wěn)定性的同時(shí),為關(guān)鍵決策點(diǎn)提供精確的學(xué)習(xí)信號。這就像在保持整體戰(zhàn)略方向不變的前提下,對具體戰(zhàn)術(shù)細(xì)節(jié)進(jìn)行精細(xì)調(diào)優(yōu)。

七、實(shí)用價(jià)值與計(jì)算效率:理想與現(xiàn)實(shí)的平衡

HCAPO不僅在理論上令人信服,在實(shí)際應(yīng)用中也展現(xiàn)出了良好的實(shí)用性。計(jì)算效率分析顯示,新增的后見分析步驟在整個(gè)訓(xùn)練流程中占比很小,這意味著用戶可以在不顯著增加計(jì)算成本的前提下獲得性能提升。

更重要的是,HCAPO的設(shè)計(jì)考慮了現(xiàn)實(shí)部署的需要。它不需要額外的標(biāo)注數(shù)據(jù),不依賴外部模型,也不需要針對特定任務(wù)進(jìn)行復(fù)雜的超參數(shù)調(diào)優(yōu)。這種"開箱即用"的特性對于實(shí)際應(yīng)用具有重要意義。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:HCAPO的效果隨著模型規(guī)模的增大而提升。從1.5B到7B參數(shù)的測試結(jié)果顯示,更大的模型能夠更好地利用后見信息進(jìn)行準(zhǔn)確的價(jià)值評估。這暗示著隨著大語言模型能力的不斷提升,HCAPO的優(yōu)勢可能會(huì)變得更加明顯。

為了進(jìn)一步提升在復(fù)雜任務(wù)中的表現(xiàn),研究團(tuán)隊(duì)還提出了"時(shí)間平滑"機(jī)制。這個(gè)技術(shù)解決了一個(gè)微妙但重要的問題:在嚴(yán)格的因果鏈任務(wù)中,最終的成功行動(dòng)往往容易被識別,但早期的準(zhǔn)備性行動(dòng)可能被低估。時(shí)間平滑通過讓成功信號向前傳播,確保那些為最終突破奠定基礎(chǔ)的早期決策也能得到應(yīng)有的認(rèn)可。

八、未來展望:智能代理的新篇章

HCAPO的成功不僅僅是一個(gè)技術(shù)突破,更重要的是它為智能代理的發(fā)展指出了新方向。這項(xiàng)研究表明,我們不需要復(fù)雜的外部監(jiān)督機(jī)制,也不需要昂貴的人工標(biāo)注,就能顯著提升AI在復(fù)雜任務(wù)中的學(xué)習(xí)效率。

這種"自我反思"的學(xué)習(xí)機(jī)制與人類的認(rèn)知過程有著驚人的相似性。優(yōu)秀的人類學(xué)習(xí)者總是善于在完成任務(wù)后進(jìn)行復(fù)盤,分析哪些決策是關(guān)鍵的,哪些經(jīng)驗(yàn)值得保留。HCAPO將這種元認(rèn)知能力引入到了人工智能系統(tǒng)中。

從更廣闊的視角來看,HCAPO代表了一種新的AI訓(xùn)練范式:從依賴外部指導(dǎo)轉(zhuǎn)向內(nèi)在自省,從粗糙的全局獎(jiǎng)勵(lì)轉(zhuǎn)向精細(xì)的步驟分析,從被動(dòng)學(xué)習(xí)轉(zhuǎn)向主動(dòng)思考。這種轉(zhuǎn)變可能會(huì)推動(dòng)整個(gè)人工智能領(lǐng)域朝著更加自主、高效的方向發(fā)展。

當(dāng)然,這項(xiàng)研究也還存在一些局限性。HCAPO的效果在一定程度上依賴于基礎(chǔ)模型的推理能力,對于較小的模型,后見分析的準(zhǔn)確性可能有限。此外,在某些對抗性環(huán)境中,后見信息可能會(huì)引入一定的偏差,這需要在未來的研究中進(jìn)一步探索和完善。

說到底,HCAPO為我們展示了人工智能領(lǐng)域的一個(gè)重要趨勢:通過更好地利用模型本身的能力,而不是依賴外部的復(fù)雜工程,我們可以實(shí)現(xiàn)更優(yōu)雅、更高效的解決方案。這種思路不僅在技術(shù)上更加簡潔,在實(shí)用性上也更加可行。隨著大語言模型能力的不斷提升,基于內(nèi)在推理的優(yōu)化方法很可能會(huì)成為未來AI發(fā)展的主要方向之一。對于那些希望在復(fù)雜決策任務(wù)中部署AI系統(tǒng)的開發(fā)者和研究者來說,HCAPO提供了一個(gè)強(qiáng)有力的工具,讓AI不僅能夠完成任務(wù),更能夠理解完成任務(wù)的真正原因。

Q&A

Q1:HCAPO與傳統(tǒng)的GRPO方法有什么根本區(qū)別?

A:HCAPO的核心區(qū)別是引入了"事后諸葛亮"機(jī)制。傳統(tǒng)GRPO方法只能告訴AI最終成功或失敗,無法區(qū)分過程中每步的重要性,就像給足球隊(duì)員平均分配獎(jiǎng)金。而HCAPO讓AI在任務(wù)完成后重新審視每個(gè)決策,結(jié)合成功結(jié)果來判斷哪些步驟真正關(guān)鍵,哪些只是無關(guān)噪音,從而實(shí)現(xiàn)精準(zhǔn)的價(jià)值分配。

Q2:為什么HCAPO能在不增加太多計(jì)算成本的情況下提升性能?

A:HCAPO的巧妙之處在于復(fù)用了大語言模型本身的推理能力,不需要訓(xùn)練額外的外部模型。后見分析只需要計(jì)算已有文本的概率而不用重新生成,這個(gè)過程可以并行處理,效率很高。實(shí)驗(yàn)顯示后見分析僅占總訓(xùn)練時(shí)間的8.3%,這個(gè)開銷完全可以接受,但帶來的性能提升卻非常顯著。

Q3:HCAPO適用于哪些類型的AI任務(wù)?

A:HCAPO特別適合需要多步推理和決策的復(fù)雜任務(wù),比如網(wǎng)購搜索、家務(wù)機(jī)器人、問答系統(tǒng)等。這些任務(wù)的共同特點(diǎn)是有明確的成功標(biāo)準(zhǔn),但成功路徑包含多個(gè)步驟,而傳統(tǒng)方法難以判斷哪些步驟真正重要。只要任務(wù)有清晰的最終結(jié)果反饋,HCAPO就能幫助AI學(xué)會(huì)區(qū)分關(guān)鍵決策和冗余動(dòng)作。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
51歲貝嫂現(xiàn)身街頭,高開叉造型難掩老態(tài)

51歲貝嫂現(xiàn)身街頭,高開叉造型難掩老態(tài)

述家娛記
2026-03-19 08:53:49
訂單積壓600億歐元、已排到2030年!歐美焦頭爛額,中國擊碎壟斷

訂單積壓600億歐元、已排到2030年!歐美焦頭爛額,中國擊碎壟斷

大衛(wèi)聊科技
2026-03-18 13:19:39
“晚打不如早打,小打不如大打,打一個(gè),不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一個(gè),不如拉日本一起打”。

安安說
2026-03-14 18:50:59
銷量突然飆漲!廣州多家門店賣斷貨,還有外國人來掃貨

銷量突然飆漲!廣州多家門店賣斷貨,還有外國人來掃貨

廣州生活美食圈
2026-03-20 18:47:41
要不是王懷志給莊學(xué)習(xí)投資500萬,劉成永不知蘇小曼另一面

要不是王懷志給莊學(xué)習(xí)投資500萬,劉成永不知蘇小曼另一面

慢半拍sir
2026-03-20 13:38:45
近期狀態(tài)非常一般,湖人后場大將的狀態(tài)多多少少有些令人擔(dān)心?

近期狀態(tài)非常一般,湖人后場大將的狀態(tài)多多少少有些令人擔(dān)心?

稻谷與小麥
2026-03-20 23:40:23
搶了中資港口兩周,巴拿馬現(xiàn)在徹底“慌”了,開唱求饒大戲

搶了中資港口兩周,巴拿馬現(xiàn)在徹底“慌”了,開唱求饒大戲

矚望云霄
2026-03-20 19:12:04
你敢相信,這是正史?

你敢相信,這是正史?

矢口知識局
2026-03-19 17:42:54
新一期葡萄牙隊(duì)身價(jià)榜:若昂-內(nèi)維斯、維蒂尼亞1.1億歐第1

新一期葡萄牙隊(duì)身價(jià)榜:若昂-內(nèi)維斯、維蒂尼亞1.1億歐第1

懂球帝
2026-03-21 08:08:04
整個(gè)明朝幾乎都有倭寇之亂,為何到了清朝,倭寇就消失了?

整個(gè)明朝幾乎都有倭寇之亂,為何到了清朝,倭寇就消失了?

銘記歷史呀
2026-03-18 16:14:20
女生主動(dòng)起來有多黏人?網(wǎng)友:這些女的太開放了

女生主動(dòng)起來有多黏人?網(wǎng)友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
明十三陵被挖后,怪異之事接連不斷的發(fā)生,至今都無法合理地解釋

明十三陵被挖后,怪異之事接連不斷的發(fā)生,至今都無法合理地解釋

歷史甄有趣
2026-03-19 16:55:08
比亞迪拿下英偉達(dá),震驚全球!

比亞迪拿下英偉達(dá),震驚全球!

互聯(lián)網(wǎng)品牌官
2026-03-19 17:15:20
上將被查、院士被除名,這背后釋放的信號,比你想的更不簡單

上將被查、院士被除名,這背后釋放的信號,比你想的更不簡單

李昕言溫度空間
2026-03-19 22:56:18
46個(gè)月下水9艘!中國095型新核艇曝光,留給美軍的時(shí)間不多了?

46個(gè)月下水9艘!中國095型新核艇曝光,留給美軍的時(shí)間不多了?

基斯默默
2026-03-20 15:40:42
世體:霍安得知入選國家隊(duì)時(shí)在健身房,大家都向他送上了祝福

世體:霍安得知入選國家隊(duì)時(shí)在健身房,大家都向他送上了祝福

懂球帝
2026-03-21 02:18:25
爭議判罰改寫戰(zhàn)局!曼聯(lián)2-2被逼平 阿瑪?shù)碌沟匚传@點(diǎn)引眾怒

爭議判罰改寫戰(zhàn)局!曼聯(lián)2-2被逼平 阿瑪?shù)碌沟匚传@點(diǎn)引眾怒

俯身沖頂
2026-03-21 07:04:46
鄭則仕辟謠“跑步9個(gè)月減重70斤”:四五年的時(shí)間慢慢減下來的

鄭則仕辟謠“跑步9個(gè)月減重70斤”:四五年的時(shí)間慢慢減下來的

韓小娛
2026-03-20 10:44:39
巴薩鋒線藍(lán)圖“太過夢幻”:低價(jià)簽下阿爾瓦雷斯,萊萬也不走

巴薩鋒線藍(lán)圖“太過夢幻”:低價(jià)簽下阿爾瓦雷斯,萊萬也不走

里芃芃體育
2026-03-21 05:00:06
120kWh電池+四激光雷達(dá):嵐圖泰山X8把家庭SUV卷進(jìn)了新維度

120kWh電池+四激光雷達(dá):嵐圖泰山X8把家庭SUV卷進(jìn)了新維度

車?yán)遄哟笫?/span>
2026-03-20 16:11:37
2026-03-21 09:00:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
2556文章數(shù) 167關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機(jī)器人出貨量第一!

頭條要聞

伊朗使用一連串重型導(dǎo)彈和無人機(jī) 襲擊波及以色列全境

頭條要聞

伊朗使用一連串重型導(dǎo)彈和無人機(jī) 襲擊波及以色列全境

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺(tái)首屆電影盛典,“沈馬”CP再合體

財(cái)經(jīng)要聞

拆解宇樹:一年?duì)I收17億 機(jī)器人賣給了誰

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅(jiān)定

態(tài)度原創(chuàng)

親子
手機(jī)
游戲
房產(chǎn)
軍事航空

親子要聞

為什么有錢人家孩子一般長相都不錯(cuò)?網(wǎng)友:要有錢有閑

手機(jī)要聞

蘋果提醒用戶從舊版iOS升級,iPhone新漏洞比想象中更嚴(yán)重!

離譜!魔獸最新劇情“致敬”還珠格格,容嬤嬤扎紫薇名場面再現(xiàn)

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計(jì)劃】,即刻啟動(dòng)!

軍事要聞

特朗普:正考慮逐步降級對伊朗的軍事行動(dòng)

無障礙瀏覽 進(jìn)入關(guān)懷版