AIGC 語言圖像模型大一統(tǒng)!Meta將Transformer和Diffusion融合,多模態(tài)AI王者登場 昨天,Meta最新發(fā)布的Transfusion,能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴散領(lǐng)域之后,語言模型和圖像大一統(tǒng),又近了一步。也就是說,真正的多模態(tài)AI模型,可能很快就要來了! 新智元 MetaTransformer大模型
AIGC 大模型最強架構(gòu)TTT問世!斯坦福UCSD等5年磨一劍, 一夜推翻Transformer 超越Transformer和Mamba的新架構(gòu),剛剛誕生了。斯坦福UCSD等機構(gòu)研究者提出的TTT方法,直接替代了注意力機制,語言模型方法從此或?qū)氐赘淖儭? 新智元 Transformer大模型技術(shù)架構(gòu)
AI人工智能 拯救Transformer推理能力!DeepMind新研究TransNAR:給模型嵌入「算法推理大腦」 DeepMind最近發(fā)表的一篇論文提出用混合架構(gòu)的方法解決Transformer模型的推理缺陷。將Transformer的NLU技能與基于GNN的神經(jīng)算法推理器(NAR)的強大算法推理能力相結(jié)合,可以實現(xiàn)更加泛化、穩(wěn)健、準確的LLM推理。 新智元 TranNARTransformer算法推理
AI人工智能 大道至簡:這一輪人工智能(AI)突破的原因其實很「簡單」 大道至簡,本文用通俗易懂的語言解釋了Transformer的核心原理,對于我們這種沒有基礎(chǔ)的普通人,也是能快速理解的,也能對當前的大模型有更深入的認識。 南村小付 GPTTransformer技術(shù)原理
個人隨筆 還在卷長文本?谷歌最新論文直接把文本干到…無限長了 最近一段時間,有關(guān)長文本能力的探討被擺到了臺面上,而就在人們比拼上下文窗口時,谷歌發(fā)布了一篇論文,談到團隊發(fā)明了一種新的注意力技術(shù),這項技術(shù)可以讓transformer大模型在有限的計算資源條件下處理無限長度的輸入。 硅星人 Transformer谷歌長文本
AI人工智能 馬斯克的Grok-1為什么不采用經(jīng)典Transformer? 前段時間,馬斯克開源了大模型Grok-1的源代碼。開源本來是件好事,不過很多人發(fā)現(xiàn)Grok-1采用的是Mixture-of-Expert,而不是大家熟悉的Transformer架構(gòu)。這是為什么呢?本文嘗試解答一下此類問題。 黃銳 Grok-1Transformer馬斯克
AI人工智能 Transformer神經(jīng)網(wǎng)絡(luò):GPT等AI大模型的基石 Transformer模型基于自注意力機制,摒棄了傳統(tǒng)的RNN和CNN結(jié)構(gòu),在自然語言處理任務(wù)中取得了顯著的成果,一定程度上是GPT的重要基石。這篇文章里,作者就對Transformer神經(jīng)網(wǎng)絡(luò)做了解讀,一起來看一下。 AI小當家 GPTTransformer大模型
AI人工智能 AI基金年終盤點 | 一文看懂2024年AI趨勢 時間跨入2024,在這一年,AI行業(yè)可能會迎來怎樣的發(fā)展趨勢?這篇文章里,作者結(jié)合機構(gòu)們發(fā)布的報告與預(yù)測做了整理,一起來看看,或許可以幫你獲得更多AI前瞻視野。 硅兔賽跑 A16ZAI趨勢Transformer
AI人工智能 大模型套殼祛魅:質(zhì)疑套殼,理解套殼 有關(guān)“套殼”的爭論一直沒有停止,那么,當我們在談?wù)撎讱さ臅r候,到底在談?wù)撌裁??怎么厘清大模型套殼的邏輯?這篇文章里,作者結(jié)合訪談與論文,嘗試闡述哪些步驟、哪些環(huán)節(jié)存在套殼的空間。 甲子光年 GPTTransformer大模型
AI人工智能 Transformer能解釋一切嗎? Transformer的高內(nèi)存消耗和高推理成本的局限性開始顯現(xiàn)出來,替代者躍躍欲試。本篇文章詳細利用各種數(shù)據(jù)介紹了Transformer的替代者以及各種理論知識,推薦想了解人工智能的同學(xué)閱讀。 硅星人 3年Transformer中級