大語言模型:LLM的基本原理解讀
本文講述了大語言模型LLM的基本原理以及應用,僅供參考。
最近在做一些基于LLM(Large Language Models)的項目,計劃系統(tǒng)化的梳理一個LLM系列文章,整個大綱,大概包括以下內(nèi)容:
1、大語言模型:LLM的基本原理解讀
2、如何將LLM應用到實際的業(yè)務中
3、基于LLM構建應用程序:設計指南
4、LLM的高階應用:提示工程
5、LLM的高階應用:插件的使用
6、LLM的高階應用:模型微調(diào)
7、基于LLM構建應用程序:注意事項
8、基于LLM的應用開發(fā)框架
今天分享的主題是:LLM的基本原理。
在介紹LLM之前,我們先來了解一下自然語言處理(NLP)。NLP是AI的一個子領域,專注于使計算機能夠處理、解釋和生成人類語言,主要任務包括:文本分類、自動翻譯、問題回答、生成文本等。
在LLM誕生之前,NLP一直在匍匐前進,異常的艱難,直到LLM的出現(xiàn),才徹底的改變了NLP的現(xiàn)狀。
一、什么是LLM?
大語言模型:LLM(Large Language Models),是試圖完成文本生成任務的一類ML(Machine Learning,機器學習)模型。
LLM使計算機能夠處理、解釋和生成人類語言,從而提高人機交互效率。為了做到這一點,LLM會分析大量文本數(shù)據(jù)或基于這些數(shù)據(jù)進行訓練,從而學習句子中各詞之間的模式和關系。
這個學習過程可以使用各種數(shù)據(jù)源,包括維基百科、Reddit、成千上萬本書,甚至互聯(lián)網(wǎng)本身。
在給定輸入文本的情況下,這個學習過程使得LLM能夠預測最有可能出現(xiàn)的后續(xù)單詞,從而生成對輸入文本有意義的回應。
在過去的2年中,市場上發(fā)布的一些現(xiàn)代語言模型非常龐大(如GPT系列模型、文心一言、通義千問、Kimi、豆包等等),并且已經(jīng)在大量文本上進行了訓練,因此它們可以直接執(zhí)行大多數(shù)NLP任務,如文本分類、自動翻譯、問題回答、生成文本等。
二、LLM的發(fā)展歷程
LLM的發(fā)展可以追溯到幾年前。它始于簡單的語言模型,如n-gram模型、LSTM網(wǎng)絡等等,直到Transformer模型的出現(xiàn),才徹底的催生了LLM。
1、N-gram模型
n-gram模型通過使用詞頻來根據(jù)前面的詞預測句子中的下一個詞,其預測結果是在訓練文本中緊隨前面的詞出現(xiàn)的頻率最高的詞。雖然這種方法提供了不錯的著手點,但是n-gram模型在理解上下文和語法方面仍需改進,因為它有時會生成不連貫的文本。
2、LSTM網(wǎng)絡
為了提高n-gram模型的性能,人們引入了更先進的學習算法,包括循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)和長短期記憶(long short-termmemory,LSTM)網(wǎng)絡。與n-gram模型相比,這些模型能夠學習更長的序列,并且能夠更好地分析上下文,但它們在處理大量數(shù)據(jù)時的效率仍然欠佳。盡管如此,在很長的一段時間里,這些模型算是最高效的,因此在自動翻譯等任務中被廣泛使用。
3、Transformer模型
Transformer架構徹底改變了NLP領域,這主要是因為它能夠有效地解決之前的NLP模型存在的一個關鍵問題:很難處理長文本序列并記住其上下文。(也就是臭名昭著的“災難性遺忘問題”),Transformer則具備高效處理和編碼上下文的能力。
這場革命的核心支柱是注意力機制,這是一個簡單而又強大的機制。模型不再將文本序列中的所有詞視為同等重要,而是在任務的每個步驟中關注最相關的詞。
交叉注意力和自注意力是基于注意力機制的兩個架構模塊,它們經(jīng)常出現(xiàn)在LLM中。Transformer架構廣泛使用了交叉注意力模塊和自注意力模塊。
交叉注意力機制
交叉注意力有助于模型確定輸入文本的不同部分與輸出文本中下一個詞的相關性。它就像一盞聚光燈,照亮輸入文本中的詞或短語,并突出顯示預測下一個詞所需的相關信息,同時忽略不重要的細節(jié)。
為了說明這一點,讓我們以一個簡單的句子翻譯任務為例。
假設輸入文本是這樣一個英語句子:Alice enjoyed the sunny weather in Brussels(Alice很享受布魯塞爾陽光明媚的天氣)。
如果目標語言是法語,那么輸出文本應該是:Alice a profité du temps ensoleillé à Bruxelles。
在這個例子中,讓我們專注于生成法語單詞ensoleillé,它對應原句中的sunny。
對于這個預測任務,交叉注意力模塊會更關注英語單詞sunny和weather,因為它們都與ensoleillé 相關。通過關注這兩個單詞,交叉注意力模塊有助于模型為句子的這一部分生成準確的翻譯結果。
自注意力機制
自注意力機制是指模型能夠關注其輸入文本的不同部分。具體到NLP領域,自注意力機制使模型能夠評估句子中的每個詞相比于其他詞的重要性。這使得模型能夠更好地理解各詞之間的關系,并根據(jù)輸入文本中的多個詞構建新概念。
來看一個更具體的例子。
考慮以下句子:Alice received praise from hercolleagues(Alice受到同事的贊揚)。
假設模型試圖理解her這個單詞的意思。自注意力機制給句子中的每個單詞分配不同的權重,突出在這個上下文中與her相關的單詞。
在本例中,自注意力機制會更關注Alice和colleagues這兩個單詞。如前所述,自注意力機制幫助模型根據(jù)這些單詞構建新概念。在本例中,可能出現(xiàn)的一個新概念是Alice’s colleagues。
Transformer架構的并行優(yōu)勢
Transformer架構具有易于并行化的優(yōu)勢。這意味著 Transformer架構可以同時處理輸入文本的多個部分,而無須順序處理。這樣做可以提高計算速度和訓練速度,因為模型的不同部分可以并行工作,而無須等待前一步驟完成。
基于Transformer架構的模型所具備的并行處理能力與圖形處理單元(graphics processing unit,GPU)的架構完美契合,后者專用于同時處理多個計算任務。由于高度的并行性和強大的計算能力,GPU非常適合用于訓練和運行基于Transformer架構的模型。硬件上的這一進展使數(shù)據(jù)科學家能夠在大型數(shù)據(jù)集上訓練模型,從而為開發(fā)LLM鋪平了道路。
編碼器和解碼器模型
Transformer架構由來自谷歌公司的Ashish Vaswani等人在2017年的論文“Attention Is All You Need”中提出,最初用于序列到序列的任務,如機器翻譯任務。
標準的Transformer架構有兩個主要組件:編碼器和解碼器,兩者都十分依賴注意力機制。
編碼器的任務是處理輸入文本,識別有價值的特征,并生成有意義的文本表示,稱為嵌入(embedding)。
解碼器使用這個嵌入來生成一個輸出,比如翻譯結果或摘要文本。這個輸出有效地解釋了編碼信息。
生成式預訓練Transformer
生成式預訓練Transformer(Generative Pre-trained Transformer,GPT)是一類基于Transformer架構的模型,專門利用原始架構中的解碼器部分。
在GPT中,不存在編碼器,因此無須通過交叉注意力機制來整合編碼器產(chǎn)生的嵌入。也就是說,GPT僅依賴解碼器內(nèi)部的自注意力機制來生成上下文感知的表示和預測結果。
GPT模型的標記和預測實現(xiàn)
GPT模型接收一段提示詞作為輸入,然后生成一段文本作為輸出。這個過程被稱為文本補全。
當GPT模型收到一段提示詞之后,它首先將輸入拆分成標記(token)。這些標記代表單詞、單詞的一部分、空格或標點符號。
因為有了注意力機制和Transformer架構,LLM能夠輕松處理標記并解釋它們之間的關系及提示詞的整體含義。Transformer架構使模型能夠高效地識別文本中的關鍵信息和上下文。
為了生成新的句子,LLM根據(jù)提示詞的上下文預測最有可能出現(xiàn)的下一個標記。與之前的循環(huán)模型不同,帶有注意力機制的Transformer架構使得LLM能夠將上下文作為一個整體來考慮?;谶@個上下文,模型為每個潛在的后續(xù)標記分配一個概率分數(shù),然后選擇概率最高的標記作為序列中的下一個標記。從而實現(xiàn)文本的預測。
以上便是LLM的基本實現(xiàn)原理。
本文由人人都是產(chǎn)品經(jīng)理作者【長弓PM】,微信公眾號:【AI產(chǎn)品經(jīng)理社】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。