Copyright 2005-2025 王晨云 版權(quán)所有 京ICP備20051637號(hào)-1
10月14日消息,昨夜,前特斯拉人工智能與自動(dòng)駕駛視覺總監(jiān)、OpenAI研究員安德烈·卡帕西(Andrej Karpathy)開源nanochat,號(hào)稱可以只用不到100美元(約合人民幣711.5元)訓(xùn)練出“簡(jiǎn)易版ChatGPT”,一經(jīng)發(fā)布在GitHub上就獲得了5.6k星。
▲nanochat Github主頁(來源:Github)
與其早期只涵蓋預(yù)訓(xùn)練的nanoGPT不同,nanochat是一個(gè)極簡(jiǎn)的、從零構(gòu)建的全棧訓(xùn)練/推理流程,用最精簡(jiǎn)的依賴代碼庫實(shí)現(xiàn)了“簡(jiǎn)易版ChatGPT”。
▲安德烈·卡帕西(Andrej Karpathy)推文截圖(來源:X)
卡帕西在評(píng)論區(qū)中回復(fù)稱,nanochat的基本架構(gòu)類似Meta的Llama,但有所簡(jiǎn)化,并吸收了modded-nanoGPT的一些改進(jìn)。
他還透露,截至指令微調(diào)(SFT)階段,整個(gè)訓(xùn)練耗時(shí)3小時(shí)51分鐘,總成本為92.4美元(約合人民幣657.4元),“這樣我們甚至還能剩下8美元買個(gè)冰淇淋犒勞自己。”他開玩笑道。
值得注意的是,由于目前對(duì)強(qiáng)化學(xué)習(xí)(RL)的支持尚不完善,卡帕西稱他并未將其計(jì)入總運(yùn)行時(shí)間。
也就是說,開發(fā)者只需啟動(dòng)云GPU實(shí)例,運(yùn)行單個(gè)腳本,只需不到100美元(約合人民幣711.5元),最快4小時(shí),就能訓(xùn)練出可進(jìn)行簡(jiǎn)單對(duì)話、創(chuàng)作故事詩歌、回答基礎(chǔ)問題的“簡(jiǎn)易版ChatGPT”。
訓(xùn)練約12小時(shí),模型即可在評(píng)估模型推理能力、知識(shí)基礎(chǔ)等基礎(chǔ)能力的CORE指標(biāo)上超越GPT-2。卡帕西還透露,當(dāng)投入提升至約1000美元(約合人民幣7114.7元),訓(xùn)練41.6小時(shí)后,模型表現(xiàn)還將顯著提升,能夠解決基礎(chǔ)數(shù)學(xué)/編程問題并通過選擇題測(cè)試。
例如,深度為30的模型訓(xùn)練24小時(shí)(相當(dāng)于GPT-3 Small 125M的計(jì)算量,約為GPT-3的千分之一)后,在多任務(wù)的語言理解基準(zhǔn)MMLU得分超40分,在簡(jiǎn)單常識(shí)推理任務(wù)ARC-Easy超70分,在數(shù)學(xué)推理能力基準(zhǔn)測(cè)試GSM8K中獲得超20分的成績(jī)。