最新動態
Meta推出最新大型語言模型 Llama 3 與新的獨立AI聊天機器人
Llama 3 launches alongside new stand-alone Meta AI chatbot. VentureBeat, 2024/04/18. https://venturebeat.com/ai/llama-3-launches-alongside-new-stand-alone-meta-ai-chatbot/
期待已久的時刻終於來臨!Meta平台公司18日正式推出其最新大型語言模型Llama 3,堪稱迄今最強大的「開源」AI模型之一。就在Llama 3於微軟Azure雲端服務提早流出數小時後,Meta宣布正式發佈。
Llama 3家族首波推出80億參數和700億參數兩個版本,參數數量是指人工神經元之間的連接。另一個4000億參數版本則正在培訓階段,但無確切發佈時程。
目前,Llama 3 8B和70B版本的基準測試成績不僅與谷歌(Gemma和Gemini Pro 1.5)、Anthropic(Claude 3 Sonnet)及Mistral(7B Instruct)等競爭對手的模型相當,在某些測試上更是將它們輾壓一倍之多。Meta的Llama 3尤其擅長MMLU和HumanEval,但70B版本在解答數學應用題(MATH)和研究生級多項選擇題資料集(GPQA)則不如Gemini Pro 1.5強。
然而,Llama 3 8B版本在各項基準測試中,不僅遠勝Gemma 7B和Mistral 7B Instruct,在小學數學題(GSM-8K)上更是壓倒性優勢。
Meta AI副總裁Manohar Paluri在與VentureBeat的視訊會議中解釋:「如果你看看大型語言模型的各種基準測試,通常可分為五大:一般知識、閱讀理解力、數學、推理和編碼。而這次釋出的Llama 3 8B和70B,在這些基準測試上不僅優於任何其他開源模型,甚至可與一些頂級商業模型媲美,在某些項目上更是突出表現。」
全新Meta AI獨立聊天機器人登場
Llama 3不僅將推動一款全新的Meta AI獨立聊天機器人網站(www.meta.ai),直接對戰OpenAI的ChatGPT、Anthropic的Claude 3和HuggingFace的HuggingChat等競爭對手。
與競爭對手一樣,Meta AI採用熟悉的對話框設計,用戶在下方輸入文字,聊天機器人的回應則顯示在上方。不登入Facebook帳戶也能使用,但功能將受到限制,而且需先通過年齡管制。
與ChatGPT類似,Meta也將其自家的Meta Imagine圖像生成模型(以前稱為Emu,以Facebook和Instagram數億用戶照片進行訓練)整合至Meta AI聊天機器人中。
必須透過Facebook帳戶登入Meta AI才能使用此功能,不過已經試用過,可以快速、順暢地產生圖像,操作方式與ChatGPT整合OpenAI的DALL-E 3類似。
與DALL-E 3整合不同的是,Meta Imagine似乎無法調整影像長寬比,但卻能做出其他影像生成器尚未實現的事:左下角會加註「AI生成作品」(AI-generated work)浮水印。
Meta Imagine新增即時圖像生成功能,使用者輸入文字時就能立即看到對應影像,例如打字「一隻狗」時會先產生狗的影像,接著輸入「吃披薩」就會馬上生成狗吃披薩的影像。Meta表示你還可將影像生成過程錄製成動畫影片或GIF檔。
與ChatGPT相同,Meta AI可透過微軟Bing和Google兩者搜尋結果整合外部資訊。但相較其他頂級商業模型,Meta AI目前仍欠缺多模態功能,即無法上傳圖像或文件作為輔助,不過Meta內部人士透露,多模態版將於不久後推出。
相較競爭對手,Meta AI最大的優勢在於龐大的用戶基礎。祖克柏表示,Meta AI將整合至「WhatsApp、Instagram、Facebook和Messenger的搜尋列」,讓數億用戶都能輕鬆使用。
開源性質受質疑
Llama 3被標榜為「開源」,用引號是因為與競爭對手採用更通用的Apache 2授權不同,Meta選擇延續Llama 2的Meta專屬授權模式。
雖然Meta允許企業用戶將Llama用於商業用途,但授權協議中特別指出,「上個月活躍用戶超過7億人」的大型企業,必須個案向Meta申請授權,Meta「可全權決定是否許可」,尚未獲准則「無權依此協議行使任何權利」。
此條款引發開源社群批評,認為Meta試圖藉此維持技術及用戶控制權,打壓競爭對手。儘管如此,仍無阻法國Mistral公司以Llama 2為基礎打造新開源模型。
而Llama 3團隊也堅稱,Meta致力開源理念。
Llama 3 8B和70B的培訓及與前代差異
除了自詡基準測試成績已能與頂級商業模型並駕齊驅,Meta表示Llama 3在多方面都超越前代,降低了錯誤拒絕率、提升了一致性,回覆內容也更加多樣。推理、程式碼生成和指令理解等關鍵能力也大幅增強。
造就上述進步的主因,在於Meta的培訓過程「投入大量資源擴大預訓練規模」,並「結合數據平行化、模型平行化和流程平行化三種技術」,提升訓練效率達前代的3倍。
Llama 3訓練語料量也比前代多出7倍,共計超過15萬億個來自公開來源的Token。Meta表示,在4000億參數版本完成後,將公布Llama 3詳細的培訓過程技術論文。
Llama 3 70B版本的上下文視窗長度達8000個Token,是前代版本的兩倍,意味著使用者能輸入更多資訊和更長的提示(但仍遠遠落後於OpenAI的GPT-4 Turbo及Google的Gemini Pro 1.5,兩者的上下文視窗長度都高達128,000個Token)。
目前,使用者可前往Meta AI官網下載Llama 3,此外亦已在Amazon SageMaker、AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM及Snowflake等平台上架。


