近日,Meta重磅推出其80億和700億參數的Meta Llama 3開源大模型。該模型引入了改進推理等新功能和更多的模型尺寸,并采用全新標記器(Tokenizer),旨在提升編碼語言效率并提高模型性能。
在模型發布的第一時間,英特爾即驗證了Llama 3能夠在包括英特爾?至強?處理器在內的豐富AI產品組合上運行,并披露了即將發布的英特爾至強6性能核處理器(代號為Granite Rapids)針對Meta Llama 3模型的推理性能。
英特爾至強處理器可以滿足要求嚴苛的端到端AI工作負載的需求。以第五代至強處理器為例,每個核心均內置了AMX加速引擎,能夠提供出色的AI推理和訓練性能。截至目前,該處理器已被眾多主流云服務商所采用。不僅如此,至強處理器在進行通用計算時,能夠提供更低時延,并能同時處理多種工作負載。
事實上,英特爾一直在持續優化至強平臺的大模型推理性能。例如,相較于Llama 2模型的軟件,PyTorch及英特爾? PyTorch擴展包(Intel? Extension for PyTorch)的延遲降低了5倍。這一優化是通過Paged Attention算法和張量并行實現的,這是因為其能夠最大化可用算力及內存帶寬。下圖展示了80億參數的Meta Lama 3模型在AWS m7i.metal-48x實例上的推理性能,該實例基于第四代英特爾至強可擴展處理器。

圖1:AWS實例上Llama 3的下一個Token延遲
不僅如此,英特爾還首次披露了即將發布的產品——英特爾?至強? 6性能核處理器(代號為Granite Rapids)針對Meta Llama 3的性能測試。結果顯示,與第四代至強處理器相比,英特爾至強6處理器在80億參數的Llama 3推理模型的延遲降低了2倍,并且能夠以低于100毫秒的token延遲,在單個雙路服務器上運行諸如700億參數的Llama 3這種更大參數的推理模型。

圖2:基于英特爾?至強? 6性能核處理器(代號Granite Rapids)的Llama 3下一個Token延遲
考慮到Llama 3具備更高效的編碼語言標記器(Tokenizer),測試采用了隨機選擇的prompt對Llama 3和Llama 2進行快速比較。在prompt相同的情況下,Llama 3所標記的token數量相較Llama 2減少18%。因此,即使80億參數的Llama 3模型比70億參數的Llama 2模型參數更高,在AWS m7i.metal-48xl實例上運行BF16推理時,整體prompt的推理時延幾乎相同(該評估中,Llama 3比Llama 2快1.04倍)。
開發者可在此查閱在英特爾至強平臺上運行Llama 3的說明。
產品和性能信息
英特爾至強處理器:
在英特爾?至強? 6處理器(此前代號Granite Rapids)上進行測試,使用2個英特爾?至強? Platinum,120核,超線程開啟,睿頻開啟,NUMA 6,集成加速器可用[已使用]:DLB[8],DSA[8],IAA[8],QAT[8],總內存1536GB(24x64GB DDR5 8800 MT/s[8800 MT/s]),BIOS BHSDCRB1.IPC.0031.D44.2403292312,微碼0x810001d0,1x以太網控制器I210千兆網絡連接1x SSK存儲953.9G,Red Hat Enterprise Linux 9.2(Plow),6.2.0-gn r.bkc.6.2.4.15.28.x86_64,基于英特爾2024年4月17日的測試。
在第四代英特爾?至強?可擴展處理器(此前代號Sapphire Rapids)上進行測試,使用AWS m7i.metal-48xl實例,2個英特爾?至強? Platinum 8488C,48核,超線程開啟,睿頻開啟,NUMA 2,集成加速器可用[已使用]:DLB[8],DSA[8],IAA[8],QAT[8],總內存768GB(16x32GB DDR5 4800 MT/s[4400 MT/s]);(16x16GB DDR5 4800 MT/s[4400 MT/s]),BIOS亞馬遜EC2,微碼0x2b0000590,1x以太網控制器彈性網絡適配器(ENA)亞馬遜彈性塊存儲(EBS)256G,Ubuntu 22.04.4 LTS,6.5.0-1016-ws,基于英特爾2024年4月17日的測試。
關鍵字:英特爾 至強 處理器 Meta 模型
引用地址:
英特爾披露至強6處理器針對Meta Llama 3模型的推理性能
推薦閱讀最新更新時間:2025-06-07 23:31
Intel推出至強? W和酷睿TMX系列處理器 更高性能助力AI發展
英特爾推出全新的英特爾? 至強? W和X系列處理器產品,為專業創作者和性能發燒友帶來更高級別的計算性能和AI加速性能。全新的至強? W-2200和X系列處理器專為滿足用戶日益增長的不同需求而設計,產品預計將于11月開始發售。此外,對于使用主流酷睿TM S系列處理器的創造者和性能發燒友而言,全新的定價結構使硬件升級變得更加容易。 英特爾是唯一一家提供全套產品組合的公司,其產品經過精確調整,能夠處理專業創作者和性能發燒友每天持續使用的計算密集型工作負載。全新的至強? W-2200和X系列處理器將高強度工作負載處理性能提升到全新高度,成為首款采用英特爾?DL Boost技術實現AI加速的高端臺式機和主流工作站。由此,AI推理速度比上
[嵌入式]
邊緣AI放大招!AI模型支持虛擬數智人和機械臂,英特爾邊緣平臺助力伙伴加速創新
(發燒友報道 文/章鷹)7月25日,在第17屆與邊緣計算行業大會上,邊緣虛擬人“小英”引起了與會者的關注。“小英”是一個基于英特爾酷睿與英特爾銳炫獨立顯卡(ARC770)技術的3D虛擬數智人,除了實現4K 60幀的高清渲染,還在本地集成了大語言模型和RAG技術,可以完全部署在邊緣側。它能完成什么工作?小英的回答是,他可以勝任多方面的工作,包括在營業廳擔任客服代表,在商場擔任導購,或者在博物館擔任講解員,為訪客帶來生動有趣的歷史與文化講解。
這是一個邊緣AI應用落地的生動實例。在此次大會上,英特爾和超過400位生態伙伴和客戶代表齊聚一堂,共同探討邊緣AI的未來發展趨勢,并介紹了眾多基于英特爾邊緣AI解決方案,
[機器人]
傳英特爾將在2024年上半年發布2納米處理器
英特爾已取消其代號為Meteor Lake-S的臺式機處理器,并計劃將Arrow Lake-S的推出時間提前到2024年上半年,根據BenchLife發布的新傳言。 然而,一些市場觀察人士認為這個傳言是不正確的,英特爾的Meteor Lake-S仍將在2024年上半年推向臺式機。好奇怪的桌面路線圖英特爾已經討論了其分解式移動電腦處理器Meteor Lake多年,并預計于2023年推出筆記本版本CPU。但是,公司打算在明年上半年引入代號為Arrow Lake-S CPU,與相同平臺控制器集線器(PCH)系列(Intel Z890、W880、Q870、B860和H810)兼容,而不是在2H 2023或1H 2024與800系列芯片
[半導體設計/制造]
VaST針對SC2400處理器推出虛擬模型
VaST Systems Technology公司日前發布一款面向StarCore SC2400處理器的高性能虛擬模型。C2400是繼SC1200和SC1400之后由VaST實現建模的第三個StarCore處理器。 虛擬處理器模型(VPM)技術是基于VaST虛擬系統原型的一種SoC仿真模型,具有快速和精確時鐘的特性,可在現有PC機上以200MIPS的速度運行。VaST VPM具有可配置性,可提供觀察執行軟件情況及被選處理器內部寄存器的能力。用戶通過這種虛擬處理器模型能實現結構分析和優化,并可用于進行早期的軟件開發。
[嵌入式]
Hot Chips大會:英特爾公布神經網絡處理器的最新細節
在2019年Hot Chips大會上,英特爾公布了即將推出的高性能人工智能(AI)加速器——英特爾? Nervana?神經網絡處理器的最新細節,包括用于訓練的NNP-T和用于推理的NNP-I。英特爾工程師還介紹了混合芯片封裝技術、英特爾?傲騰?數據中心級持久內存和光學I/O小芯片技術的細節。 “要想實現‘人工智能無處不在’的未來愿景,我們必須解決數據的積壓問題,確保企業能夠有效利用數據,必要的時候在收集數據的地方對數據進行處理,并更明智地利用上游的數據和計算資源。數據中心和云端需要為復雜的AI應用提供高性能和可擴展的通用計算,以及專門的加速。在人工智能無處不在的未來愿景中,從硬件到軟件再到應用,都需要一種全面的解決方案。”
[嵌入式]
Intel宣布10nm年底發布:PC處理器2018年Q3用上
上周,英特爾公布了三季度財報,公司率先營收和利潤雙增長,超過華爾街預期,其中,以數據中心為代表的企業級業務是此次亮眼成績的主力功臣。在財報會議上,英特爾CEO Brian Krzanich(科再奇)強調, 10nm 首批芯片將按照原定步伐推出,也就是今年底之前。但他透露,數量并不多,屬于早期的量產階段。下面就隨手機便攜小編一起來了解一下相關內容吧。 同時,大規模量產和OEM客戶采用應該是在2018年下半年。 所以,Digitimes此前分析的,代號“Cannon Lake”的芯片登場在2018年下并非空穴來風,英特爾的首批 10nm 連低電壓的超極本可能都交付不了,而是自家的FPGA芯片。 所以,如果你有 10n
[手機便攜]
Intel處理器出現重大安全漏洞,存在“死亡按鈕”
近日,位于莫斯科的安全研究機構Positive Technologies報告指出,Intel Management Engine 11存在死亡按鈕,可以被黑客竊取。下面就隨嵌入式小編一起來了解一下相關內容吧。 Management Engine(管理引擎)是Intel的一個固件接口,用于處理器和周圍的芯片進行通訊,進行熱管理等。 安全專家將威脅視為后門一樣的存在,然而官方尚未進行修復。 民間有稱之為ME Cleaner的工具,但無法徹底實現芯片級別的禁用,印尼為ME有著完整的網絡和存儲訪問權。 周一,PT表示,美國國家安全局的HAP可以通過修改配置文件封堵掉漏洞,然而Intel表示,他們不建議這樣做,因為這種根據特定需求開發的工
[嵌入式]
回擊ARM 英特爾將提供定制化X86處理器
據國外媒體報道,在新任CEO Brian Krzanich和新總裁Renée James掌管下的英特爾公司在策略上將面臨一系列轉變:這家芯片巨頭希望進軍除個人電腦和傳統服務器市場以外的計算領域,擴大競爭優勢。
其中即包括為大型客戶的服務器提供定制化X86處理器。英特爾過去曾在這方面做過一些嘗試,現在則要與ARM及ARM的合作伙伴展開定制化競爭。
英特爾此舉也在意料之中,大家都希望處理器廠商應該提供帶深度排序算法的芯片,芯片的器件應更耐高溫,它們的電壓和時鐘頻率是可改變的,以適應特別 的溫度環境。用戶還期望芯片在因超頻而超過標準處理器溫度時的限時性能更理想。(在這方面ARM已有多年經驗,而且還做得更全面:這家英國的處理器核心
[單片機]