娇小w搡bbbb搡bbb,《第一次の人妻》,中国成熟妇女毛茸茸,边啃奶头边躁狠狠躁视频免费观看

華為、理想、特斯拉、商湯的世界模型是做什么用的

發布者:自由探索最新更新時間:2025-02-07 來源: elecfans關鍵字:華為  理想  特斯拉  商湯 手機看文章 掃描二維碼
隨時隨地手機看文章

最近世界模型(World Model)很火,甚至有人說世界模型是終極自動駕駛解決方案,實際上它只是端到端大模型的一種,和VLM沒有本質區別。目前的研究基本都集中在用世界模型生成視頻或其他連續時間序列上的可視化數據,再用這些視頻訓練傳統或端到端的自動駕駛模型,幾乎沒有人研究直接用世界模型做自動駕駛的。即便是視頻生成,也還是處于實驗室的學術研究階段。

47a33876-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網絡

為什么要做世界模型,它實際上是端到端自動駕駛的閉環仿真,世界模型可以看做VLM的逆向工程,用prompt這些文字提示輸出視頻。世界模型和端到端模型是一個互相幫助的過程,世界模型生成的視頻交給車端大模型,車端大模型通過它的規劃執行接下來的動作,接下來的動作產生新的場景、新的視角,再通過世界模型繼續生成新的數據,進行閉環仿真的測試。

47b92f28-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網絡

不同于CARLA這些測試型仿真,世界模型是訓練型仿真,它要達到海量規模才有價值。

47d6bf70-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網絡

世界模型生成視頻可以是自監督的,無需3D標簽,可以使用海量網絡汽車駕駛視頻。最重要的是它可以生成現實世界中極難采集到的長尾視頻,這是其核心價值。換句話說它生成的視頻價值是現實世界采集到的視頻數據的價值百倍以上,但成本是其1%不到。

47f20140-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網絡

所謂世界模型就是視頻生成加prompt控制。視頻生成有四大類型,包括基于對抗網絡GAN的,基于擴散模型的,基于自回歸模型(基本上就是transformer)和基于掩碼的。其中,擴散模型再分為Stable Video Diffusion (SVD)和Stable Diffusion (SD)兩種,它們還有一種共同的稱呼即隱擴散模型(Latent Diffusion Model, LDM)。目前也有結合diffusion和transformer的模型即DiT,但它本質上還是擴散模型,只不過用transformer替換了擴散模型中的Unet。大名鼎鼎的SORA則是復合型,Sora模型的核心組成包括Diffusion Transformer(DiT)、Variational Autoencoder(VAE)和Vision Transformer(ViT)。DiT負責從噪聲數據中恢復出原始的視頻數據,VAE用于將視頻數據壓縮為潛在表示,而ViT則用于將視頻幀轉換為特征向量以供DiT處理。據說特斯拉就是用的SVD。

基于世界模型的端到端訓練

4811fe96-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網絡

生成視頻的質量分為兩部分,一是視頻本身的準確度,主要指標有三個,一個是FID/FVD,另一個是CLIP得分。FID(Fréchet Inception Distance)是一種用于評估生成模型,尤其是在圖像生成任務中,生成圖像的質量和多樣性的指標。它通過比較生成圖像與真實圖像在特定空間內的分布來工作。這個特定的空間通常是通過預訓練的Inception網絡的某一層來定義的。對于生成圖像集和真實圖像集,分別通過Inception網絡(通常是Inception V3模型)計算它們的特征表示。這一步驟會得到每個圖像集的特征向量,計算每個集合的特征向量的均值和協方差矩陣,并做對比,都是高等數學的課程,這里就不展開說了。FVD和FID接近,相當于把FID的圖像特征提取網絡換成視頻特征提取網絡,其他都差不多。最后一個是北大提出來的,就是Trajectory Agent IoU (NTA-IoU),與設定軌跡的交并比,Novel Trajectory Lane IoU (NTL-IoU),與設定車道的交并比。

二是視頻本身的長度、幀率和分辨率,要盡可能與傳統自動駕駛訓練視頻達到一致的幀率和分辨率。

目前世界模型生成視頻的方向有兩個,一個是追求更長、更多視角、更高分辨率,代表作有商湯的《InfinityDrive: Breaking Time Limits in Driving World Models》,華為的《MagicDriveDiT: High-Resolution Long Video Generation》,Wayve的GAIA-1,地平線的DrivingWorld。另一個是追求近乎真實的3D場景渲染,理想在這方面情有獨鐘,理想的Street Gaussians、ReconDreamer、DriveDreamer4D都是這個方向,也是這個領域的主要代表作。

4829e9ca-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網絡

特斯拉用的什么世界模型,自然是未知,也許它根本就沒用世界模型。

483836ec-cfc8-11ef-9310-92fbcf53809c.png

注:“Ours”指的就是InfinityDrive

圖片來源:商湯論文《InfinityDrive: Breaking Time Limits in Driving World Models》

4855bcf8-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:華為的MagicDriveDiT

華為不僅能生成超高分辨率,還能生成多個角度的視頻。

4890c258-cfc8-11ef-9310-92fbcf53809c.png

數據來源:地平線的DrivingWorld,數據尺度比較大,分辨率也很高

我們再來看另一條3D渲染線,它的核心應該說有點偏離世界模型的本來意義了,它是追求接近真實的3D渲染,基本上是理想汽車的獨角戲。三個比較有價值的模型基本都有理想汽車的身影,第一個是Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting,浙江大學和理想汽車合作,九位作者,其中來自理想汽車的作者占四位。第二個是DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation,由極佳科技聯合中國科學院自動化研究所、理想汽車、北京大學、慕尼黑工業大學等單位提出,十二位作者兩位來自理想汽車。第三個是ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration,總共十六位作者,其中來自理想汽車的多達八位,來自極佳科技的有六位。

48a50434-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

上圖可以看到,理想汽車與極佳科技合作的最新成果就是ReconDremaer,純粹StreetGaussians的話,一旦偏離中心視角,容易出現空洞或鬼影,車道線也出現扭曲。

ReconDreamer整體框架

48caa7b6-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

除了生成視頻,還有生成激光雷達點云視頻,如理想與澳門大學合作的《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》,還有生成語義分割圖的《SynDiff-AD: Improving Semantic Segmentation and End-to-End Autonomous Driving with Synthetic Data from Latent Diffusion Models》。

OLiDM的整體框架

48d1378e-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》

上圖中,世界模型生成激光雷達點云視頻,再拿這個去訓練激光雷達的識別能力。

48ebf6a0-cfc8-11ef-9310-92fbcf53809c.png

數據來源:論文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》。

OLiDM的效果,能有兩三個點的提升,已經是非常難得了,現在在nuScenes上0.001的提升都需要一年半以上的時間。

世界模型一點也不神秘,不僅是端到端自動駕駛,它對傳統自動駕駛也有明顯的提升,自動駕駛的數據成本也大幅度下降至少95%以上,那些所謂影子模式變得毫無價值,實際上沒有世界模型生成視頻,影子模式本身也毫無價值,這也是馬斯克說他用擴散模式生成視頻的原因,如果影子模式真有價值,何必多此一舉?


關鍵字:華為  理想  特斯拉  商湯 引用地址:華為、理想、特斯拉、商湯的世界模型是做什么用的

上一篇:德州儀器AWRL6844雷達傳感器助力車內安全系統設計
下一篇:Norflash閃存芯片HT25Q20D廣泛應用在汽車電子領域

推薦閱讀最新更新時間:2025-04-23 18:45

理想要對特斯拉下手了
理想一手開啟了自造榜單先河,并且在今年,理想的榜單有了微妙的變化。 在3月的周榜單中,理想在中國豪華品牌上險量排名中加入了特斯拉,而在2月的豪華品牌上險量中,特斯拉還被排除在理想的豪華品牌之外。 特斯拉在中國市場依然在靠Model 3和Model Y主打中國市場。所以是理想變了,野心和目標更大了。 今年一季度,是理想新車型集中上市的階段,每個月理想都在刷新交付量。在蔚來還在摩拳擦掌趕超雷克薩斯時,理想4月交付量超過2.5萬輛,比豪華品牌第二陣營的凱迪拉克多了8000輛,在豪華品牌陣營,理想僅次于BBA。 但是這還不夠,理想汽車董事長兼CEO李想在分析師會上還是要不謙虛地說,理想6月交付量有望突破3萬輛。 當分析
[汽車電子]
<font color='red'>理想</font>要對<font color='red'>特斯拉</font>下手了
商湯科技發布四大人工智能創新平臺體系
9月伊始,2022WAIC世界人工智能大會如火如荼進行。2018至2022年,時間的齒輪轉動不息,歷年WAIC期間,商湯均舉辦匯聚全球AI大咖的企業論壇,分別以主題“智引萬物”、“智煥新動能”、“大愛無疆·致遠”、“大愛無疆·共生”、“大愛無疆·元創力”表達行業風向,見證人工智能產業浪潮奔涌向前。 商湯參與歷屆WAIC大會 作為WAIC戰略合作伙伴,商湯科技不僅舉辦企業論壇、邀請產學研各界嘉賓洞見AI未來,還以AI技術賦能大會,匠心打造亮點紛呈的炫酷展臺,從深度、廣度和高度全方位助推WAIC大會召開,以 AI之名,生生不息。 今年,商湯科技回到五年前WAIC開始的地方——上海徐匯西岸,舉辦“大愛無疆·元創力”論壇。 本
[嵌入式]
不到4年估值60億美元,做底層技術的商湯科技值嗎?
EEWorld 電子資訊 犀利解讀? 技術干貨 每日更新 ? ? ? 經過多方確認,軟銀中國已投資商湯科技10億美元,將商湯估值抬至60億美元。    據公開資料顯示,從2014年至今,商湯科技共經歷8輪融資,融資總額已超過20億美元,被業內戲稱“融資機器”。能融資,更能“燒”錢,商湯科技做底層技術,鋪大攤子,宣稱要將人工智能技術“賦能百業”,并已經進入安防、金融、手機、自動駕駛、零售等領域,并將業務拓展至日本、東南亞等地區。商湯科技副總裁柳鋼對此的解讀是:“領域雖不同,背后都有一個理念,就是對行業特定場景做提煉之后,找到共性、突破技術,再將技術回歸行業?!?    不僅如此,商湯科技已經
[其他]
不到4年估值60億美元,做底層技術的<font color='red'>商湯</font>科技值嗎?
商湯科技、阿里巴巴攜手香港科技園成立AI實驗室
香港近年逐漸成為新創業者選擇創立公司的地方,發掘科技人才以及具有潛力的新創公司也因此成為促進該地區新創生態發展的關鍵。大陸人工智能(AI)新創公司商湯科技將與阿里巴巴集團以及香港科技園公司(管理香港科學園、創新中心和3個工業園區的法定機構)日前宣布將成立香港人工智能實驗室(HKAI Lab)以及新創公司加速器計劃。 ? 根據騰訊科技與TechCrunch報導,大陸AI新創、同時也是全球市值最高的AI公司商湯科技與阿里巴巴以及香港科技園公司宣布將共同推動香港科技新創生態發展并強化其與大陸的科技合作。 ? 阿里巴巴近期對商湯科技領投6億美元,成為商湯科技最大單一投資者,未來阿里巴巴也將透過其規模達1.3億美元的香港創業者基金資助香港人
[半導體設計/制造]
上海交大AI創業校友代表,除了商湯科技還有誰?
  在 人工智能 創業大潮下,誰才是AI創業者的搖籃?對此,小編盤點了一份關于 人工智能 領域的創業校友集,匯集國外四大高校(CMU、MIT、Stanford、UC Berkeley)與國內四大高校(清華、北大、交大、浙大)——歡迎閱讀AI創業黑幫專題系列文章:卡耐基梅隆大學、麻省理工大學、斯坦福大學、加州大學伯克利分校、清華大學、北京大學、上海交通大學、浙江大學。下面就隨嵌入式小編一起來了解一下相關內容吧。 ? 上海交大AI創業校友代表,除了商湯科技還有誰?   由麻省理工學院教授Emery Berger發布,反映全球院校計算機科學領域實力的榜單CSRankings在近日公布了2018最新排名,在中國高校排名中,清華大學排
[嵌入式]
MIT與商湯科技成立人工智能聯盟,共同推動AI發展
2月28日,美國麻省理工學院(以下簡稱MIT)與中國領先的人工智能平臺公司商湯科技SenseTime宣布成立人工智能聯盟,共同探索人類與機器智能的未來。商湯科技由MIT校友湯曉鷗教授創立,專注于計算機視覺和深度學習技術。該聯盟將致力于全方位人工智能原創技術研發,涉及領域包括計算機視覺、腦科學智能算法、醫療圖像、機器人等,將全力推動人工智能技術突破以應對更多全球性挑戰,并將有力支持MIT在人工智能領域進行最前沿跨學科探索研究。 商湯科技是全球首家參與MIT最近成立的Intelligence Quest (以下簡稱IQ)項目的公司。這個項目發揮MIT在人腦研究、認知科學及計算機科學的優勢,推動人類與機器智能研究的發展,旨在造福全人類
[機器人]
絕緣測試儀校準的理想工具:兆歐表校驗儀 RH9A
RH9A兆歐表校驗儀、絕緣測試儀校準測試儀 RH9A兆歐表校驗儀、絕緣測試儀校準測試儀 產品介紹 ◆ 設計運用Cropico高質量SP1旋鈕開關結合特別挑選的電阻器 ◆ 這款十進制的高阻值電阻器可理想地用于絕緣測試儀的校準和計量檢測 ◆ 額定電壓最高達5kV ◆ 攜帶盒堅固耐用 ◆ 可選3位,6位或9位十進制電阻箱,或RH9A-5固定阻值高阻箱。 ◆ 這款RH9A系列覆蓋量程從1KΩ到1TΩ ◆ 可以在工廠、實驗室、車間或現場應用 ◆ 儀器提供包括1米長度的高壓測試導線和校驗證書 RH9A兆歐表校驗儀、絕緣測試儀校準測試儀 產品特點 ◆ 高精密十進制電阻箱 ◆ 可選3位、6位和9位 ◆ 最大電壓5KV ◆ 精度達到0.
[測試測量]
絕緣測試儀校準的<font color='red'>理想</font>工具:兆歐表校驗儀 RH9A
5G從理想到現實,探秘是德科技新視野
在我們剛開始享受4G帶來的網絡體驗時,5G已經逐漸成形。對移動數據的需求迅猛增長、聯網設備的爆炸性增長、無線應用的多樣化以及用戶對網絡的無限期待這4個因素都在驅動5G的演進。對于用戶而言,5G意味著超快的速度、在人群密集區域提供很好的無線服務、最好的體驗、超實時和穩定的通信、無處不在的通信以及集中和無縫的網絡。用數量來說明5G的優勢可能更加直觀:100倍的速率、1 000倍的容量、100倍的密度、1 ms的延時、99.999%的穩定性、100倍能源效率。 作為測試測量領域的老大,在2G、2.5G、3G、4G上,是德科技(Keysight)都給予通信產業鏈的相關企業很多幫助,致力于在電子測試測量解決方案等領域不斷創新
[測試測量]
5G從<font color='red'>理想</font>到現實,探秘是德科技新視野
小廣播
最新嵌入式文章
何立民專欄 單片機及嵌入式寶典

北京航空航天大學教授,20余年來致力于單片機與嵌入式系統推廣工作。

 
EEWorld訂閱號

 
EEWorld服務號

 
汽車開發圈

 
機器人開發圈

電子工程世界版權所有 京ICP證060456號 京ICP備10001474號-1 電信業務審批[2006]字第258號函 京公網安備 11010802033920號 Copyright ? 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
主站蜘蛛池模板: 庆城县| 郧西县| 淮安市| 漾濞| 舒城县| 临猗县| 鲁山县| 鄂托克旗| 隆林| 普兰店市| 保康县| 四平市| 元谋县| 酒泉市| 永泰县| 娄底市| 莆田市| 西充县| 湄潭县| 陈巴尔虎旗| 安达市| 汽车| 同德县| 黄平县| 金昌市| 澄迈县| 大石桥市| 阿尔山市| 大石桥市| 西畴县| 新宁县| 丹寨县| 扎赉特旗| 鹤壁市| 临泽县| 林甸县| 来宾市| 汕头市| 溆浦县| 汤阴县| 扎赉特旗|