国产成人精品男人的天堂,美乳丰满人妻无码视频,男人扒开添女人下部免费视频

字節(jié)迭代多模態(tài)大模型媲美谷歌新品智能體能力更強(qiáng)、推理成本更低

原創(chuàng)

2025-05-13 15:23 星期二

科創(chuàng)板日?qǐng)?bào) 宋子喬

①其性能可達(dá)到與Gemini 2.5 Pro相當(dāng)?shù)乃剑?②具備更強(qiáng)的通用多模態(tài)理解和推理能力；
③已在火山引擎上開放API供用戶體驗(yàn)。

《科創(chuàng)板日?qǐng)?bào)》5月13日訊（編輯宋子喬） 今日，字節(jié)跳動(dòng)Seed團(tuán)隊(duì)發(fā)布視覺-語言多模態(tài)大模型Seed1.5-VL，向更優(yōu)智能體邁步。

據(jù)介紹，Seed1.5-VL在超過3Ttokens的多模態(tài)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，具備更強(qiáng)的通用多模態(tài)理解和推理能力，且推理成本顯著降低。

目前在多模態(tài)大模型領(lǐng)域，谷歌最新推出的大模型Gemini 2.5 Pro表現(xiàn)出色，已支持圖像、視頻、音頻與代碼的統(tǒng)一理解，且在多個(gè)基準(zhǔn)測試（如MME、Math Bench）中領(lǐng)先于GPT-4.0。

字節(jié)團(tuán)隊(duì)表示，盡管Seed1.5-VL的激活參數(shù)僅有20B，但其性能可達(dá)到與Gemini 2.5 Pro相當(dāng)?shù)乃?/strong>，在60個(gè)公開評(píng)測基準(zhǔn)中的38個(gè)上取得SOTA（最新最優(yōu)性能，state-of-the-art performance）表現(xiàn)，包括19項(xiàng)視頻基準(zhǔn)測試中的14項(xiàng)，以及7項(xiàng)GUI代理任務(wù)中的3項(xiàng)：

1、視覺能力突出

Seed 1.5-VL在視覺推理、圖像問答、圖表理解與問答、視覺定位/計(jì)數(shù)、視頻理解、GUI智能體等任務(wù)中均表現(xiàn)突出。其中，在以Agent（智能體）為中心的任務(wù)（如GUI控制和游戲）中，Seed 1.5-VL在7個(gè)GUI智能體任務(wù)中的3個(gè)取得了SOTA成績。

2、交互性更強(qiáng)

精簡的架構(gòu)設(shè)計(jì)顯著降低了推理成本和計(jì)算需求，使模型更適合交互式應(yīng)用。比如該模型增強(qiáng)了GUI（圖形用戶界面）定位性能，可在PC端、手機(jī)端等不同環(huán)境中完成復(fù)雜交互任務(wù)，包括收集處理信息、在開放游戲中推理和行動(dòng)等。

字節(jié)團(tuán)隊(duì)表示，Seed 1.5-VL進(jìn)一步提升了視覺理解和推理能力，并向VLM（視覺語言模型）的通用性能力更近一步。但仍存在一定的局限性。

首先，在細(xì)粒度視覺感知方面，模型在處理目標(biāo)計(jì)數(shù)、圖像差異識(shí)別以及復(fù)雜空間關(guān)系解釋時(shí)仍面臨挑戰(zhàn)，主要在目標(biāo)排列不規(guī)則、顏色相似或部分遮擋等極端情況下；其次，在高層次推理任務(wù)中，如解決華容道謎題、導(dǎo)航迷宮或遵循復(fù)雜指令時(shí)，有時(shí)模型會(huì)引入無根據(jù)的假設(shè)或產(chǎn)生不完整的響應(yīng)，表現(xiàn)仍有提升空間。此外，在視頻推理方面，模型尚難以準(zhǔn)確識(shí)別動(dòng)作的先后順序或從物體的前后狀態(tài)推斷順序。

目前，Seed 1.5-VL已在火山引擎上開放API供用戶體驗(yàn)。

多模態(tài)指的是能夠處理和理解來自多種不同來源和形式的信息的系統(tǒng)，如文本、圖像、音頻、視頻等。多模態(tài)技術(shù)使機(jī)器學(xué)習(xí)模型能夠更全面地理解和表達(dá)復(fù)雜的真實(shí)世界場景，國內(nèi)大模型廠商紛紛競逐多模態(tài)。

5月6日，谷歌DeepMind團(tuán)隊(duì)發(fā)布多模態(tài)大語言模型Gemini 2.5 Pro，在多個(gè)指標(biāo)上登頂AI排行榜LMArena。

北京時(shí)間4月17日，OpenAI發(fā)布o(jì)系列多模態(tài)推理大模型o3與o4-mini。該系列模型在大規(guī)模強(qiáng)化學(xué)習(xí)與圖像思維鏈整合技術(shù)的加持下，多模態(tài)推理能力顯著增強(qiáng)，工具應(yīng)用能力大幅提升。

應(yīng)用方面，近期多款大廠的AI應(yīng)用實(shí)現(xiàn)多模態(tài)功能更新，如文小言升級(jí)語音大模型、圖片問答能力；騰訊元寶上線10張圖片同時(shí)處理的功能；豆包文生圖功能實(shí)現(xiàn)升級(jí)，新版深度思考開啟測試。

平安證券稱，近期包括OpenAI、豆包在內(nèi)發(fā)布的新模型，解題思路在此前思維鏈CoT基礎(chǔ)上，更多體現(xiàn)對(duì)模型原生Agent能力（即工具使用）以及多模態(tài)推理能力的重視。全球大模型領(lǐng)域的競爭依然白熱化，堅(jiān)定看好AI主題的投資機(jī)會(huì)，當(dāng)前Agent在企業(yè)端落地進(jìn)度較為靠前，AI應(yīng)用建議關(guān)注OA/ERP/編程/辦公等領(lǐng)域；算力方面，Agent將帶來更多的推理端應(yīng)用需求，從而拉動(dòng)推理端算力乃至整體算力需求向上。

開源證券日前發(fā)布研報(bào)稱，國產(chǎn)模型近期在多模態(tài)、推理能力上持續(xù)突破，多款達(dá)到全球頂尖水平，加之頭部模型開源，大模型廠商持續(xù)發(fā)力Agent，將繼續(xù)推動(dòng)AI應(yīng)用深入落地，拉動(dòng)推理算力需求，建議繼續(xù)布局AI。