多模態(tài)與AI搜索的全球科技競(jìng)速:中國(guó)AI且信天工
多模態(tài)與AI搜索的全球科技競(jìng)速:中國(guó)AI且信天工從全球視野看,OpenAI、谷歌等AI巨頭,以及百度、昆侖萬(wàn)維等中國(guó)科技公司,作為推動(dòng)技術(shù)創(chuàng)新的關(guān)鍵力量,成為各自地區(qū)AI發(fā)展的風(fēng)向標(biāo)。
所謂技術(shù)做高,指的是模型能力的持續(xù)進(jìn)階。比如今年4月17日開啟公測(cè)的天工3.0,就是全球首個(gè)多模態(tài)“超級(jí)模型”(Super Model),具備多模態(tài)、搜索增強(qiáng)等能力,同期,又接連發(fā)布了全球首個(gè)開源AI音樂(lè)大模型SOTA。而隨后5月份OpenAI發(fā)布的最新大模型GPT-4o,也強(qiáng)調(diào)了多模態(tài)大一統(tǒng)的能力,谷歌也在隨后的Gemini Astra中展示了類似能力。
所謂產(chǎn)品做廣,指的是模型落地需要豐富的軟硬件產(chǎn)品作為支撐。這一點(diǎn)上,相比“OpenAI+微軟”的合作模式,谷歌、昆侖萬(wàn)維這樣“自有模型+自有產(chǎn)品生態(tài)”自成一派的廠商,更容易加速AI產(chǎn)品化。比如天工AI在去年就已經(jīng)推出的中國(guó)第一款A(yù)I搜索,剛剛上線的全網(wǎng)唯一AI視頻轉(zhuǎn)繪功能,天工AI儼然已經(jīng)實(shí)現(xiàn)了AI搜索、文生圖、圖像處理、AI PPT、AI動(dòng)漫、AI音樂(lè)、AI視頻轉(zhuǎn)繪等多元應(yīng)用,日活躍用戶數(shù)已經(jīng)突破百萬(wàn),成為中國(guó)頭部AIGC資深玩家。
谷歌也在I/O開發(fā)者大會(huì)一口氣拿出來(lái)十來(lái)款新品及升級(jí),展現(xiàn)出了極強(qiáng)的商業(yè)潛力,會(huì)后帶動(dòng)了谷歌的股價(jià)上漲。
說(shuō)到這里,想必讀者們已經(jīng)發(fā)現(xiàn)了,昆侖萬(wàn)維的天工AI與谷歌的Gemini,在技術(shù)路線和產(chǎn)品能力上具備相似性,而且目前針對(duì)C端用戶完全免費(fèi),而且覆蓋各種設(shè)備、使用場(chǎng)景的需求。
這讓我想到了宋代詞人一首鼓勵(lì)學(xué)子“趕考”的詞:看蒲質(zhì)易凋,何如松茂,菊花已老,須是梅開。萬(wàn)事何難,時(shí)來(lái)得做,且信天工次第排。從今去,愿徑游璧水,直上蘭臺(tái)。
如果我們將科技企業(yè)的技術(shù)創(chuàng)新,看作是一場(chǎng)“趕考”,那么有理由相信,AI搜索、多模態(tài)等最新考題,對(duì)中國(guó)企業(yè)并不是很大的困難。只要堅(jiān)持去做,時(shí)機(jī)一到,便會(huì)如經(jīng)過(guò)寒夜的梅花一般綻放。
至少,最新的AI產(chǎn)品,比如谷歌在海外獨(dú)占優(yōu)勢(shì)的AI搜索,以及時(shí)下正處于大模型金字塔尖的多模態(tài),天工3.0都具備上述特性。
我們不妨借著當(dāng)下最火的兩大AI能力說(shuō)開去,聊聊昆侖萬(wàn)維天工3.0是如何做到一流水平的,以及天工大模型這一株“AI梅花”開放的過(guò)程。
放眼全球,僅有在搜索業(yè)務(wù)上有底蘊(yùn)、模型技術(shù)上有創(chuàng)新的廠商,比如谷歌、昆侖萬(wàn)維、百度等,以及背靠亞馬遜的新秀Perplexity,才能在搜索效率、智能性、個(gè)性化體驗(yàn)上取得突破,培育出AI搜索這一獨(dú)具特色的成果,為用戶帶來(lái)了前所未有的搜索體驗(yàn)。
為什么AI搜索是頭部大模型廠商的關(guān)鍵賽點(diǎn)?一是體驗(yàn)優(yōu)勢(shì),傳統(tǒng)搜索引擎的精準(zhǔn)度不高,用戶容易被各種廣告和釣魚帖干擾,在海量信息里大海撈針,搜索效率與體驗(yàn)都急需得到改善;二是流量?jī)?yōu)勢(shì),早在傳統(tǒng)互聯(lián)網(wǎng)時(shí)代,搜索引擎就是流量匯聚的入口,也是商業(yè)價(jià)值的體現(xiàn),到了AIGC時(shí)代,人類創(chuàng)作、AI創(chuàng)作的內(nèi)容規(guī)模更是非線性增長(zhǎng),用戶找到想要信息的難度也前所未有地增大,搜索工具變得更為重要,虹吸流量的能力毋庸置疑。
最近的谷歌I/O發(fā)布會(huì)上,就推出了許多基于Gemini大模型的搜索功能。幸好,通過(guò)天工3.0,我們也能欣賞到中國(guó)“AI搜索”的獨(dú)特魅力。
多模態(tài)搜索是一種先進(jìn)的搜索技術(shù),允許用戶通過(guò)多種類型的數(shù)據(jù)(模態(tài))進(jìn)行搜索查詢,能夠更全面地理解和響應(yīng)用戶的查詢需求,提供更加豐富和準(zhǔn)確的搜索結(jié)果。目前,僅有昆侖萬(wàn)維、谷歌等少數(shù)廠商,可以將文本、圖片、音頻、腦圖等多形態(tài)答案集成在一起,給用戶圖文并茂的搜索體驗(yàn)。
模型能力的提升,帶來(lái)了更強(qiáng)的邏輯推理能力,也讓搜索從傳統(tǒng)的“被動(dòng)呈現(xiàn)”進(jìn)階為AIGC的“主動(dòng)生成”。比如天工3.0通過(guò)4000億級(jí)參數(shù)MoE混合專家模型,在模型語(yǔ)義理解、邏輯推理,以及通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域都有著大幅的性能提升,從而在實(shí)際應(yīng)用中更加準(zhǔn)確和高效地處理信息。
在天工的“搜索增強(qiáng)”模式中,在分析某個(gè)具體行業(yè)的信息時(shí),或者遇到寬泛?jiǎn)栴}時(shí),天工AI能夠?qū)崿F(xiàn)總結(jié)相關(guān)事件、拆解產(chǎn)業(yè)鏈地圖等復(fù)雜功能,或者拆解問(wèn)題進(jìn)行多步驟推理,并以結(jié)構(gòu)化或思維導(dǎo)圖以及PPT的形式進(jìn)行最終展示。
我們一起來(lái)試試報(bào)志愿相關(guān)問(wèn)題,會(huì)發(fā)現(xiàn)天工AI可以將問(wèn)題所涉及的領(lǐng)域逐一推理拆解,這與Gemini重磅出擊的多步驟推理完全是一個(gè)邏輯。
我們?cè)賮?lái)舉個(gè)例子,當(dāng)用戶在搜索A新能源汽車時(shí),想跟B品牌進(jìn)行參數(shù)對(duì)比,不需要自己在不同網(wǎng)頁(yè)間反復(fù)橫跳,天工3.0支持多個(gè)產(chǎn)品橫向?qū)Ρ?,智能整合全網(wǎng)優(yōu)質(zhì)信息,并輸出圖表,通過(guò)AIGC減少用戶的操作步驟,讓關(guān)鍵信息一覽無(wú)余。
在此基礎(chǔ)上,搜索還可以更進(jìn)一步嗎?讓AI幫助用戶整理分析既有信息,直接給出深度結(jié)果,也就是“搜索+分析+生成”合二為一,從檢索工具變成智慧的個(gè)人助手,這可能嗎?
天工3.0新增的搜索增強(qiáng)、多次調(diào)用聯(lián)網(wǎng)搜索、Agent等能力,支持復(fù)雜問(wèn)題深度拆解,agent智能體能夠獨(dú)立完成規(guī)劃、調(diào)用、組合外部工具及信息,以精準(zhǔn)高效地完成產(chǎn)業(yè)分析、產(chǎn)品對(duì)比等各類復(fù)雜需求。
數(shù)萬(wàn)字的市場(chǎng)調(diào)研報(bào)告、高級(jí)學(xué)術(shù)研究、企業(yè)研報(bào)、等任務(wù),天工3.0都可以快速完成,并且每個(gè)搜索落地頁(yè)都支持AI速讀,一鍵生成AI摘要和要點(diǎn)提煉,其中有任何不懂的地方,還可以隨時(shí)通過(guò)【聊天】功能向AI助手發(fā)起多輪對(duì)話提問(wèn)。
對(duì)于平時(shí)要閱讀大量產(chǎn)業(yè)研究報(bào)告、AI論文的創(chuàng)作者來(lái)說(shuō),我明顯體會(huì)到,這一套搜索增強(qiáng)的“組合拳”,確實(shí)能幫日常工作提升效率、減輕負(fù)擔(dān)。搜索的結(jié)果還可以用大綱、腦圖的豐富形式呈現(xiàn),非常清晰。
大模型的訓(xùn)練周期較長(zhǎng),需要大量數(shù)據(jù),而數(shù)據(jù)集的收集、整理和更新是一個(gè)耗時(shí)的過(guò)程。因此,大多數(shù)大模型在發(fā)布時(shí)都有一個(gè)明確的“知識(shí)截止日期”,即模型所包含的知識(shí)信息只更新到這個(gè)日期為止。超過(guò)這個(gè)日期的信息,模型可能就無(wú)法準(zhǔn)確提供。
這意味著,用戶在搜索一些時(shí)效性很強(qiáng)的信息時(shí),比如最新的新聞事件、旅游規(guī)劃需要的實(shí)時(shí)信息、航班天氣等動(dòng)態(tài)信息搜索查詢,部分AI搜索提供的結(jié)果,可能缺乏準(zhǔn)確性和時(shí)效性。解決大模型的時(shí)效性問(wèn)題,是昆侖萬(wàn)維、谷歌等頭部廠商都在努力的目標(biāo)。
前不久谷歌的發(fā)布會(huì)上,就推出了支持“旅游規(guī)劃”的實(shí)時(shí)搜索demo,天工3.0的AI搜索產(chǎn)品,則是國(guó)內(nèi)唯一能夠支持實(shí)時(shí)天氣、、星座運(yùn)勢(shì)等信息查詢的AI產(chǎn)品,能夠同時(shí)生成特定卡片和對(duì)應(yīng)文本分析。有了這個(gè)功能,真的可以把手機(jī)上的n個(gè)軟件都卸載掉了。
從上述三大能力,可以看到基于“超級(jí)模型”做出的AI搜索產(chǎn)品,正在前所未有地改變?nèi)蛴脩舻乃阉黧w驗(yàn)。AI搜索,已經(jīng)成為昆侖萬(wàn)維、谷歌等獨(dú)特的護(hù)城河,也是大模型底座上生長(zhǎng)出的獨(dú)特的一枝梅花,散發(fā)著“人無(wú)我有,人有我強(qiáng)”的技術(shù)芬芳。
作為全球首個(gè)多模態(tài)“超級(jí)模型(Super Model)”,天工3.0集自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、多模態(tài)、AI搜索、AI智能體等多項(xiàng)尖端技術(shù)于一體,目前沒(méi)有任何一款A(yù)I工具集這么多模型能力于一身,在多模態(tài)領(lǐng)域是當(dāng)之無(wú)愧的先鋒。
在天工3.0這棵“梅樹”的根基上,昆侖萬(wàn)維憑借“All in AGI 與 AIGC” 戰(zhàn)略,已經(jīng)孕育出了眾多的應(yīng)用花蕾,支持AIGC時(shí)代的內(nèi)容創(chuàng)作。
對(duì)于創(chuàng)作者來(lái)說(shuō),可以通過(guò)天工大模型獲得多種模態(tài)的模型能力,處理多種不同類型的數(shù)據(jù)輸入,包括:
視頻模態(tài)。天工3.0 AI視頻轉(zhuǎn)繪,可以實(shí)現(xiàn)自動(dòng)化的視頻生成,將現(xiàn)有的視頻內(nèi)容自動(dòng)轉(zhuǎn)換成不同的風(fēng)格或格式,像Sora一樣輔助用戶實(shí)現(xiàn)創(chuàng)意視頻項(xiàng)目的制作。
音頻數(shù)據(jù)。天工SkyMusic音樂(lè)大模型SOTA,是全球首款對(duì)標(biāo)suno的音樂(lè)大模型,通過(guò)大模型技術(shù)實(shí)現(xiàn)樂(lè)器、人聲、旋律、音量、音符的一體化端到端音樂(lè)生成,助力音樂(lè)創(chuàng)作者生成高質(zhì)量的AI音樂(lè)。尤為特別的是,SOTA支持粵語(yǔ)、成都話、北京話等眾多方言,讓用戶能夠更自由地實(shí)現(xiàn)音樂(lè)表達(dá),傳播方言文化。這一大模型的推出,不僅展現(xiàn)了中國(guó)在AI音樂(lè)生成領(lǐng)域的技術(shù)實(shí)力,也為音樂(lè)產(chǎn)業(yè)帶來(lái)了新的可能性。淺淺展示一段天工AI音樂(lè)創(chuàng)作的作品,依然是完全免費(fèi),還無(wú)需擔(dān)心版權(quán)問(wèn)題。
智能體。在多模態(tài)環(huán)境中,智能體可以整合不同模態(tài)的信息,提供更加豐富和智能的交互體驗(yàn)。天工3.0支持用戶創(chuàng)建智能體,實(shí)現(xiàn)個(gè)性化的服務(wù)和交互體驗(yàn),是大模型技術(shù)應(yīng)用的一種重要方式,可以推動(dòng)大模型技術(shù)的創(chuàng)新、普及和商業(yè)化。
天工AI的PPT生成功能可以快速將文本內(nèi)容轉(zhuǎn)換成PPT幻燈片,提高制作PPT的效率,并且支持WEB端和APP端,意味著無(wú)論是在電腦上還是手機(jī)上,用戶都可以方便地使用這一功能來(lái)提升生產(chǎn)力。5分鐘做完一份優(yōu)質(zhì)的PPT,再也不是難事,而且完全免費(fèi),不需要你在下載文件前支付任何費(fèi)用。
圖表。視覺(jué)表示的數(shù)據(jù),如條形圖、餅圖、折線圖等,在數(shù)據(jù)分析、信息可視化、商業(yè)智能等領(lǐng)域中非常重要。最新的天工3.0大模型,可以自動(dòng)生成各種圖表,并分析結(jié)果,自動(dòng)生成報(bào)告或總結(jié),與用戶進(jìn)行互動(dòng),提供基于數(shù)據(jù)的深入見(jiàn)解。
放眼全球大模型競(jìng)賽,不同模態(tài)的相互補(bǔ)充、統(tǒng)一、協(xié)作,可以提供更全面的理解能力,大幅提升AIGC在行業(yè)的應(yīng)用效果。因此,多模態(tài)絕對(duì)是一個(gè)主流方向,無(wú)論是OpenAI的GPT系列,還是谷歌的Gemini家族,都以此為發(fā)展方向,覆蓋多種模態(tài)。幸好,天工3.0為代表的中國(guó)大模型梯隊(duì),也并不遜色。
基于天工系列大模型,昆侖萬(wàn)維已構(gòu)建起AI大模型、AI搜索、AI音樂(lè)、AI社交、AI動(dòng)漫、AI游戲等AI業(yè)務(wù)矩陣,AI應(yīng)用場(chǎng)景的一個(gè)個(gè)綻放,中國(guó)AI的花香已撲面而來(lái)。
值得一提的是,相比OpenAI和谷歌的ToC色彩,中國(guó)AI有著更為豐富、廣闊的應(yīng)用場(chǎng)景,不僅ToC應(yīng)用的用戶規(guī)模龐大,ToB/ToG政企市場(chǎng)將AIGC作為千行萬(wàn)業(yè)提質(zhì)增效的把手,產(chǎn)業(yè)智能的前景也格外廣闊。
栽種一棵基礎(chǔ)模型的梅樹,培育AIGC的應(yīng)用繁花,天工大模型成為產(chǎn)業(yè)智能化的一道風(fēng)景。昆侖萬(wàn)維作為AI園丁,有著獨(dú)特的氣質(zhì):
AI創(chuàng)新需要在土壤和時(shí)間中蘊(yùn)育,昆侖萬(wàn)維2019年布局AIGC的前瞻性格局。以AI搜索為例,昆侖萬(wàn)維的自研實(shí)力來(lái)自長(zhǎng)期主義戰(zhàn)略。
基座模型達(dá)到一定參數(shù),接下來(lái)比拼的是誰(shuí)能把工程化、產(chǎn)品化做得更好。以AI搜索為例,“魔鬼都藏在細(xì)節(jié)中”,比如怎么消除大模型的幻覺(jué),哪些問(wèn)題深度要求高,哪些問(wèn)題實(shí)時(shí)性要求高,做出對(duì)應(yīng)的處理,體現(xiàn)出不同產(chǎn)品的區(qū)別,直接影響到用戶體驗(yàn),需要體系化的工程能力和產(chǎn)品設(shè)計(jì)能力。這一點(diǎn),天工AI有大量產(chǎn)業(yè)實(shí)際,比如用天工AI搜索寫公文引用官方媒體,獲得政府用戶的信任。
人才是AI創(chuàng)新的前提和基礎(chǔ)。只有擁有一支強(qiáng)大的人才隊(duì)伍,AI企業(yè)才能不斷推動(dòng)技術(shù)創(chuàng)新,開發(fā)出更多有價(jià)值的產(chǎn)品和服務(wù),從這一點(diǎn)來(lái)說(shuō),基礎(chǔ)大模型領(lǐng)域呈現(xiàn)出“強(qiáng)者益強(qiáng)”,頭部AI巨頭大廠與其他中小廠的差距不斷拉大。以昆侖萬(wàn)維為例,整個(gè)大模型研發(fā)中心高級(jí)算法工程師多達(dá)300人+,其中海內(nèi)外名校博士100+,大量人才來(lái)自微軟、阿里、百度,人才規(guī)模具備明顯實(shí)力優(yōu)勢(shì)。
昆侖萬(wàn)維作為國(guó)內(nèi)模型技術(shù)與工程能力最強(qiáng)、布局最全面的人工智能企業(yè)之一,可以打出一套全球AI產(chǎn)品組合拳,一套覆蓋ToC/ToB/ToG多個(gè)市場(chǎng)的商業(yè)組合拳。
“待到山花爛漫時(shí),她在叢中笑”,面對(duì)OpenAI和谷歌等世界一流AI巨頭,天工AI正綻放出梅花一般自信的微笑。當(dāng)我們輕嗅著中國(guó)AIGC應(yīng)用的陣陣芬芳,可以說(shuō)一句:萬(wàn)事何難,且信天工。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
探展WAIC:阿里云大放光彩 這次waic大會(huì),阿里展區(qū)獲得“鎮(zhèn)館之寶”通義靈碼和不寫代碼搭建AI助