news

夸克發布自研大模型,加速探索革新性搜索產品2023-11-13

 11月16日,阿里巴巴集團發布2024財年第二季度業績公告。阿里巴巴集團CEO吳泳銘表示,阿里巴巴將保持創業心態,重點強調“用戶為先、AI驅動”的戰略重心。隨著Open AI發布GPTs,大模型的“場景爭奪戰”進入白熱化階段。中文大模型方面,無論是互聯網公司還是硬件廠商紛紛下場。阿里作為布局較早的國內廠商之一,明確要抓住AI科技變革帶來的全新機會,以創造更多客戶價值。 

 在本次財報中,作為近幾年持續增長的潛力選手,夸克符合各項遴選標準,入選第一批戰略級創新業務,并與“AI驅動”戰略緊密相連。近日,夸克正式發布了基于Transformer架構的多模態自研大模型,參數達到千億級,一經發布就占據了C-Eval與CMMLU兩大權威榜單的榜首,并在社會科學等多個知識領域排名第一。這無疑是為阿里的AI戰略及其在2024財年的增長信心,再添上了一道炬火。 

從技術底座到用戶驅動,中文大模型來到“深水區” 

 夸克大模型的能力與基因優勢主要來自于三個方面。首先,以搜索場景作為主體,通過信息檢索、數字資產、存儲等服務立足于“準國民級應用”之列,夸克在過去三年中呈現出了持續向上的市場表現。尤其是在當下AI的主要受眾與消費者——年輕人群體中,從口碑到用戶粘性都位于市場前列。可以說,大模型浪潮如今在中國最重要的推動群體,正是夸克的核心優勢區。根據QuestMobile發布的《2023年輕人群智能效率應用研究》報告顯示,夸克App在泛學生人群和新生代職場人群的用戶占比最高,年輕用戶使用時長位列行業第一。另一方面,當下資本與開發者對于生成式AI的共識是:它正在經歷一個從技術驅動向用戶群體驅動轉變的過程。這也就代表著,數據的“質”正在悄然平衡著AI對于數據量的過度崇拜。一是優質的用戶群與數據,二則是延展性足夠強的場景。未來,夸克大模型將主要應用于通用搜索、醫療健康、教育、辦公等效率場景,這些場景的用戶行為數據也與搜索請求密切相關。在年輕人用戶群密度足夠大的情況下,夸克大模型的應用層再造也呈現出了知識信息更加專業、有效的差異化優勢。其次,依靠夸克自身的產品創新與技術能力,夸克在“AI時代”快速跨越了新生代階段,其產品爆發期與大模型爆發期幾乎無縫銜接,因此,業務升級與重構的難度相對也會低很多。第三,夸克大模型之所以沒有在大模型嘗鮮期急于追逐風口,是因為夸克作為一個高度產品化的業務,需要為用戶解決更加實際、具體、高頻的問題。出于增強效率體驗而非接入AI原生化的目的,夸克在這一技術相對成熟的階段推出大模型,避免了前期的輿論質疑與用戶流失,入局時間更加合適。 

阿里AI戰略下的信息服務“創新者” 

 相對獨立開發商,大廠自研大模型的研發與訓練具有低成本、高處理量、長期投入、數據量可持續的特點,場景定位與用戶群體也更加精準。而從整個生成式AI的發展路徑來看,搜索引擎作為實現AI“入口業務價值”的直接解決方案,自必應與OpenAI深度綁定以來,就成為了大廠的“必爭之地”。聚焦到阿里的主要業務陣地,電商和信息效率無疑是其中最重要的兩個入口級業務線。之于后者,不難得出結論,本身就擁有效率產品矩陣及爆品的夸克,最適合在未來大模型插件化的趨勢下,成為阿里針對C端用戶的王牌“效率”戰艦。為了實現全棧自研的技術路線,夸克搭建了數百人規模的獨立產研團隊,每天會對億級的圖文數據進行訓練和精調,這也使得它在大模型權威評測榜單CMMLU和C-Eval中分別獲得第一名的好成績。C-Eval是由清華大學、上海交通大學、愛丁堡大學合作構建的綜合性考試評測集,覆蓋52個學科;CMMLU是由MBZUAI、上海交通大學、微軟亞洲研究院推出的專門用于評估語言模型在中文語境下綜合能力的榜單。評測數據顯示,中文語境下,夸克大模型的整體水平已經超過了GPT-3.5,在寫作、考試等部分場景也已經超過了GPT-4的表現。從技術來看,夸克大模型在數據增強、模型選擇、訓練策略、模型融合以及模型評估上,都表現不俗。比起傳統的知識數據庫,大模型的價值在于以可交互的方式為人類整合與判斷信息的千變萬化。因此,從C-Eval、CMMLU等權威榜單的評判維度也可以得見,目前無論是對于GPT還是正在“圈地”的中文大模型,垂類知識處理能力和專業級語言創作能力已經變得越來越重要。 

 比如,在中文寫作上,夸克擁有廣泛的知識覆蓋、上下文理解、創造性表達能力,能夠基于各類文本類型進行時效性創作。另一方面,AI能夠模擬的不僅是人類的學習能力,還有人類期許的高階推理、專業辨偽、提效的自我驅動力。這也是夸克大模型在信息服務領域中,最擅長且正在逐步融入產品中的領域之一。今年以來,大模型已經陸續升級夸克的智能工具產品,夸克掃描王在復雜場景下掃描的更清晰、夸克網盤的自然語言搜索功能進一步提升了找資產的效率,都很好地印證了這一點。盡管GPT已經火了近一年,不少廠商的大模型卻仍然沒有廣泛地應用于各行各業的降本增效,而是走向了下游開發者和封閉生態。可以看出,自建生態對于AI的意義,連OpenAI都“真香”了。而如今中文大模型競爭的殘酷,本身不在于層出不窮的同質化體驗,而是關于時間差的無效內卷。廠商一邊野蠻入場,另一邊卻因為把餅畫得太大,反而消磨了大眾的想象力。只有清醒地看到自身的能力邊界,才能更好地利用AI去擴張生態價值。中文世界,需要的不再是像十年前一樣追趕時間差,而是進擊關鍵而精準的多模態效率,不讓用戶的預期落空。阿里新CEO上任后,明確提出了對符合用戶需求和AI驅動變革趨勢的業務,將作為第一優先級重點投入;對于面向未來的革新型產品,將秉持長期主義堅決投資,為阿里培育面向未來的新業務與新動能。普通用戶的生活,也就代表著對于人工智能更高的信賴和更低的容錯空間。正是因為普通人沒有那么高的專業判斷能力,作為國民級應用廠商,才更需要兼顧前沿技術的體驗性與信息傳達的簡便性,讓知識的門檻逐步降低。作為從“小而美”邁向“準國民應用”的信息服務市場增量新星,夸克或許會在阿里百花齊放的大模型時代下,承擔起用戶體驗層面的重擔。