將軟件開(kāi)發(fā)提速99%!
Windsurf發(fā)布首個(gè)前沿模型SWE-1,AI編程領(lǐng)域風(fēng)起云涌,目標(biāo)是將開(kāi)發(fā)效率提升99%。SWE-1不僅能寫(xiě)代碼,更能理解并協(xié)助整個(gè)軟件工程流程。核心創(chuàng)新在于「流動(dòng)感知」系統(tǒng),即AI與用戶(hù)共享操作時(shí)間線(xiàn),實(shí)現(xiàn)高效協(xié)作。
Windsurf首秀終于來(lái)了!
在Cursor火爆全網(wǎng),OpenAI宣布30億美元重金收購(gòu)Windsurf后,Windsurf不甘寂寞,終于出手!
Windsurf發(fā)布首個(gè)前沿模型SWE-1,目標(biāo)是將軟件開(kāi)發(fā)提速99%!
SWE-1不只是一個(gè)「會(huì)寫(xiě)代碼」的模型,而是一個(gè)理解、參與、并協(xié)助整個(gè)工程過(guò)程的協(xié)作伙伴。
目前這個(gè)系列包含三個(gè)模型:
SWE-1:具備與Claude 3.5 Sonnet類(lèi)似的工具調(diào)用推理能力,但運(yùn)行成本更低。在推廣期內(nèi),所有付費(fèi)用戶(hù)可免費(fèi)使用。
SWE-1-lite:一個(gè)更小但質(zhì)量更高的模型,全面取代Cascade Base,對(duì)所有用戶(hù)(包括免費(fèi)用戶(hù))開(kāi)放。
SWE-1-mini:更小、更快,專(zhuān)為Windsurf Tab中的低延遲被動(dòng)體驗(yàn)而設(shè)計(jì),適用于所有用戶(hù)。
剛剛,SWE-1已經(jīng)上線(xiàn)Windsurf,且處于免費(fèi)使用階段。
AI編程發(fā)展「快閃」
近幾年,「會(huì)寫(xiě)代碼」的模型取得了巨大進(jìn)步,已經(jīng)能從簡(jiǎn)單的自動(dòng)補(bǔ)全發(fā)展到一次性構(gòu)建出完整的小型應(yīng)用。
但這種能力仍然存在明顯的上限:
其一,軟件開(kāi)發(fā)不僅僅是寫(xiě)代碼。
開(kāi)發(fā)者要做的事情遠(yuǎn)不止編碼,還要操作終端、獲取知識(shí)、調(diào)試產(chǎn)品、理解用戶(hù)反饋等。因此需要的是更全面的模型,能覆蓋整個(gè)開(kāi)發(fā)流程。
其二,工程過(guò)程是跨階段的、持續(xù)變化的。
目前主流的基礎(chǔ)模型仍然是基于「代碼能否編譯」和「是否通過(guò)單元測(cè)試」來(lái)訓(xùn)練的。但現(xiàn)實(shí)中,這只是更大工程任務(wù)中的一小部分。
真正需要的是能處理「尚未完成的狀態(tài)」、理解模糊目標(biāo)的模型。
否則,即使模型寫(xiě)出了能運(yùn)行的功能,后續(xù)維護(hù)與擴(kuò)展性可能會(huì)非常差。
因此,僅僅提高「寫(xiě)代碼」的能力,無(wú)法真正提升整個(gè)工程效率。需要打造的是支持完整軟件工程流程的模型——簡(jiǎn)稱(chēng)SWE模型。
SWE-1的開(kāi)發(fā)過(guò)程
SWE-1的開(kāi)發(fā)靈感來(lái)自廣受歡迎的Windsurf編輯器,構(gòu)建了全新的數(shù)據(jù)結(jié)構(gòu)(共享時(shí)間線(xiàn))和訓(xùn)練方法,能夠理解未完成的狀態(tài)、長(zhǎng)周期任務(wù)以及多種交互界面。
其初衷是在資源有限的情況下,通過(guò)這種方法做出一流性能的模型。
SWE-1是這個(gè)目標(biāo)的第一個(gè)驗(yàn)證成果。
在整體表現(xiàn)上,SWE-1接近最前沿的基礎(chǔ)模型,在多個(gè)維度上超過(guò)了所有非前沿模型和開(kāi)源對(duì)手??梢酝ㄟ^(guò)離線(xiàn)評(píng)估與線(xiàn)上實(shí)測(cè)兩種方式進(jìn)行驗(yàn)證。
離線(xiàn)評(píng)估
評(píng)估將SWE-1與Anthropic系列(Cascade中使用最頻繁的模型之一)以及Deepseek、Qwen等主流開(kāi)源模型對(duì)比,主要有兩個(gè)基準(zhǔn)測(cè)試:
會(huì)話(huà)式SWE任務(wù)基準(zhǔn)
從一個(gè)正在進(jìn)行中的Cascade會(huì)話(huà)中截取,任務(wù)尚未完成。評(píng)估模型如何響應(yīng)用戶(hù)的下一步請(qǐng)求,打分標(biāo)準(zhǔn)綜合考慮幫助程度、效率、正確性以及目標(biāo)文件編輯的準(zhǔn)確率。這項(xiàng)測(cè)試關(guān)注模型在「人機(jī)協(xié)作」環(huán)境中的表現(xiàn)。
端到端SWE任務(wù)基準(zhǔn)
從會(huì)話(huà)一開(kāi)始就評(píng)估模型是否能完全獨(dú)立解決問(wèn)題,并通過(guò)一組單元測(cè)試。得分基于測(cè)試通過(guò)率和專(zhuān)家打分。這項(xiàng)測(cè)試衡量模型自主完成任務(wù)的能力。
評(píng)估結(jié)果表明,SWE-1在這些任務(wù)上接近頂級(jí)實(shí)驗(yàn)室的前沿模型,遠(yuǎn)超中等體量和開(kāi)源的對(duì)手。雖然還不是絕對(duì)領(lǐng)先,但非常有潛力。
線(xiàn)上實(shí)測(cè)(生產(chǎn)實(shí)驗(yàn))
Windsurf有大量用戶(hù),因此也通過(guò)盲測(cè)實(shí)驗(yàn)評(píng)估真實(shí)使用中的表現(xiàn)。
Windsurf將用戶(hù)分組,分別使用不同模型,在不告知模型類(lèi)型的前提下觀(guān)察行為和效果。
Windsurf主要看兩個(gè)指標(biāo):
每位用戶(hù)每天接受的代碼行數(shù)
即Cascade編寫(xiě)、用戶(hù)實(shí)際接受并保留的代碼行數(shù),反映模型的實(shí)際幫助程度、響應(yīng)質(zhì)量和用戶(hù)粘性。
Cascade代碼貢獻(xiàn)率
對(duì)于被Cascade修改過(guò)的文件,模型所做的代碼改動(dòng)所占比例。這是一個(gè)反映模型「主動(dòng)性」以及「用戶(hù)信任程度」的指標(biāo)。
SWE-1專(zhuān)為Cascade場(chǎng)景設(shè)計(jì)和優(yōu)化,因此在這些指標(biāo)上表現(xiàn)幾乎是行業(yè)領(lǐng)先,效果優(yōu)于所有非前沿模型。
其他模型分析
你可能在上面的圖表中注意到SWE-1-lite,這是SWE-1的中型版本,使用相同訓(xùn)練方式,在非前沿模型中表現(xiàn)最佳,現(xiàn)已取代Cascade Base,向所有用戶(hù)開(kāi)放。
Windsurf還開(kāi)發(fā)了SWE-1-mini,體積更小,速度更快,適用于Windsurf Tab這種對(duì)延遲要求極高的被動(dòng)預(yù)測(cè)場(chǎng)景。
需要說(shuō)明的是,這只是一個(gè)起點(diǎn)。
Windsurf不僅希望趕上最前沿實(shí)驗(yàn)室的水平,最終目標(biāo)是全面超越它們。
Windsurf堅(jiān)信自己已經(jīng)具備了實(shí)現(xiàn)這個(gè)目標(biāo)的引擎,并將持續(xù)加大投入。
流動(dòng)感知系統(tǒng)(Flow-Aware System)
Windsurf提到SWE-1的靈感來(lái)源于Windsurf編輯器。
關(guān)鍵在于Windsurf獨(dú)特的設(shè)計(jì)理念:流動(dòng)感知(Flow Awareness)。
什么是流動(dòng)感知?
Windsurf打造的Windsurf編輯器實(shí)現(xiàn)了用戶(hù)與AI的「共識(shí)時(shí)間線(xiàn)」:AI的每一步用戶(hù)都能看到并干預(yù),反過(guò)來(lái),AI也能理解并跟進(jìn)用戶(hù)的行為。
這種「共享時(shí)間線(xiàn)」的感知能力,Windsurf稱(chēng)之為Flow Awareness(流動(dòng)感知),也因此Windsurf一直把這種人機(jī)協(xié)作的體驗(yàn)稱(chēng)為「AI flows」。
為什么流動(dòng)感知很重要?
因?yàn)槎虝r(shí)間內(nèi),沒(méi)有模型能完全獨(dú)立完成所有開(kāi)發(fā)任務(wù)。
流動(dòng)感知允許模型和人類(lèi)之間「自然交接」:AI做一部分,用戶(hù)校正,AI再繼續(xù),形成順暢銜接。
借助共享時(shí)間線(xiàn),Windsurf可以持續(xù)追蹤當(dāng)前模型的能力邊界,觀(guān)察哪些任務(wù)需要用戶(hù)介入、哪些能完全自動(dòng)完成。
這是SWE-1能快速成長(zhǎng)為當(dāng)前水平的關(guān)鍵原因之一。
共享時(shí)間線(xiàn)在Windsurf中的演進(jìn)
構(gòu)建共享時(shí)間線(xiàn)是Windsurf許多功能背后的核心理念:
初代Cascade就支持「你在編輯器改完內(nèi)容后輸入continue,AI就能繼續(xù)理解你改了什么」——這是對(duì)編輯器的感知。
后來(lái)Windsurf加入了終端輸出感知——AI能理解你執(zhí)行命令時(shí)出現(xiàn)的錯(cuò)誤。
Wave 4中加入了「預(yù)覽」功能——AI開(kāi)始理解你看到的前端組件和錯(cuò)誤。
Wave 5和Wave 6中,Tab增加了對(duì)終端命令、剪貼板內(nèi)容、IDE搜索內(nèi)容等的感知。
這不是一堆隨機(jī)新功能,而是Windsurf構(gòu)建「最全面軟件工程時(shí)間線(xiàn)」的一部分。
即便使用的是通用模型,只要Windsurf記錄和利用好了這些上下文信息,AI的表現(xiàn)就會(huì)大幅提升。
而現(xiàn)在Windsurf有了自研的SWE系列模型,這個(gè)正反饋循環(huán)將真正開(kāi)始加速:模型能更好地理解時(shí)間線(xiàn)并參與其中更多部分。
接下來(lái)會(huì)發(fā)生什么?
SWE-1只是開(kāi)始。它是由一個(gè)小而專(zhuān)注的團(tuán)隊(duì)打造的,利用Windsurf在產(chǎn)品和基礎(chǔ)設(shè)施方面的優(yōu)勢(shì),展示了Windsurf完全有能力打造接近最前沿的模型。
未來(lái),Windsurf將持續(xù)改進(jìn)SWE系列模型,在保證低成本的同時(shí)不斷提升性能,讓開(kāi)發(fā)者能用Windsurf構(gòu)建更大、更強(qiáng)的軟件項(xiàng)目。
隨著SWE-1的發(fā)布和OpenAI對(duì)Windsurf的收購(gòu),AI編程工具正迎來(lái)一個(gè)新的時(shí)代。
從簡(jiǎn)單的代碼補(bǔ)全到全面的工程協(xié)作,AI正在深刻改變軟件開(kāi)發(fā)的方式。
對(duì)于開(kāi)發(fā)者來(lái)說(shuō),這是一個(gè)充滿(mǎn)機(jī)遇和挑戰(zhàn)的時(shí)代,如何利用這些新工具提升開(kāi)發(fā)效率,將成為他們需要思考的重要問(wèn)題。
本文來(lái)源:36氪
文章轉(zhuǎn)載于其他網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系我們及時(shí)刪除