无码国产精品,日本性爱视频免费看,91久久人澡人人添人人,五月天乱论视频

icon

新聞 資訊

News and information

OpenAI很看好,首個(gè)SWE-1模型發(fā)布,軟件開(kāi)發(fā)或?qū)⑻崴?9%

發(fā)布時(shí)間:2025-05-17

  將軟件開(kāi)發(fā)提速99%!


  Windsurf發(fā)布首個(gè)前沿模型SWE-1,AI編程領(lǐng)域風(fēng)起云涌,目標(biāo)是將開(kāi)發(fā)效率提升99%。SWE-1不僅能寫(xiě)代碼,更能理解并協(xié)助整個(gè)軟件工程流程。核心創(chuàng)新在于「流動(dòng)感知」系統(tǒng),即AI與用戶(hù)共享操作時(shí)間線(xiàn),實(shí)現(xiàn)高效協(xié)作。


  Windsurf首秀終于來(lái)了!


  在Cursor火爆全網(wǎng),OpenAI宣布30億美元重金收購(gòu)Windsurf后,Windsurf不甘寂寞,終于出手!


  Windsurf發(fā)布首個(gè)前沿模型SWE-1,目標(biāo)是將軟件開(kāi)發(fā)提速99%!


  

SWE-1不只是一個(gè)「會(huì)寫(xiě)代碼」的模型,而是一個(gè)理解、參與、并協(xié)助整個(gè)工程過(guò)程的協(xié)作伙伴。


  目前這個(gè)系列包含三個(gè)模型:


  SWE-1:具備與Claude 3.5 Sonnet類(lèi)似的工具調(diào)用推理能力,但運(yùn)行成本更低。在推廣期內(nèi),所有付費(fèi)用戶(hù)可免費(fèi)使用。


  SWE-1-lite:一個(gè)更小但質(zhì)量更高的模型,全面取代Cascade Base,對(duì)所有用戶(hù)(包括免費(fèi)用戶(hù))開(kāi)放。


  SWE-1-mini:更小、更快,專(zhuān)為Windsurf Tab中的低延遲被動(dòng)體驗(yàn)而設(shè)計(jì),適用于所有用戶(hù)。



  剛剛,SWE-1已經(jīng)上線(xiàn)Windsurf,且處于免費(fèi)使用階段。


  AI編程發(fā)展「快閃」


  近幾年,「會(huì)寫(xiě)代碼」的模型取得了巨大進(jìn)步,已經(jīng)能從簡(jiǎn)單的自動(dòng)補(bǔ)全發(fā)展到一次性構(gòu)建出完整的小型應(yīng)用。


  但這種能力仍然存在明顯的上限:


  其一,軟件開(kāi)發(fā)不僅僅是寫(xiě)代碼。


  開(kāi)發(fā)者要做的事情遠(yuǎn)不止編碼,還要操作終端、獲取知識(shí)、調(diào)試產(chǎn)品、理解用戶(hù)反饋等。因此需要的是更全面的模型,能覆蓋整個(gè)開(kāi)發(fā)流程。


  其二,工程過(guò)程是跨階段的、持續(xù)變化的。


  目前主流的基礎(chǔ)模型仍然是基于「代碼能否編譯」和「是否通過(guò)單元測(cè)試」來(lái)訓(xùn)練的。但現(xiàn)實(shí)中,這只是更大工程任務(wù)中的一小部分。


  真正需要的是能處理「尚未完成的狀態(tài)」、理解模糊目標(biāo)的模型。


  否則,即使模型寫(xiě)出了能運(yùn)行的功能,后續(xù)維護(hù)與擴(kuò)展性可能會(huì)非常差。


  因此,僅僅提高「寫(xiě)代碼」的能力,無(wú)法真正提升整個(gè)工程效率。需要打造的是支持完整軟件工程流程的模型——簡(jiǎn)稱(chēng)SWE模型。


  SWE-1的開(kāi)發(fā)過(guò)程


  SWE-1的開(kāi)發(fā)靈感來(lái)自廣受歡迎的Windsurf編輯器,構(gòu)建了全新的數(shù)據(jù)結(jié)構(gòu)(共享時(shí)間線(xiàn))和訓(xùn)練方法,能夠理解未完成的狀態(tài)、長(zhǎng)周期任務(wù)以及多種交互界面。


  其初衷是在資源有限的情況下,通過(guò)這種方法做出一流性能的模型。


  SWE-1是這個(gè)目標(biāo)的第一個(gè)驗(yàn)證成果。


  在整體表現(xiàn)上,SWE-1接近最前沿的基礎(chǔ)模型,在多個(gè)維度上超過(guò)了所有非前沿模型和開(kāi)源對(duì)手??梢酝ㄟ^(guò)離線(xiàn)評(píng)估與線(xiàn)上實(shí)測(cè)兩種方式進(jìn)行驗(yàn)證。


  離線(xiàn)評(píng)估


  評(píng)估將SWE-1與Anthropic系列(Cascade中使用最頻繁的模型之一)以及Deepseek、Qwen等主流開(kāi)源模型對(duì)比,主要有兩個(gè)基準(zhǔn)測(cè)試:


  會(huì)話(huà)式SWE任務(wù)基準(zhǔn)


  從一個(gè)正在進(jìn)行中的Cascade會(huì)話(huà)中截取,任務(wù)尚未完成。評(píng)估模型如何響應(yīng)用戶(hù)的下一步請(qǐng)求,打分標(biāo)準(zhǔn)綜合考慮幫助程度、效率、正確性以及目標(biāo)文件編輯的準(zhǔn)確率。這項(xiàng)測(cè)試關(guān)注模型在「人機(jī)協(xié)作」環(huán)境中的表現(xiàn)。



  端到端SWE任務(wù)基準(zhǔn)


  從會(huì)話(huà)一開(kāi)始就評(píng)估模型是否能完全獨(dú)立解決問(wèn)題,并通過(guò)一組單元測(cè)試。得分基于測(cè)試通過(guò)率和專(zhuān)家打分。這項(xiàng)測(cè)試衡量模型自主完成任務(wù)的能力。


  

評(píng)估結(jié)果表明,SWE-1在這些任務(wù)上接近頂級(jí)實(shí)驗(yàn)室的前沿模型,遠(yuǎn)超中等體量和開(kāi)源的對(duì)手。雖然還不是絕對(duì)領(lǐng)先,但非常有潛力。


  線(xiàn)上實(shí)測(cè)(生產(chǎn)實(shí)驗(yàn))


  Windsurf有大量用戶(hù),因此也通過(guò)盲測(cè)實(shí)驗(yàn)評(píng)估真實(shí)使用中的表現(xiàn)。


  Windsurf將用戶(hù)分組,分別使用不同模型,在不告知模型類(lèi)型的前提下觀(guān)察行為和效果。


  Windsurf主要看兩個(gè)指標(biāo):


  每位用戶(hù)每天接受的代碼行數(shù)


  即Cascade編寫(xiě)、用戶(hù)實(shí)際接受并保留的代碼行數(shù),反映模型的實(shí)際幫助程度、響應(yīng)質(zhì)量和用戶(hù)粘性。




  Cascade代碼貢獻(xiàn)率


  對(duì)于被Cascade修改過(guò)的文件,模型所做的代碼改動(dòng)所占比例。這是一個(gè)反映模型「主動(dòng)性」以及「用戶(hù)信任程度」的指標(biāo)。


  SWE-1專(zhuān)為Cascade場(chǎng)景設(shè)計(jì)和優(yōu)化,因此在這些指標(biāo)上表現(xiàn)幾乎是行業(yè)領(lǐng)先,效果優(yōu)于所有非前沿模型。


  

其他模型分析


  你可能在上面的圖表中注意到SWE-1-lite,這是SWE-1的中型版本,使用相同訓(xùn)練方式,在非前沿模型中表現(xiàn)最佳,現(xiàn)已取代Cascade Base,向所有用戶(hù)開(kāi)放。


  Windsurf還開(kāi)發(fā)了SWE-1-mini,體積更小,速度更快,適用于Windsurf Tab這種對(duì)延遲要求極高的被動(dòng)預(yù)測(cè)場(chǎng)景。


  需要說(shuō)明的是,這只是一個(gè)起點(diǎn)。


  Windsurf不僅希望趕上最前沿實(shí)驗(yàn)室的水平,最終目標(biāo)是全面超越它們。


  Windsurf堅(jiān)信自己已經(jīng)具備了實(shí)現(xiàn)這個(gè)目標(biāo)的引擎,并將持續(xù)加大投入。


  流動(dòng)感知系統(tǒng)(Flow-Aware System)


  Windsurf提到SWE-1的靈感來(lái)源于Windsurf編輯器。


  關(guān)鍵在于Windsurf獨(dú)特的設(shè)計(jì)理念:流動(dòng)感知(Flow Awareness)。


  什么是流動(dòng)感知?


  Windsurf打造的Windsurf編輯器實(shí)現(xiàn)了用戶(hù)與AI的「共識(shí)時(shí)間線(xiàn)」:AI的每一步用戶(hù)都能看到并干預(yù),反過(guò)來(lái),AI也能理解并跟進(jìn)用戶(hù)的行為。


  這種「共享時(shí)間線(xiàn)」的感知能力,Windsurf稱(chēng)之為Flow Awareness(流動(dòng)感知),也因此Windsurf一直把這種人機(jī)協(xié)作的體驗(yàn)稱(chēng)為「AI flows」。


  為什么流動(dòng)感知很重要?


  因?yàn)槎虝r(shí)間內(nèi),沒(méi)有模型能完全獨(dú)立完成所有開(kāi)發(fā)任務(wù)。


  流動(dòng)感知允許模型和人類(lèi)之間「自然交接」:AI做一部分,用戶(hù)校正,AI再繼續(xù),形成順暢銜接。


  借助共享時(shí)間線(xiàn),Windsurf可以持續(xù)追蹤當(dāng)前模型的能力邊界,觀(guān)察哪些任務(wù)需要用戶(hù)介入、哪些能完全自動(dòng)完成。


  這是SWE-1能快速成長(zhǎng)為當(dāng)前水平的關(guān)鍵原因之一。


  共享時(shí)間線(xiàn)在Windsurf中的演進(jìn)


  構(gòu)建共享時(shí)間線(xiàn)是Windsurf許多功能背后的核心理念:


  初代Cascade就支持「你在編輯器改完內(nèi)容后輸入continue,AI就能繼續(xù)理解你改了什么」——這是對(duì)編輯器的感知。


  后來(lái)Windsurf加入了終端輸出感知——AI能理解你執(zhí)行命令時(shí)出現(xiàn)的錯(cuò)誤。


  Wave 4中加入了「預(yù)覽」功能——AI開(kāi)始理解你看到的前端組件和錯(cuò)誤。


  Wave 5和Wave 6中,Tab增加了對(duì)終端命令、剪貼板內(nèi)容、IDE搜索內(nèi)容等的感知。


  這不是一堆隨機(jī)新功能,而是Windsurf構(gòu)建「最全面軟件工程時(shí)間線(xiàn)」的一部分。


  即便使用的是通用模型,只要Windsurf記錄和利用好了這些上下文信息,AI的表現(xiàn)就會(huì)大幅提升。


  而現(xiàn)在Windsurf有了自研的SWE系列模型,這個(gè)正反饋循環(huán)將真正開(kāi)始加速:模型能更好地理解時(shí)間線(xiàn)并參與其中更多部分。


  接下來(lái)會(huì)發(fā)生什么?


  SWE-1只是開(kāi)始。它是由一個(gè)小而專(zhuān)注的團(tuán)隊(duì)打造的,利用Windsurf在產(chǎn)品和基礎(chǔ)設(shè)施方面的優(yōu)勢(shì),展示了Windsurf完全有能力打造接近最前沿的模型。


  未來(lái),Windsurf將持續(xù)改進(jìn)SWE系列模型,在保證低成本的同時(shí)不斷提升性能,讓開(kāi)發(fā)者能用Windsurf構(gòu)建更大、更強(qiáng)的軟件項(xiàng)目。


  隨著SWE-1的發(fā)布和OpenAI對(duì)Windsurf的收購(gòu),AI編程工具正迎來(lái)一個(gè)新的時(shí)代。


  從簡(jiǎn)單的代碼補(bǔ)全到全面的工程協(xié)作,AI正在深刻改變軟件開(kāi)發(fā)的方式。


  對(duì)于開(kāi)發(fā)者來(lái)說(shuō),這是一個(gè)充滿(mǎn)機(jī)遇和挑戰(zhàn)的時(shí)代,如何利用這些新工具提升開(kāi)發(fā)效率,將成為他們需要思考的重要問(wèn)題。


本文來(lái)源:36氪

文章轉(zhuǎn)載于其他網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系我們及時(shí)刪除

久久久久久久国产精品| 小草免费观看在线播放| 波多野无码一区| 国产 精品 亚洲 日韩| 亚洲日韩另类无码| 欧美与黑人午夜性猛交久久久| 国产精品v亚洲精品v日韩精品| 天天干少妇| 在线看电影一区二区三区| 中国美女AV| 大香蕉大香蕉在线| 91亚洲欧美日韩精品久久奇米色| 久久久久无码精品| 日本男女肏屄在线播放| 天天射网| 国产精品sexvideoshd| 乐播久久| 欧美123| 人人澡人人干| 五月婷婷欧美激情| 少妇又紧又色又爽又刺激视频| 亚洲国产精品国自产拍AV| 国产噜噜噜噜噜久久久久久久久| 高清欧美性猛交xxxx| 亚洲一级Av无码毛片久久精品| 婷婷综合缴情亚洲狠狠小说| 青青草亚洲Sm一区| 精品久久综合| 久久AV无码精品人妻出轨| 亚洲精品无码不卡| 美国毛片| 夜夜嗨一区二区免费看| 日韩午夜精品视频| 久久精品国产片| 亚洲精品在| 欧美日韩黄色电影网址| 久久另类天堂| 黑人巨大精品欧美一区二区免费| 99精品久久久久免费| 黄色一级a一片| 久久A级毛片|