久久国内精品视频,激情懂色av一区av二区av,国产精品无码永久免费888,欧美日韩国产精品自在自线

關注 >   >  正文

擊敗LLaMA?史上超強「獵鷹」排行存疑,符堯7行代碼親測,LeCun轉贊

評論

前幾天公布的LLM排行榜引發業內人士廣泛討論,新模型Falcon在性能上真的能打過LLaMA嗎?符堯實測來了!

前段時間,初出茅廬的獵鷹(Falcon)在LLM排行榜碾壓LLaMA,在整個社區激起千層浪。


(資料圖)

但是,獵鷹真的比LLaMA好嗎?

簡短回答:可能不是。

符堯團隊對模型做了更深入的測評:

「我們在MMLU上復現了LLaMA 65B的評估,得到了61.4的分數,接近官方分數(63.4),遠高于其在Open LLM Leaderboard上的分數(48.8),而且明顯高于獵鷹(52.7)?!?/p>

沒有花哨的提示工程,沒有花哨的解碼,一切都是默認設置。

目前,Github上已經公開了代碼和測試方法。

對于獵鷹超越LLaMA存疑,LeCun表態,測試腳本的問題…

LLaMA真·實力

目前在OpenLLM排行榜上,Falcon位列第一,超過了LLaMA,得到了包括Thomas Wolf在內的研究人員的力薦。

然而,有些人對此表示疑慮。

先是一位網友質疑,LLaMA這些數字從哪來,看起來與論文數字不一致…

隨后,OpenAI科學家Andrej Karpathy也對LLaMA 65B為什么在Open LLM排行榜上的分數明顯低于官方(48.8 v.s. 63.4)表示關注。

并發文,到目前為止,我一直避免在推特上發表關于獵鷹的文章,因為這一點,不確定。

為了弄清楚這個問題,符堯和團隊成員決定對LLaMA 65B進行一次公開的測試,結果得到61.4分。

在測試中,研究者沒有使用任何特殊機制,LLaMA 65B就能拿到這個分數。

這一結果恰恰證明了,如果想要模型實現接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。

根據就是,近來符堯團隊發表的一篇Chain-of-Thought Hub論文的發現。

當然,符堯表示,他們這一測評并非想要引起LLaMA和Falcon之間的爭端,畢竟這些都是偉大的開源模型,都為這個領域做出了重大的貢獻!

另外,Falcon還有更加方便的使用許可,這也讓它有很大的發展潛力。

對于這一最新測評,網友BlancheMinerva指出,公平的比較應該在默認設置下運行獵鷹(Falcon)在MMLU上。

對此,符堯稱這是正確的,并正進行這項工作,預計在一天后可以得到結果。

不管最終的結果怎樣,要知道GPT-4這座山峰才是開源社區真正想要追求的目標。

OpenLLM排行榜問題

來自Meta的研究人員稱贊,符堯很好地再現了LLaMa的結果,并指出了OpenLLM排行榜的問題。

與此同時,他還分享了關于OpenLLM排行榜的一些問題。

首先,MMLU的結果:LLaMa 65B MMLU結果在排行榜上是15分,但對7B模型來說是一樣的。13B、30B模型也存在較小的性能差距。

OpenLLM真的需要在公布哪個模型是最好的之前看看這個。

基準:這些基準是如何選擇的?

ARC 25 shot和Hellaswag 10 shot似乎與LLM并不特別相關。如果能在其中加入一些生成式基準就更好了。雖然生成式基準有其局限性,但它們仍然是有用的。

單一平均分:將結果減少到單一分數總是很吸引人的,平均分是最容易的。

但在這種情況下,4個基準的平均值真的有用嗎?在MMLU上獲得1分和在HellaSwag上獲得1分是一樣的嗎?

在LLM快速迭代的世界里,開發這樣一個排行榜肯定有一定的價值。

還有來自谷歌研究人員Lucas Beyer也發表了自己的觀點,

瘋狂的是,NLP研究人員對同一個基準有不同的理解,因此導致了完全不同的結果。同時,每當我的同事實現一個指標時,我都會立即問他們是否真的檢查將官方代碼的完美重現,如果沒有,就放棄他們的結果。

另外,他還表示,據我所知,無論模型如何,它實際上都不會重現原始基準測試的結果。

網友附和道,這就是LLM基準的現實…

Falcon——開源、可商用、性能強

說到Falcon,其實值得我們再好好回顧一下。

按LeCun的說法,大模型時代,開源最重要。

而在Meta的LLaMA代碼遭泄之后,各路開發者都開始躍躍欲試。

Falcon正是由阿聯酋阿布扎比的技術創新研究所(TII)開發的一支奇兵。

剛發布時從性能上看,Falcon比LLaMA的表現更好。

目前,「Falcon」有三個版本——1B、7B和40B。

TII表示,Falcon迄今為止最強大的開源語言模型。其最大的版本,Falcon 40B,擁有400億參數,相對于擁有650億參數的LLaMA來說,規模上還是小了一點。

不過,此前TII曾表示,別看咱Falcon規模雖小,性能卻很能打。

先進技術研究委員會(ATRC)秘書長Faisal Al Bannai認為,「Falcon」的發布將打破LLM的獲取方式,并讓研究人員和創業者能夠以此提出最具創新性的使用案例。

FalconLM的兩個版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA則位于第三。

而前文所講的有關排行榜的問題也正是這個。

盡管「Falcon」的論文目前還沒公開發布,但Falcon 40B已經在經過精心篩選的1萬億token網絡數據集的上進行了大量訓練。

研究人員曾透露,「Falcon」在訓練過程非常重視在大規模數據上實現高性能的重要性。

我們都知道的是,LLM對訓練數據的質量非常敏感,這就是為什么研究人員會花大量的精力構建一個能夠在數萬個CPU核心上進行高效處理的數據管道。

目的就是,在過濾和去重的基礎上從網絡中提取高質量的內容。

目前,TII已經發布了精煉的網絡數據集,這是一個經過精心過濾和去重的數據集。實踐證明,非常有效。

僅用這個數據集訓練的模型可以和其它LLM打個平手,甚至在性能上超過他們。這展示出了「Falcon」卓越的質量和影響力。

此外,Falcon模型也具有多語言的能力。

它理解英語、德語、西班牙語和法語,并且在荷蘭語、意大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。

Falcon 40B還是繼H2O.ai模型發布后,第二個真正開源的模型。

另外,還有一點非常重要——Falcon是目前唯一的可以免費商用的開源模型。

在早期,TII要求,商業用途使用Falcon,如果產生了超過100萬美元以上的可歸因收入,將會收取10%的「使用稅」。

可是財大氣粗的中東土豪們沒過多長時間就取消了這個限制。

至少到目前為止,所有對Falcon的商業化使用和微調都不會收取任何費用。

土豪們表示,現在暫時不需要通過這個模型掙錢。

而且,TII還在全球征集商用化方案。

對于有潛力的科研和商業化方案,他們還會提供更多的「訓練算力支持」,或者提供進一步的商業化機會。

這簡直就是在說:只要項目好,模型免費用!算力管夠!錢不夠我們還能給你湊!

對于初創企業來說,這簡直就是來自中東土豪的「AI大模型創業一站式解決方案」。

根據開發團隊稱,FalconLM 競爭優勢的一個重要方面是訓練數據的選擇。

研究團隊開發了一個從公共爬網數據集中提取高質量數據并刪除重復數據的流程。

在徹底清理多余重復內容后,保留了 5 萬億的token——足以訓練強大的語言模型。

40B的Falcon LM使用1萬億個token進行訓練, 7B版本的模型訓練token達到 1.5 萬億。

(研究團隊的目標是使用RefinedWeb數據集從Common Crawl中僅過濾出質量最高的原始數據)

此外,Falcon的訓練成本相對來說更加可控。

TII稱,與GPT-3相比,Falcon在只使用75%的訓練計算預算的情況下,就實現了顯著的性能提升。

而且在推斷(Inference)時只需要只需要20%的計算時間,成功實現了計算資源的高效利用。

標簽:

今日熱點

熱點排行

最近更新

所刊載信息部分轉載自互聯網,并不代表本網贊同其觀點和對其真實性負責。郵箱:5855973@qq.com

聯系我們| 中國品牌網 | 滬ICP備2022005074號-18 營業執照  Copyright © 2018@. All Rights Reserved.

久久国内精品视频,激情懂色av一区av二区av,国产精品无码永久免费888,欧美日韩国产精品自在自线
欧美亚洲综合另类| 久久一区二区三区国产精品| 亚洲成人在线视频播放| 国产美女扒开尿口久久久| 国产三区精品| 激情久久婷婷| 国产精品一卡| 亚洲欧洲精品一区| 国产精品99免费看| 亚洲激情二区| 亚洲午夜伦理| 国产片一区二区| 欧美一级淫片播放口| 欧美在线观看视频一区二区| 久久久青草青青国产亚洲免观| 欧美中文字幕久久| 午夜免费电影一区在线观看| 亚洲第一福利在线观看| 亚洲女同精品视频| 女女同性精品视频| 欧美日本一区| 亚洲一区二区四区| 欧美日韩亚洲综合一区| 亚洲国产成人精品久久久国产成人一区| 一区在线观看视频| 1024欧美极品| 狠狠做深爱婷婷久久综合一区| 亚洲欧美国产77777| 亚洲国产视频a| 亚洲成色最大综合在线| 国产精品国产三级国产普通话99| 一区二区三区成人| 另类图片国产| 欧美不卡一卡二卡免费版| 亚洲美女福利视频网站| 亚洲精品视频二区| 国产一区二区三区成人欧美日韩在线观看| 国产一区二区三区四区在线观看| 欧美日韩福利视频| 久久精视频免费在线久久完整在线看| 欧美精品成人一区二区在线观看| 国产精品资源在线观看| 欧美性视频网站| 欧美激情中文字幕一区二区| 亚洲大胆美女视频| 亚洲午夜久久久久久久久电影网| 欧美午夜片欧美片在线观看| 美女视频黄a大片欧美| 亚洲国产欧美另类丝袜| 亚洲性视频h| 亚洲国产精品精华液网站| 一区二区三区欧美激情| 99www免费人成精品| 国产精品日韩在线| 一区二区三区免费看| 亚洲午夜激情免费视频| 欧美午夜在线视频| 欧美成人免费一级人片100| 久久精品国产99国产精品| 最新国产の精品合集bt伙计| 99re6这里只有精品视频在线观看| 欧美亚洲三级| 久久狠狠婷婷| 亚洲欧美在线高清| 欧美亚洲第一页| 亚洲福利小视频| 欧美香蕉大胸在线视频观看| 国产精品久久久91| 在线观看视频免费一区二区三区| 欧美mv日韩mv国产网站app| 1000部国产精品成人观看| 黑人极品videos精品欧美裸| 一区二区激情小说| 亚洲一区三区在线观看| 日韩手机在线导航| 亚洲国产岛国毛片在线| 99在线热播精品免费99热| 国产亚洲精品aa午夜观看| 久久久精品国产99久久精品芒果| 久久久久一区二区| 香蕉久久夜色精品国产| 欧美视频中文在线看| 国模精品一区二区三区| 久久久亚洲综合| 香蕉久久一区二区不卡无毒影院| 久久久久久久性| 久久天天躁狠狠躁夜夜爽蜜月| 亚洲乱码一区二区| 欧美日韩国产一中文字不卡| 久久久美女艺术照精彩视频福利播放| 亚洲人成在线观看| 美女成人午夜| 激情六月婷婷久久| 国产精品久久久久久久久久久久| 国产乱人伦精品一区二区| 亚洲第一福利社区| 国产伦精品一区二区三区免费迷| 欧美激情在线观看| 99在线精品免费视频九九视| 黄色在线成人| 国产欧美一区二区三区国产幕精品| 在线观看欧美日韩国产| 欧美大成色www永久网站婷| 欧美日韩一区在线观看| 亚洲私人影院在线观看| 欧美大片一区二区| 99国产成+人+综合+亚洲欧美| 国产精品一区一区三区| 国产一区二区电影在线观看| 韩国欧美国产1区| 亚洲三级色网| 欧美一级视频一区二区| 亚洲永久免费观看| 在线一区欧美| 久久久九九九九| 久久久久综合网| 一区二区三区日韩欧美| 国产亚洲欧美日韩在线一区| 欧美自拍偷拍午夜视频| 国产精品久久久久久久浪潮网站| 国产亚洲精品久久飘花| 一本色道久久综合狠狠躁的推荐| 夜夜嗨av一区二区三区四季av| 欧美丝袜一区二区三区| 欧美日韩免费区域视频在线观看| 最近看过的日韩成人| 亚洲美女精品一区| 最新日韩av| 欧美国产丝袜视频| 欧美日韩在线直播| 麻豆亚洲精品| 国产精品视频免费观看www| 久久久久久久性| 久久青青草原一区二区| 欧美日韩网址| 一本色道久久综合亚洲精品不卡| 欧美大胆成人| 久久免费视频这里只有精品| 亚洲国产精品va在线看黑人| 亚洲人成在线影院| 欧美韩日高清| 欧美日韩精品免费观看视一区二区| 亚洲大胆美女视频| 国产精品二区三区四区| 久久嫩草精品久久久精品一| 欧美日韩一区视频| 99视频日韩| 欧美三日本三级三级在线播放| 国产一区二区激情| 午夜久久久久久久久久一区二区| 亚洲一二三区在线| 欧美国产精品一区| 亚洲精品国产欧美| 老司机一区二区三区| 久久亚洲欧洲| 欧美日韩成人一区二区| 一本色道久久综合亚洲精品婷婷| 国产伦一区二区三区色一情| 亚洲无吗在线| 亚洲国产欧美在线人成| 欧美黄在线观看| 猛男gaygay欧美视频| 欧美丰满高潮xxxx喷水动漫| 国产精品羞羞答答xxdd| 欧美国产亚洲精品久久久8v| 国产美女一区二区| 亚洲精品五月天| 欧美在线视频一区二区| 亚洲国产精品一区二区第一页| 亚洲影院色无极综合| 国产一区二区三区视频在线观看| 国产欧美日韩麻豆91| 欧美中文字幕在线| 亚洲免费精彩视频| 99视频精品在线| 国产综合视频在线观看| 亚洲欧美综合精品久久成人| 久久一区视频| 久久综合九色99| 国产一区二区三区在线观看视频| 亚洲欧洲精品一区二区三区不卡| 亚洲欧美综合国产精品一区| 欧美丝袜一区二区三区| 亚洲国产综合91精品麻豆| 亚洲性夜色噜噜噜7777| 亚洲激情电影在线| 亚洲欧洲视频在线| 一区二区三区四区五区在线| 欧美精品性视频| 亚洲茄子视频| 狠狠色综合网站久久久久久久| 国产精品伦子伦免费视频| 欧美视频福利| 国产精品视频久久| 在线亚洲电影| 欧美精品性视频| 亚洲黄色免费| 亚洲激情国产精品| 欧美成年视频| 一区在线免费观看|