国产资源精品一区二区免费,人妻饥渴偷公乱中文字幕,懂色av,恩恩呜呜好大好爽快点

DeepSeek:邁向全社會分享的普遍智能

3個月前 來源:文匯報 觀看:33

 8pp即熱新聞——關注每天科技社會生活新變化gihot.com

  ?8pp即熱新聞——關注每天科技社會生活新變化gihot.com

去年春節,美國OpenAI開發的視頻生成AI工具Sora橫空出世,成為世界關注的焦點。今年春節前夕,一家低調的中國AI企業DeepSeek推出的開源大模型在全球引發了不啻Sora的震撼——它在模型算法和工程優化方面所進行的系統級創新,為在受限資源下探索通用人工智能開辟了新的道路,并為打破以“大模型、大數據和大算力”為核心的生成式AI“擴展定律”天花板帶來了無限遐想。

過去幾周,DeepSeek超越ChatGPT,登頂蘋果美國地區應用商店免費App下載排行榜。1月28日,美國“外交學者”網站(The Diplomat)發表題為《中國的DeepSeek是美國人工智能的“斯普特尼克時刻”》的文章指出,DeepSeek此次的開源之舉延續了OpenAI的初心使命——為了人類利益推動人工智能發展。

DeepSeek的出圈,再次印證了一個科技創新硬道理:贏得比賽的關鍵是精益求精、富有創造力的創新,而非單純的金融實力和一味的出口管制。

“大力出奇跡”并非AI唯一出路

2019年,人工智能領域強化學習鼻祖、DeepMind研究科學家、加拿大阿爾伯塔大學計算機學教授理查德·薩頓發表了一篇題為《苦澀的教訓》的文章,認為“縱觀過去70年的AI發展歷史,想辦法利用更大規模的算力總是最高效的手段”。

在“數據是燃料、模型是引擎、算力是加速器”這一深度學習理念支持下,以Transformer為基本模型的生成式AI(如ChatGPT等)不再從互聯網中搜索和羅列已有的匹配信息,而是從海量數據中洞悉單詞與單詞之間的共現概率,以組合意義下“昨日重現”方式合成眾所周知的語言內容。

Transformer是2017年谷歌公司提出的一種新型深度神經網絡,其核心在于通過自注意力機制讓每個單詞記住在不同語境下的“左鄰右舍”,然后以似曾相識之感來概率合成新的內容。“Transformer”這一名字或許受到了電影《變形金剛》的英文名“Transformers”的啟發,因此可以將合成內容的生成式AI看成一個“魔鏡”,它能夠根據輸入內容如變魔術般輸出與之對應的內容。

由于每個單詞要記住越來越多不同語境下的“左鄰右舍”,因此模型參數不斷增多而導致模型規模不斷增大,隨之出現了大模型的“擴展定律”(Scaling Law),即隨著模型規模、訓練數據和計算資源的增加,模型性能會得到顯著提升,并且這些關系遵循可預測的模式。

面對越來越大的模型,訓練模型所需的AI算力不斷飆升,“大力出奇跡”這一算力霸權開始左右人工智能的發展。英偉達創始人兼首席執行官黃仁勛據此提出過“黃氏定律”:在計算架構改進的推動下,人工智能芯片的性能每年可提升1倍,速度遠超集成電路領域的摩爾定律。

人工智能“擴展定律”雖然也需要算法和系統創新,但是這一“無他、但手熟爾”的模式不應是AI發展的唯一出路,因為“化繁為簡、大巧不工”才是推動“機器學習”邁向“學習機器”的初衷。

“萬物之始,大道至簡,衍化至繁”,以簡單直接思路解決復雜問題才是科學研究之道。1953年,諾貝爾物理學獎得主恩利克·費米提 到,馮·諾依曼曾對他說 過,用4個參數就能畫出一頭大象,用5個參數就可以讓象鼻子動起來。英國數學家雅各布·布魯諾斯基也曾提到,馮·諾依曼認為圍棋不是博弈,雖然因為計算復雜而難以找到答案,但在理論上,下圍棋一定有個最佳落子方案。

這些故事告訴我們,用簡單方法解決復雜問題是科學研究基本思路之一。正如愛因斯坦所言,“所有科學中最重大的目標就是從最少數量的假設和公理出發,用邏輯演繹推理的方法解釋最大量的經驗事實”。由此可見,DeepSeek的研發初心切合了大模型發展的內在邏輯,為遏制其規模“瘋長”勢頭提供了一劑良藥。

從“學而不思則罔”到“思而不學則殆”

能用眾力,則無敵于天下矣;能用眾智,則無畏于圣人矣。DeepSeek的精彩表現在于其對算法、模型和系統等進行的系統級協同創新,是眾智和眾力相互疊加的成果。

應該說,DeepSeek模型仍是基于此前的Transformer架構,沒有實現改變游戲規則的顛覆性基礎理論創新。但是,它在模型算法和工程優化方面進行了系統級創新,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集群上完成訓練,打破了大語言模型以大算力為核心的預期天花板,為在受限資源下探索通用人工智能開辟了新的道路。其算法和工程創新主要包括混合專家模型、低秩注意力機制、強化學習推理、小模型蒸餾,以及諸如FP8混合精度和GPU部署優化等工程創新。

其中,混合專家稀疏模型與傳統大語言模型“眾人拾柴、咸與維新”的路徑不同,它另辟蹊徑利用了“術業有專攻”的理念,每次讓若干個合適專家協作發揮各自能力,完成特定任務。

實際上,人腦也是一個稀疏模型。雖然人腦由800多億個神經元和100萬億個突觸連接而成,但它在完成識人辨物和舉手投足等任務時,每次只有一小部分神經元被激活。實現“弱水三千,只取一瓢飲”,且讓被選擇的若干專家能夠以“十個指頭彈鋼琴”的形式,負載均衡地合作完成任務,而不是“三個和尚無水喝”——這正是DeepSeek所做出的難得的算法創新。

低秩注意力機制的引入使DeepSeek在保持模型性能的同時顯著降低了計算和存儲成本。人類在理解外界信息時,往往看到的是內嵌在信息中的本質結構。例如,我們理解一篇文章,更關切若干單詞組合所刻畫的主題概念,而非單詞從頭到尾的羅列。傳統大模型中的注意力機制由于需要記錄每個單詞在不同上下文中的左鄰右舍,因此變得龐大無比。DeepSeek對這一巨大的注意力機制矩陣進行了壓縮,從而極大提升了模型運行效率。

在強化學習推理方面,傳統大模型訓練時采用了“授之以魚,不如授之以漁”的方法,即人類給出大量思維鏈數據,通過監督式微調來讓大語言模型仿照思維鏈完成相應任務。但DeepSeek的做法則如同讓一個天才兒童在沒有任何范例的指導下,完全通過“嘗試與試錯”來不斷探索未知空間,并利用已有經驗不斷取得進步,最終完成從“摸著石頭過河”到“先知后行”的蝶變。

而且,DeepSeek進一步提出了讓模型從若干答案中進行比較的選擇方法,以實現自我提升。

這種直接訓練方法不僅耗時更短、計算資源需求大幅減少,更讓模型學會了思考,而且是以見證“啊哈時刻(Aha Moment)”(指讓用戶眼前一亮時刻)的頓悟方式思考。

但值得注意的是,該方法難免導致推理過程難以被溯源和理解等局限。為此,DeepSeek收集了一部分思維鏈數據,引入冷啟動和有監督微調等方法,對模型進行再次訓練,從而讓模型在保持強大推理能力的同時,還學會了用人類易懂的方式表達思維過程。

廣受關注的“模型蒸餾”就是讓小模型模仿大模型回答問題的結果,來提升自身能力。比如,在對一篇文章分類時,大模型認為該文章以85%、10%和5%的概率分別屬于正面、負面和中性等不同情感類別。小模型就從大模型輸出的結果中認真思考,不斷調整參數,以期望繼承大模型能力,從而輸出類似結果。

由于神經網絡有強大的非線性映射能力,蒸餾學習不僅沒有導致“東施效顰”的笑話,反而使得大模型的能力之道以“他山之石、可以攻玉”的蒸餾之術遷移到了小模型。這不禁讓人感嘆,對于大模型而言,“學而不思則罔”;對于小模型而言,“思而不學則殆”。

智能時代,教育何為?

人工智能是一種類似于內燃機或電力的“通用目的技術”,天然具備“至小有內,至大無外”推動學科交叉的潛力。無論是從人工智能角度解決科學問題(AI for Science,如利用人工智能預測蛋白質序列的三維空間結構),還是從科學的角度優化人工智能(Science for AI,如從統計物理規律角度優化神經網絡模型),未來的重大突破都將源自于這種交叉領域的工作。

如果說過往的技術發明是從機械化增強角度提升人類與環境的互動能力,那么人工智能的出現將對人類的這一根本能力和角色發起挑戰——生成式人工智能的出現使得智能機器成為知識生產的輔助者,這將深刻改變個體學習者的自主思考、判斷、學習能力,乃至倫理道德觀。

如何看待一項新技術的發展,這是進行技術預測的一項必需認知準備。遺憾的是,人類總是習慣于線性思維(這符合人類自然的認知模式:節省能量與快速計算),但這種認知配置很容易出現認知偏差,其中最常見的就是對于技術近期與遠期影響的判斷出現不對稱性——短期內傾向于高估技術的影響,長期內低估技術的影響,即美國科學家羅伊·阿瑪拉提出的“阿瑪拉法則”。

那么,隨著智能時代的來臨,如何通過教育體系的變革來應對這一時代之變?在浙江大學2024年6月發布的《大學生人工智能素養紅皮書》中,我們提出,大學生人工智能素養是由體系化知識、構建式能力、創造性價值和人本型倫理構成的有機整體,其中知識為基、能力為重、價值為先、倫理為本。

目前,浙江大學和復旦大學等高校已將人工智能作為全校大學生通識必修課程。而且,浙江大學、復旦大學、上海交大、南京大學、中科大和同濟大學已在四年前共同推出“課程共建、學分互認、證書共簽”的AI+X微專業,今年還將推出升級版,以進一步加強人工智能通識教育和交叉學科教育。

2024年春節,我為文匯報撰寫《Sora“超級涌現力”將把AI引向何方》的文章,今年春節又為DeepSeek撰稿。雖然希望人工智能年年有精彩,但我更期盼全社會分享的普遍智能到來。

DeepSeek模型特點速讀

混合專家稀疏模型

DeepSeek的基座模型V3采用了混合專家機制,每一個Transformer層包含256個專家和1個共享專家,V3基座模型總共有6710億參數,但每次token僅激活8個專家、370億參數。這一創新算法與稠密模型相比,預訓練速度更快;與具有相同參數數量的模型相比,具有更快的推理速度。

低秩注意力機制

低秩注意力機制又被稱為多頭潛在注意力機制。DeepSeek引入“低秩”這一概念,對巨大的注意力機制矩陣進行壓縮,減少參與運算的參數數量,從而在保持模型性能的同時顯著降低計算和存儲成本,把顯存占用降到了其他大模型的5%—13%,極大提升了模型運行效率。

強化學習推理

DeepSeek這次在訓練推理模型中直接采用了一條前所未有的“純”強化學習路徑,僅根據模型輸出答案優劣以及輸出答案格式完整等簡單信息,對模型行為進行獎懲。

該方法不僅對計算資源的需求大幅減少,還可讓模型以“頓悟”的方式學會思考,并用人類易懂的方式表達思維過程。

模型蒸餾

為了讓簡潔緊湊的小模型具備DeepSeek-R1那樣的推理能力,DeepSeek開發團隊采用蒸餾方法來增強小模型的推理能力,即讓小模型模仿大模型回答問題的結果,來提升自身能力。

工程創新

DeepSeek使用FP8混合精度加速訓練并減少GPU內存使用,使用DualPipe算法(即將前向和后向計算與通信階段重疊,以最大限度減少計算資源閑置)提升訓練效率,并進行了極致的內存優化。他們開發了一套完善的數據處理流程,著重于最小化數據冗余,同時保留數據的多樣性。8pp即熱新聞——關注每天科技社會生活新變化gihot.com

本文鏈接:http://www.wbe-yiqi.com/news-8-1199-0.htmlDeepSeek:邁向全社會分享的普遍智能

聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇:山東化工技師學院舉辦第47屆世賽化學實驗室技術項目技能競賽技術交流及工作總結會議

下一篇:港中大成立致真交叉數學科學院,丘成桐任創院院長

為你推薦
  1月15日,西安市第六中學北校區成功舉辦以“緩解壓力 放飛心靈 賦能前行享受美好”為主題的教師團體心理活動。此次活動旨在緩解教師工作壓力,增強團隊凝聚力,為教師們的身...
01-21
隨著全球變暖,野火發生的頻率和強度顯著增加,近日發生在美國洛杉磯的大火引起...
01-22
  進入2025年以來,省聯社改革駛向“快車道”。  1月20日,國家金融監督管理總局披露的批復顯示...
01-23
  摘要  【鋼銀電商:本周全國城市鋼材庫存環比增加14.39%建材庫存增幅超兩成】鋼銀電商27日...
01-28
在星座學中,雙魚男和天蝎女被認為是非常相配的一對。他們之間的吸引力和默契讓人難以忽...
01-22
雙魚座的男生通常是浪漫而敏感的,他們善于表達情感,但有時也會因為過于理想化而迷失自己...
01-22
當紅女星風采:近期綻放的璀璨之美在最近的娛樂圈中,無論是電影、電視劇,還是社交媒體,許多女明星的魅力時刻吸引著大家的注意。仿佛每一位女神都在綻放自己的光芒,成了各界矚目的...
02-07
ysl有中國官網嗎? ysl官網買的哪里發貨?ysl有中國官網嗎?沒有的吧,只有www.YSL.COMysl官網買的哪里發貨?通常情況下YSL Beauty圣羅蘭美國官網下單之后3-5天就會發貨,但是大家要注...
02-17
2月6日消息,抖音電商規則中心更新了調整保證金和“0元入駐”的新規則:降低34個一級類目商家的保證金,最高降幅達85%;同時首次大批量開放1345 個子類目“0元入駐”,減少新商家的入...
02-07
賺錢,無孔不入。1.大小品牌擠進爆火直播間一切生意的本質都是流量,在抖音尤是如此。不知道大家有沒有發現,從去年開始,大小品牌開始擠進抖音爆火直播間,通過砸錢給主播送禮物,以此...
02-11
圖源:圖蟲創意 編者按:春節,中國人心中最傳統、最具儀式感的...
02-07
2月9日消息,京東汽車年貨節戰報出爐,年貨節期間,京東平臺上安全預警儀銷量同比增長超150%,全景影像產品銷量同比增長超100%,應急包商品成交金額同比增長15倍,而能保護孩子安全的安...
02-09
近日,綠色動力與發電系統制造商「屹普動力」完成數千萬元Pre-A輪融資,由元禾璞華與沃衍資本聯合領投,林洋與君基金、常測機電以及銀河電子等上市公司...
02-07
最新數據顯示,我國2024年糧食總產量再創歷史新高,一舉突破1.4萬億斤,達到驚人的1.413萬億斤,同比增加221.8億斤。這一輝煌成就,是在克服重重自然災害,如極端高溫干旱、洪澇災害等...
02-09
四川資中一小孩因燃放鞭炮引起的沼氣燃爆,致使8輛汽車受損一事,引起網友熱議。 因為受損車輛包括林肯、雷克薩斯、奧迪、保時捷等豪華品牌,事件發生后,網上出現多...
02-03
不知大家發現沒有,我們在晚上做決定的時候,總會“大膽”很多,但第二天醒來不免會懊惱。這種到了晚上更易做出沖動決定的現象,在心理學上叫“深夜效應”。 白天大...
02-10
據中新網綜合臺灣媒體報道,前臺灣海基會董事長辜振甫夫人辜嚴倬云于2月4日辭世,享年105歲。資料圖(圖源:中新網)辜嚴倬云,1920年生于福建福州,其祖父嚴復先生為民初啟蒙大儒。辜嚴...
02-05
記者從國家醫保局獲悉,今年1月,有專家認為某些集采藥品可能存在“血壓不降、麻藥不睡、瀉藥不瀉”質量風險,有關部門派員調研了解情況。日前,參與調研的醫保、藥監部門接受了記...
02-09
1月初,因誤信微信群虛假工作招募信息被詐騙團伙騙至緬甸園區的演員王星終于回到國內,網友提著的一顆心終于松口氣。與此同時,圍繞網...
01-21
1月19日,應用于沙戈荒地區的超大功率等級風電機組——“凌風號”在吉林中車松原基地成功下線,這是國內首個成功下線的12兆瓦級陸上風電機...
01-21
  本報記者于帆  20世紀以來,香港電影產業蓬勃發展,先后創作了逾萬部影片,贏得了“東方好萊塢...
01-22
  近日,我省出臺《遼寧省加大存量商品房收購力度 進一步提升住房保障能力的若干措施》(以下簡稱《措施...
02-15
  中新經緯1月20日電 題:數字經濟將引領產業合作新模式  作者 朱巖 清華大學互聯網產業研究院院長  數字經濟步入高速發展快車道。2024年7月黨的二十屆三中全會明確了...
01-21
  與輝同行帶貨阿膠茶未檢出驢成分?生產廠商回應  中新網北京1月18日電(趙方園)與輝同行直播間帶貨產品再陷質量風波。近日,有消費者向中新健康反饋,在與輝同行直播間購買...
01-21
剛過去的2024年,吉利銀河以驚人的銷量增速引起業界廣泛關注,全年銷量突破49.4萬輛,同比增長約80%,幾乎達到2023年的兩倍。2025年剛開年,在1月第二周的銷量排行榜上,吉利銀河已在多...
01-21
1 月 26 日消息,1 月 23 日、24 日,哪吒汽車巴西首店和柬埔寨首店相繼開業。根據此前哪吒汽車透露的 2025 年出海戰略,計劃到 2025 年將海外市場的年度銷量實現翻倍增...
01-27
溫以凡桑延是什么小說?溫以凡為什么叫溫霜降?溫以凡和桑延是小說《難哄》中的主要角色。?這部小說由竹已創作,講述了溫以凡和桑延之間的愛情故事。溫以凡回到...
02-19
最近,由幾位優秀演員出演的電視劇《繼承者游戲》播出后,獲得了不錯的收視率和熱度。劇情和人物塑造都相當出色,值得一看。該劇上線時間為14:00,題材為男頻復仇...
02-21
  編者按:春節臨近,年味愈濃。紅彤彤的糖葫蘆,酸甜交織的滋味在舌尖綻放;家中盛放的年宵花,寄托著...
01-23
  女性天生擁有兩條X染色體,一條遺傳自母親,一條遺傳自父親。不過,為了確保基因表達的平衡,女性體...
01-27
返回

點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

點擊右上角QQ

點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕