梁文鋒,一位既擁有理想主義精神、又敢于創(chuàng)新突破的企業(yè)家。他曾在量化投資領(lǐng)域累積了豐富實(shí)戰(zhàn)經(jīng)驗(yàn),如今卻全身心投入對(duì)人工智能大模型的深度探索,直指**通用人工智能(AGI)**的終極目標(biāo)。令人欽佩的是,他堅(jiān)信語言大模型是通往 AGI 的關(guān)鍵通道,因此專注于底層技術(shù)研究,并不急于推出應(yīng)用。
在技術(shù)研發(fā)理念上,梁文鋒深諳創(chuàng)新的高昂成本和漫長周期,卻依然保持堅(jiān)定的信念與遠(yuǎn)見。面對(duì)風(fēng)險(xiǎn)與不確定性,他不愿為了短期商業(yè)利益而偏離長期目標(biāo),這種**“長期主義”無疑可貴。人才策略方面,他主要招募對(duì) AI 充滿熱愛和好奇的年輕人,給他們最大化的自由空間與開放包容的工作環(huán)境,希望由此激發(fā)原生的探索精神。從商業(yè)視角來看,他強(qiáng)調(diào)普惠原則**,希望盡可能降低大模型的使用門檻,反對(duì)形成少數(shù)人的技術(shù)壟斷。此外,他也認(rèn)可開源對(duì)生態(tài)發(fā)展與人才匯聚的正向價(jià)值,認(rèn)為這種文化行為能帶動(dòng)更大范圍的技術(shù)共創(chuàng)。
雖然行業(yè)面臨高端芯片禁運(yùn)等不利因素,但他堅(jiān)持不融資,僅憑自身力量投入研究與開發(fā)。對(duì)于中國 AI 發(fā)展,他呼吁應(yīng)當(dāng)擺脫對(duì)歐美成果的單向模仿,在原創(chuàng)方面形成突破,積極參與到全球創(chuàng)新浪潮之中。隨著2024 年 12 月 16 日 DeepSeek R1 大模型的即將發(fā)布,梁文鋒不禁在朋友圈罕見地轉(zhuǎn)發(fā)文章并寫道:“3 年過去了,舊世界分崩離析,新時(shí)代正在光速到來。”
這句看似“豪氣干云”的評(píng)語,實(shí)則折射出他對(duì)當(dāng)前 AI 格局的深刻洞見,也顯示了他對(duì)于未來進(jìn)程的強(qiáng)大自信。
DeepSeek 創(chuàng)始人梁文鋒的 60 條思考
以下內(nèi)容,源于梁文鋒在訪談、交流與內(nèi)部研討中的觀點(diǎn)整理。它既是 DeepSeek 發(fā)展脈絡(luò)的注腳,也是在 AGI 賽道上如何思考與行動(dòng)的生動(dòng)展現(xiàn)。
1. 我們做大模型,其實(shí)和量化投資、金融沒有直接關(guān)聯(lián)。 我們真正追求的,是通用人工智能(AGI)的終極形態(tài)。
2. 語言大模型是抵達(dá) AGI 的必經(jīng)之路, 因?yàn)樗呀?jīng)初步展現(xiàn)出某些通用智能特征,所以我們從這里切入。
3. 我們不會(huì)急于設(shè)計(jì)基于模型的衍生應(yīng)用, 而是把全部精力放在基礎(chǔ)研究上。從長遠(yuǎn)看,隨著大模型技術(shù)門檻下降,無論何時(shí)入局,都能找到應(yīng)用機(jī)會(huì)。我們的志向非常明確——不做垂直領(lǐng)域或應(yīng)用,只做純粹的研究和探索。
4. 我對(duì)“人類智能的本質(zhì)就是語言”這一觀點(diǎn)深信不疑。 人的思維過程,本質(zhì)上就是一種語言編織。因此,基于語言大模型,未來極有可能出現(xiàn)“類人思考”的 AGI。
5. 單純地復(fù)刻已有論文或開源代碼,訓(xùn)練幾次或做個(gè)微調(diào)(finetune)就能得到一個(gè)基礎(chǔ)模型,成本并不高。 但如果真的要做前沿研究,需要大量算力和實(shí)驗(yàn)對(duì)比,也需要高水平科研人才參與,這樣成本就會(huì)大幅上升。
6. 我們更想讓每一個(gè)小 App 都能輕松用上大模型, 而非只掌握在少數(shù)企業(yè)之手。大廠的模型也許會(huì)與自家生態(tài)綁定,但我們的模式更加開放與自由。
7. 從商業(yè)投資角度看,基礎(chǔ)研究的投入回報(bào)比并不高, 但既然我們有能力做,而且認(rèn)為這是當(dāng)下最合適的事情,就不會(huì)躊躇。
8. 從 1 張卡到 100 張卡,再到 1000 張卡,直至一萬張卡的過程, 外界可能會(huì)揣測其中有什么神秘的商業(yè)邏輯,但其實(shí)主要是好奇心在驅(qū)動(dòng)——我們想知道 AI 的極限在哪。
9. 對(duì)于行內(nèi)人而言,ChatGPT 所引領(lǐng)的新一輪浪潮并不突兀, 因?yàn)樵缭?2012 年,AlexNet 就已經(jīng)帶來過一波重大沖擊。其顯著降低的錯(cuò)誤率讓深度神經(jīng)網(wǎng)絡(luò)重新回到中心舞臺(tái)。雖然具體研究方向不斷演變,但“模型 數(shù)據(jù) 算力”始終是核心組合。到了 2020 年 OpenAI 發(fā)布 GPT-3 時(shí),所有人都意識(shí)到大模型的走向非常清晰,需要大量算力做支撐。于是我們也開始盡可能多地部署計(jì)算資源。
10. 有些事情的價(jià)值,無法單純用金錢權(quán)衡。 就像家里買鋼琴,一方面負(fù)擔(dān)得起,另一方面還有一批“演奏者”對(duì)它充滿激情。
11. 人力成本是面向未來的投資,也是公司最寶貴的資產(chǎn)。 我們希望招到對(duì) AI 保持極高好奇心的人,他們能在這里沉心研究,而不是盲目跟隨市場應(yīng)用需求。
12. 招人時(shí),我們更關(guān)注“基礎(chǔ)能力”而非“經(jīng)驗(yàn)”。 如果只盯短期產(chǎn)出,經(jīng)驗(yàn)豐富的人可能確實(shí)更實(shí)用;但若著眼于長線布局,創(chuàng)造力和熱愛才是關(guān)鍵。
13. 我們的核心技術(shù)團(tuán)隊(duì),絕大多數(shù)都是應(yīng)屆或剛畢業(yè)一兩年的人。 他們沒有固化思維,會(huì)反復(fù)思考“怎么做才更適合現(xiàn)在”,而不是憑過去經(jīng)驗(yàn)直接給出一個(gè)答案。
14. 我們選擇的人必須對(duì) AI 充滿熱愛, 因?yàn)闊釔蹠?huì)讓他們主動(dòng)找到我們,表達(dá)想一起做事的意愿。
15. 在 DeepSeek,沒有傳統(tǒng)意義上的 KPI 或任務(wù)指標(biāo)。
16. 創(chuàng)新需要減少干預(yù),給每個(gè)人足夠的施展空間和試錯(cuò)機(jī)會(huì)。 真正的原創(chuàng)突破多來自于自發(fā)性,而不是領(lǐng)導(dǎo)層“教”出來的。我們會(huì)賦予員工充分信任,把重要的事情交給他們自行決策。
17. 我們的企業(yè)文化不落成文字, 因?yàn)槿魏螌戇M(jìn)條文的東西,都可能在無形中限制創(chuàng)造力。更多時(shí)候,是依靠管理者用行動(dòng)來示范,通過具體案例建立共識(shí)。
18. 用教科書式商業(yè)邏輯去衡量當(dāng)下的創(chuàng)業(yè)公司,可能很難得出正確結(jié)論。 市場是動(dòng)態(tài)的,真正起決定作用的往往是企業(yè)對(duì)變動(dòng)的快速適應(yīng)能力,而大公司由于組織結(jié)構(gòu)龐大,常常受已有經(jīng)驗(yàn)和慣性的束縛,這為新公司帶來逆襲的機(jī)會(huì)。
19. 我們真正興奮的是驗(yàn)證自己的猜想是否正確。 如果結(jié)果證明確實(shí)可行,那就是最大的動(dòng)力。
20. 對(duì) AGI 的信仰者,會(huì)在浪潮爆發(fā)前就準(zhǔn)備好,并在浪潮過后仍然堅(jiān)守。 他們通常會(huì)囤積大量算力,或者與云廠商簽下長協(xié),而不會(huì)只是短期租用資源。
21. 創(chuàng)新往往低效而昂貴,過程中還存在大量“浪費(fèi)”。 只有經(jīng)濟(jì)發(fā)展到一定階段,才能支撐起這種大規(guī)模實(shí)驗(yàn)式創(chuàng)新。OpenAI 之所以能成功,也離不開巨額資金的長期投入。
22. 有些動(dòng)力很難用理性邏輯去解釋, 就好比程序員在工作結(jié)束后還要為開源社區(qū)無償貢獻(xiàn)代碼,類似長途跋涉后依舊樂此不疲。
23. 并不是所有人都能瘋狂一輩子, 但大多數(shù)人在年輕時(shí)期,都可能為了熱愛而不計(jì)回報(bào)地投入。
24. 我們的模型服務(wù)降價(jià),主要跟隨自身節(jié)奏,基于成本核算定價(jià)。 原則是不虧本,也不謀取暴利。
25. 搶占用戶并非我們第一目標(biāo)。 我們之所以降價(jià),是因?yàn)樵谔剿飨乱淮P徒Y(jié)構(gòu)的過程中,成本有所下降;同時(shí)也希望讓更多人用得起大模型,讓 AI API 成為真正普惠的服務(wù)。
26. 如果以應(yīng)用為導(dǎo)向,那么“沿用 Llama 結(jié)構(gòu)、快速上產(chǎn)品”也沒問題。 但我們針對(duì)的是 AGI,需要持續(xù)深入研究新結(jié)構(gòu),以便在有限資源下獲得更強(qiáng)模型能力。包括數(shù)據(jù)構(gòu)造、人類思維方式模擬等,我們都進(jìn)行了大量前沿探索,并在發(fā)布的模型中做了體現(xiàn)。
27. 最重要的是參與全球創(chuàng)新進(jìn)程。 長期以來,中國更多是在應(yīng)用端快速變現(xiàn),但這一波大模型熱潮,為我們提供了切入前沿技術(shù)的窗口。我們希望借此推動(dòng)整個(gè) AI 生態(tài)的成長,而不是單純“趁機(jī)賺錢”。
28. 隨著經(jīng)濟(jì)實(shí)力增長,中國需要從搭便車者轉(zhuǎn)變?yōu)樨暙I(xiàn)者。 過去幾十年里,我們幾乎沒真正參與到核心 IT 技術(shù)的創(chuàng)新過程,只是“等技術(shù)成熟”后進(jìn)行商業(yè)化。但對(duì) AI 而言,光靠跟隨已不足以支撐未來,我們必須深入一線做創(chuàng)新。
29. 大多數(shù)中國公司更擅長“跟隨”而不是“原創(chuàng)”, 這是我們必須去改變的現(xiàn)實(shí)。
30. 創(chuàng)新的成本一向不低。 我們之所以常年采用“拿來主義”,與早期國情以及資源稟賦有關(guān)。但當(dāng)下的經(jīng)濟(jì)體量和互聯(lián)網(wǎng)巨頭利潤規(guī)模,都足以支撐真正意義上的原創(chuàng)研發(fā),我們?nèi)钡氖墙M織高密度人才并給他們足夠空間。
31. 過去三十年我們只強(qiáng)調(diào)“掙錢”,對(duì)“創(chuàng)新”關(guān)注不足, 但隨著經(jīng)濟(jì)轉(zhuǎn)型,我們必須讓好奇心與創(chuàng)造力在商業(yè)之外也能被鼓勵(lì)和實(shí)現(xiàn)。
32. 在顛覆性技術(shù)的面前,閉源壁壘往往難以長久。 即便 OpenAI 閉源,也無法阻止后來者追趕。DeepSeek 的護(hù)城河并不在“封閉”,而在于團(tuán)隊(duì)在不斷成長的過程中積累到的 know-how 與文化。
33. 選擇開源、發(fā)表論文其實(shí)并不會(huì)損失太多, 對(duì)技術(shù)人員來說,看到自己的工作被同行使用,是一種極大成就感。開源也帶有額外的文化吸引力。
34. 美國最賺錢的一批企業(yè),正是那些對(duì)硬核科技抱有極高耐心和投入的公司。
35. 中美 AI 差距最核心的部分在于“原創(chuàng)”與“模仿”。 如果我們無法打破模仿的依賴,就會(huì)永遠(yuǎn)只充當(dāng)追隨者。所以有些高成本、高風(fēng)險(xiǎn)探索并不是可選項(xiàng),而是必經(jīng)之路。
36. 英偉達(dá)的崛起,是整個(gè)西方技術(shù)社區(qū)協(xié)同努力的結(jié)果, 他們能夠持續(xù)不斷預(yù)判下一代技術(shù),并在產(chǎn)業(yè)鏈上緊密聯(lián)動(dòng)。中國想要在 AI 領(lǐng)域取得同樣成就,也需要形成自己的協(xié)同生態(tài)體系。
37. 我們不會(huì)閉源, 因?yàn)闃?gòu)建強(qiáng)大的技術(shù)生態(tài)比封閉自守更為重要。
38. 短期內(nèi)我們也不考慮融資, 目前最大的瓶頸并非資金,而是高端芯片遭遇禁運(yùn)。
39. 投入資金并不一定等同于創(chuàng)造力, 否則大廠就能將所有創(chuàng)新盡數(shù)包攬。
40. 我們認(rèn)為當(dāng)下正處于技術(shù)創(chuàng)新的爆發(fā)期,而非應(yīng)用大規(guī)模落地的爆發(fā)期。 長期來看,我們希望能形成一個(gè)生態(tài):社會(huì)各界都能基于我們的基礎(chǔ)模型做二次開發(fā),而我們專注于前沿研究。
41. 如果商業(yè)上有需求,我們也能涉足應(yīng)用, 但技術(shù)突破和創(chuàng)新始終擺在第一位。
42. 技術(shù)沒有絕對(duì)秘密,但重現(xiàn)和追趕需要大量時(shí)間與資源。 英偉達(dá)的顯卡從原理上而言并無不可復(fù)制之處,但他們?cè)诙啻a(chǎn)品迭代中積累的團(tuán)隊(duì)、經(jīng)驗(yàn)和專利,構(gòu)成了極深的護(hù)城河。
43. 我們提供云服務(wù)并非核心目標(biāo), 真正的終點(diǎn)還是 AGI。
44. 大廠雖有龐大的用戶基礎(chǔ),卻常受制于既有業(yè)務(wù)體系。 就像船體越大越難轉(zhuǎn)向,一旦技術(shù)革新到來,包袱也就隨之加重。
45. 也許未來能活下來的大模型創(chuàng)業(yè)公司只有兩三家, 現(xiàn)在還是普遍“燒錢”狀態(tài),但那些對(duì)自身定位清晰、能精細(xì)化管理成本的團(tuán)隊(duì),更有機(jī)會(huì)堅(jiān)持到最后。
46. 我經(jīng)常思考的是,某項(xiàng)技術(shù)能否提升社會(huì)整體運(yùn)行效率, 以及我們能否在產(chǎn)業(yè)分工鏈上找到適合的位置。只要大趨勢(shì)是讓社會(huì)更高效,這條路就有價(jià)值。
47. 我們最新發(fā)布的 V2 模型,完全由本土人才打造, 并沒有海外回歸的核心成員。雖然頂尖人才前 50 名或許還在國外,但我們正在努力培養(yǎng)本地的頂尖隊(duì)伍。
48. DeepSeek 內(nèi)部多數(shù)是自下而上的創(chuàng)新管理模式, 并不預(yù)先規(guī)定好每個(gè)人的分工。只要一個(gè)想法有潛力,團(tuán)隊(duì)自然會(huì)協(xié)作投入。
49. 我們每個(gè)人對(duì)算力和人員調(diào)度沒有上限限制, 只要有人想做新實(shí)驗(yàn),隨時(shí)可以調(diào)用訓(xùn)練集群的顯卡,也可自由邀請(qǐng)同事參與,前提是對(duì)方也感興趣。
50. 我們選人的首要標(biāo)準(zhǔn)永遠(yuǎn)是熱愛與好奇心。 只有這樣,大家才會(huì)不計(jì)報(bào)酬去鉆研,擁有強(qiáng)烈的研究渴望。
51. 創(chuàng)新首先是一種“相信自己能行”的態(tài)度。 當(dāng) ChatGPT 問世后,國內(nèi)不少人感慨差距巨大,轉(zhuǎn)而專注應(yīng)用,但創(chuàng)新需要冒險(xiǎn)精神,而年輕人往往更有這份自信。
52. 我們?cè)谧鲂袠I(yè)里最有難度的事情,這恰恰能吸引真正的頂尖人才。 國內(nèi)不乏優(yōu)秀研究者,只是很多時(shí)候缺少被識(shí)別或被施展的機(jī)會(huì)。
53. OpenAI 也并非高高在上的“神”, 無法保證一直引領(lǐng)最前沿。
54. AGI 的實(shí)現(xiàn)期限可能是 2 年、5 年或 10 年, 但一定會(huì)在我們有生之年到來。公司內(nèi)部也沒有統(tǒng)一的路線圖,但我們?cè)跀?shù)學(xué)、代碼、多模態(tài)和自然語言等方向多點(diǎn)布局,保持對(duì)各種可能性的開放態(tài)度。
55. 未來將出現(xiàn)專門提供基礎(chǔ)模型和基礎(chǔ)算力的公司, 同時(shí)會(huì)有許多上下游伙伴在其之上衍生出多樣化產(chǎn)品和服務(wù)。
56. 我個(gè)人主要精力放在研發(fā)下一代大模型, 還有許多待解難題。
57. 所有曾經(jīng)的商業(yè)模式,都是屬于上一代的經(jīng)驗(yàn)。 拿互聯(lián)網(wǎng)的路子去思考 AI 的盈利邏輯,可能就是刻舟求劍。
58. 外界關(guān)注到的是幻方量化 2015 年之后的部分, 但我們積累已經(jīng)有十多年了。
59. 中國產(chǎn)業(yè)結(jié)構(gòu)的轉(zhuǎn)型,越來越依賴硬核技術(shù)突破。 當(dāng)社會(huì)意識(shí)到之前的“快錢”多半來自時(shí)代紅利,就會(huì)更加愿意投入真正的技術(shù)創(chuàng)新。
60. 未來將有更多“硬核創(chuàng)新”出現(xiàn),現(xiàn)在之所以缺乏共鳴, 是因?yàn)樯形从凶銐蚨嗟某晒Π咐秊槠湔?。只有?dāng)那些潛心研究的人最終收獲成功,社會(huì)整體認(rèn)知才會(huì)隨之轉(zhuǎn)變。
梁文鋒也曾為“量化之王”詹姆斯·西蒙斯(James Simons)的傳記《征服市場的人:西蒙斯傳》撰寫序言。在那篇序言的最后,他引用了西蒙斯的一句話:
“每當(dāng)在工作中遇到困難的時(shí)候,我會(huì)想起西蒙斯的話:‘一定有辦法對(duì)價(jià)格建模?!?/span>
這句話在一定程度上,映射了梁文鋒對(duì)于**“創(chuàng)造、理解市場和模型”**的堅(jiān)定信念。
詹姆斯·西蒙斯是量化投資領(lǐng)域的不朽傳奇,他所開創(chuàng)的文藝復(fù)興科技公司長久以來都蒙著一層神秘面紗,但這并不妨礙一代又一代年輕人被他的故事所激勵(lì),紛紛投身量化行業(yè)。和所有顛覆式創(chuàng)新一樣,量化投資在萌芽時(shí)也曾被廣泛質(zhì)疑:“計(jì)算機(jī)怎么可能像人類那樣投資?” 可是西蒙斯卻預(yù)感到,隨著計(jì)算機(jī)軟硬件的演進(jìn),“不可能”總有一天會(huì)變?yōu)楝F(xiàn)實(shí)。
在量化投資的早年探索中,西蒙斯幾經(jīng)失敗,卻沒有放棄,篤信時(shí)間會(huì)站在他這邊。直到 20 世紀(jì) 80 年代末,計(jì)算機(jī)技術(shù)抵達(dá)一個(gè)臨界點(diǎn),實(shí)用模型的初步成功讓西蒙斯抓住了關(guān)鍵機(jī)遇。1988 年,他創(chuàng)建大獎(jiǎng)?wù)禄穑杲?50 的西蒙斯終于迎來轉(zhuǎn)折。從此之后,華爾街許多量化巨頭也陸續(xù)崛起,并且大都可以追溯到那一時(shí)期。
而在隨后的三十余年間,計(jì)算機(jī)技術(shù)持續(xù)演進(jìn),量化投資發(fā)展成為資本市場的寵兒。越來越多的“不可能”被技術(shù)擊破,也讓量化投資逐步成為 21 世紀(jì)金融領(lǐng)域的一大趨勢(shì)。文藝復(fù)興科技公司則借此勢(shì)能,始終站在行業(yè)前列。
值得一提的是,這三十余年也是金融監(jiān)管朝著更嚴(yán)格、更透明的方向進(jìn)化的階段。昔日基金經(jīng)理依靠“內(nèi)幕消息”獲得交易優(yōu)勢(shì)的方式,已難以為繼。在信息時(shí)代,隨著規(guī)則的完善和數(shù)據(jù)的開放,量化投資與傳統(tǒng)投資幾乎站在同一起跑線上,也因此催生了量化的爆發(fā)。
當(dāng)我們回看西蒙斯與文藝復(fù)興科技公司時(shí),會(huì)發(fā)現(xiàn)他們之所以能持續(xù)輝煌數(shù)十年,離不開執(zhí)著的科研精神和對(duì)團(tuán)隊(duì)組織的高度重視。更重要的是,西蒙斯所身處的時(shí)代,技術(shù)和市場環(huán)境都為量化鋪平了道路。本書中文版的出版,或許可以為國內(nèi)更多研究者和從業(yè)者帶來啟示:怎么在變動(dòng)的時(shí)代中把握難得的機(jī)遇?如何管理一個(gè)始終站在潮頭的團(tuán)隊(duì)?又怎樣看待科技對(duì)金融市場的深遠(yuǎn)影響?
梁文鋒自稱“后輩”,能為西蒙斯的中文傳記作序,感覺十分榮幸:“每當(dāng)我在工作中遭遇瓶頸時(shí),都會(huì)想起西蒙斯那句‘一定有辦法對(duì)價(jià)格建模。’” 這既是一種技術(shù)自信,也是一種持續(xù)創(chuàng)新的動(dòng)力??v觀量化投資乃至當(dāng)今大模型的興起,不斷挑戰(zhàn)“不可能”的過程,也是人類一次次突破認(rèn)知邊界的旅程。