三位臺灣AI專家發起DeepSeek R1改造計畫,要打造繁中版開源授權的推理模型
這項計畫將以DeepSeek R1為基礎來進行改造,透過重新訓練模型的方式,並以開源授權釋出模型權重,也就是採取開放權重的策略釋出,最後還會打造新的模型身份與品牌
文/王宏仁 | 2025-02-08發表
.
OpenAI去年發表了新一代推理模型o1之後,讓眾人看到GAI開始媲美真人博士或軟體開發高手般的解題能力,掀起了新一輪的大型語言模型競賽。春節期間,以開放權重釋出的DeepSeek R1模型,大幅降低了這一波推理模型競賽的門檻,成了全球AI產業的熱門焦點,開始浮現客製化推理模型的趨勢。
臺灣也有三位AI專家,在2月7日發起了一項臺灣製造大型語言模型計畫,專案代號「自由鋼普拉」(FreedomGunpla R1),希望募資3千萬元,預計在3月底釋出第一版預覽的推理模型。
這款引起全球AI圈熱議的DeepSeek R1模型,在論文中揭露了多項媲美甚至超越OpenAI o1推理模型的能力,因為可以部署到本地端,來避免企業自己的機敏資料上傳到網路,而引起AI圈的重視,不過,R1模型簡體版用戶協議中提到自己通過三項中國AI法規的備案,也讓外界擔心這款模型生成的內容偏重於對齊中國價值。
因此,臺灣有三位不同AI領域的專家,發起了這項重新改造DeepSeek R1,來打造對齊多元價值的繁體中文版推理模型計畫「自由鋼普拉」。這三位發起人,包括了AI PM助理新創MeetAndy AI創辦人薛良斌,Taiwan LLM開發者林彥廷以及雲端遊戲軟體開發供應商Ubitus的執行長郭榮昌。
薛良斌是台灣生成式AI年會主辦人,也是知名售票平臺KKTIX和MLOps新創InfuseAI的共同創辦人,由他來負責募集這項模型改造計畫的資源。
林彥廷則是具有中文大型語言模型訓練經驗的專家,他剛結束了在Meta的實習,參與了Meta訓練Llama模型的過程。林彥廷將負責FreedomGunpla R1的模型訓練工作。而最後一位郭榮昌則擁有大規模GPU叢集管理經驗,旗下公司曾獲得Nvidia破億元投資,也擁有亞洲最大的GPU農場。郭榮昌將負責算力架構和管理。
臺灣目前也有幾款繁中版大型語言模型,主要以Meta釋出的Llama模型為基礎來客製訓練,但薛良斌認為,Llama 3模型不夠聰明,甚至用以「太笨了」來形容,他指出,如果想要打造出自主能力的AI代理,使用媲美O1等級推理能力的模型是最低標準。
這項計畫的技術重點包括了,將以DeepSeek R1為基礎來進行改造,透過重新訓練模型的方式,並以開源授權釋出模型權重,也就是採取開放權重的策略釋出,最後還會打造新的模型身份與品牌。薛良斌強調,這不只是一個技術專案,更是一項文化工程,因為這是一項多元價值觀的對齊任務。
預計分三階段來實現目標,第一階段先對齊西方價值觀,可能導致模型推理能力下滑,薛良斌評估,很高機率達成這個里程碑。第二階段再進一步讓變笨的模型變得聰明,這部分則需要投入更多資源來驗證。這項計畫的終極目標是,不論使用者用繁體中文或是英文時,這款模型的表現可以比使用簡體中文更好。
這項計畫希望募資3千萬元,將由財團法人開放文化基金會(OCF)處理募資,專款專用,透過這筆資金,希望至少可以訓練兩次模型。在時程上,初步預計2025年3月底前釋出第一版預覽模型,開始搜集早期測試者的意見回饋後快速迭代,再釋出最終的版本。
.
熱門新聞
三位臺灣AI專家發起DeepSeek R1改造計畫,要打造繁中版開源授權的推理模型
2025-02-08
微軟悄悄移除舊PC升級Windows 11的說明
2025-02-05
Hugging Face逆向工程DeepSeek-R1,將打造開放推理模型Open-R1
2025-01-31
爆紅中國AI服務DeepSeek資料庫配置錯誤導致機密日誌外洩
2025-01-30
OpenAI具推理能力的模型o3-mini正式推出
2025-02-03
防範偽冒離線交易的新式詐騙手法,春節期間臺灣有商家暫停使用感應式行動支付
2025-02-05
行政院要求公務機關全面禁用DeepSeek AI服務
2025-02-03
駭客假借提供AI工具DeepSeek的名義,在PyPI散布惡意軟體,不到一小時就有逾200人上當
2025-02-04
DevOps專家看過來!投稿開放至2/27,立即行動分享技術實力!
CYBERSEC 2025 全面揭曉 2025- 2026 企業資安最新態勢
GenAI 加速企業創新落地,更需要全新 IT 戰略
「加入 Team Taiwan」 2025 臺灣雲端大會徵稿啟動!
Windows 10支援倒數,聯繫微軟夥伴諮詢
Advertisement
.
.
專題報導
導入NIST CSF資安認證,臺灣金融業首例出爐
剖析OpenAI的十二天 (下)
剖析OpenAI的十二天 (上)
2024國家級間諜攻擊來襲
企業AI資料傳輸技術2025面臨新變革
更多專題報導
電週文化事業版權所有、轉載必究 | Copyright © iThome刊登廣告訂閱週刊授權服務服務信箱隱私權聲明與會員使用條款資訊安全政策關於iThomeRSS 徵才