從語言模型到細胞模型:DeepMind C2S-Scale 生醫研究的分析與假說生成
- Muting Functional Medicine 
- 4天前
- 讀畢需時 6 分鐘
已更新:4天前

AI 進入細胞層級的時代
過去十年,單細胞轉錄組學(single-cell RNA sequencing, scRNA-seq)讓我們能從單一細胞層級觀察基因表現,但這種資料同時也帶來前所未有的挑戰:
- 一個樣本可能包含數萬個細胞,每個細胞記錄上萬個基因的表現量。 
- 傳統分析依賴降維(如 PCA、UMAP)與分群(clustering),結果往往受參數與資料噪音影響。 
- 對臨床醫師而言,這些結果仍過於抽象,不易轉化為臨床假說。 
2025 年,Google DeepMind 與 Yale University 合作提出了一項顛覆性的研究:C2S-Scale(Cell2Sentence-Scale)。這個模型嘗試讓人工智慧「讀懂細胞」,就像它能理解人類語言一樣。這不只是技術突破,更是生醫資料分析邁向「語言化」的里程碑。
什麼是 C2S-Scale?用最簡單的語言說明
C2S-Scale 的核心概念可以用一句話總結:
把每個細胞的基因表達轉成一句「細胞句子」,再用語言模型(LLM)去理解它。
這個看似簡單的轉換,實際上跨越了「數值資料」與「語意理解」之間的鴻溝。具體步驟如下:
- 資料轉換(Cell → Sentence)每個細胞中表現最強的若干基因,依強弱順序排列成文字序列。例如:MALAT1 TMSB4X B2M EEF1A1 …這串文字就是「細胞句子(cell sentence)」。 
- 語言模型輸入系統將這些句子餵入一個語言模型(類似 ChatGPT 的 Transformer 架構),讓模型學習細胞之間的語意關聯。 
- 模型輸出模型能回答各種任務: - 這是哪一種細胞? 
- 如果加入某藥物、抑制某基因,細胞狀態會怎麼變? 
- 這群細胞的整體功能如何? 
 
這種設計讓生物學問題變得「可對話」。我們不再只能畫 heatmap,而是能「問細胞問題」,再讓 AI 回答。
技術架構與資料規模
C2S-Scale 建構於 Google 的 Gemma-2 模型(屬於大型語言模型 LLM 系列),採 decoder-only 結構,與 ChatGPT 或 Gemini 屬於同一技術家族。根據 DeepMind 公開資訊:
- 參數規模:從 1 億 至 270 億 (27 B)不等。 
- 訓練資料:涵蓋 > 800 個公開 scRNA-seq 資料集、約 5,700 萬個細胞,主要來自人類與小鼠。 
- 訓練任務:同時包含細胞類型分類、基因干擾預測、藥物反應模擬及文本問答。 

研究團隊發現,模型表現與規模呈現明顯正相關,即語言模型在生物資料上同樣遵守「規模法則(Scaling Law)」──越大越聰明。這也意味著,生物學的複雜模式,其實可以被語言模型捕捉。
AI 在生醫研究的突破性應用
虛擬細胞模擬(Virtual Cells)
C2S-Scale 可根據基因表達的語意關聯,預測細胞在「受到處理」後的變化,例如:
加入藥物、敲除基因、改變氧氣濃度。這讓研究者能在實驗前,先用 AI 預測細胞會怎麼反應。
藥物組合與干擾預測
在一項展示性研究中,模型在腫瘤免疫的情境下,預測出一組此前未記錄的藥物組合:低劑量 interferon + CK2 抑制劑 silmitasertib(CX-4945),能顯著提升腫瘤細胞 MHC-I 抗原呈現。後續 in vitro 實驗證實,該組合可提升抗原呈現約 50 %。這說明模型並非僅「分析資料」,而是能「生成新假說」。
單細胞分類與組織來源預測
C2S-Scale 能準確識別細胞類型、預測組織來源,其效能接近傳統深度學習模型,但需要的資料標註更少。
自然語言問答
研究者可直接以英文或生物術語詢問:「這群細胞顯示出何種代謝狀態?」模型將回覆:「該細胞群呈現氧化磷酸化上升、糖解作用下調。」這種輸出形式對臨床醫師而言更直觀,也能與既有臨床報告結合。
對醫師與研究員的實際意義
對臨床醫師:
- 理解疾病亞型:在癌症或腎病變研究中,可用 AI 輔助辨識不同病程中細胞狀態的差異。 
- 藥物反應預測:未來若整合病人樣本,可預先模擬治療反應或副作用趨勢。 
- 臨床報告自動化:透過「細胞句子」與自然語言生成,可能協助形成更具解釋性的報告內容。 
對基礎研究員:
- 快速生成假說:從龐大資料中找出關聯,形成待驗證的分子假說。 
- 跨物種比對:同一模型可同時分析人與小鼠資料,找出保守路徑。 
- 與濕實驗(wet lab)整合:可先 in silico 模擬,再進行目標性實驗,提高研究效率。 
舉例而言,若研究特定分子在細胞抗氧化中的作用,您可以:
- 先在 scRNA-seq 資料中建立「特定處理前後」的 cell sentence。 
- 使用 C2S-Scale 預測未觀察過的細胞狀態。 
- 針對模型指出的基因群(例如 NRF2 上調、IL-6 下調)設計實驗驗證。 
潛在限制與科學審慎
儘管這項技術令人振奮,但從研究員視角仍有多項應注意的限制:
- 資訊壓縮問題把連續的表達值轉為排名(文字)勢必損失定量資訊。某些細微變化或低表達但關鍵的基因,可能被忽略。 
- 生物真實性不足模型主要基於公開資料集(多為理想化實驗),與實際臨床樣本差距仍大。 
- 可解釋性(Explainability)仍待改善雖然模型能「告訴你結果」,但「為什麼得出這結論」仍不透明。這在臨床應用上是關鍵問題。 
- 倫理與監管挑戰若未來將此類模型應用於臨床決策,必須建立透明的資料追蹤、演算法審查與責任界定。 
- 過度期待的風險科學界過去也曾出現 “AI 萬能” 的熱潮。真正的挑戰不是模型能否運作,而是能否「產出可重現的科學成果」。 
前瞻觀點:AI 將成為科學的共同作者
C2S-Scale 展現了一個新方向:AI 不只是工具,而是「共研究者」。它能閱讀基因表達的「語法」,產生新的科學假說。這讓研究流程從「人產生假說 → 實驗 → 驗證」進化為「AI 與人共同生成假說 → 人驗證 → AI 再學習」。未來若再結合多模態資料(影像、代謝體、臨床紀錄),這樣的模型可能成為「虛擬實驗室(Virtual Lab)」的核心,讓醫師與研究員在電腦前即可模擬疾病進程、測試治療策略。
不過,我們也應保持批判:AI 可以幫助我們「想得更快」,但仍需要人類科學家「想得正確」。
結語
C2S-Scale 的誕生,代表人工智慧開始能「理解生命語言」。從基因序列、轉錄表達、到細胞狀態,這一切都能轉化成語言模型可讀的文本。
對臨床醫師,它是潛在的決策輔助工具;對研究員,它是生成假說的加速引擎。
但在這場革命中,我們不能忽略最重要的一件事──任何模型都需要人類的審慎與驗證。只有當 AI 與科學家互為鏡像、互為限制,這項技術才能真正推動生醫研究進步。
人工智慧與生物學的融合,正從「資料分析」走向「語意理解」。
C2S-Scale 不只是分析工具,而是一座讓科學家與細胞對話的橋樑。
它提醒我們,未來的生醫研究不僅在實驗室,也在模型之間展開。
真正的關鍵,不是 AI 能做什麼,而是我們能用它問出更好的問題。
C2S-Scale 常見問題
C2S-Scale 到底是什麼?
C2S-Scale 是由 Google DeepMind 與 Yale University 開發的 單細胞語言模型框架。它將單細胞 RNA 定序(scRNA-seq)資料轉換成「細胞句子(cell sentences)」,讓 AI 能像閱讀文字一樣理解細胞,進而進行分類、干擾模擬、假說生成等分析任務。
為什麼這項技術被認為是突破?
這是首次證明大型語言模型(LLM)在生物學領域也遵循規模法則。模型規模與資料量越大,越能準確捕捉基因表達與細胞狀態之間的關聯。C2S-Scale 讓生物資料分析進入「語意化時代」,AI 不只能分析數據,也能提出新假說。
C2S-Scale 能直接用於臨床應用嗎?
目前仍屬於 研究階段(pre-clinical)。多數成果仍停留在體外(in vitro)或電腦模擬(in silico)層級,尚未通過臨床試驗驗證,因此現階段主要應用於研究與假說生成。
模型如何確保生物資料的可靠性?
研究團隊使用了超過 800 個公開資料集(約 5,000 萬細胞),涵蓋多種組織與物種。不過,由於各研究之間在測序平台與樣本條件上差異很大,資料偏差(data bias)與標註異質性 仍是主要挑戰。研究者在應用時應搭配實驗驗證以確保可靠性。
C2S-Scale 對研究員或臨床醫師有什麼實際幫助?
- 對研究員:可模擬藥物或基因干擾的細胞反應,加速假說生成。 
- 對臨床醫師:有助理解疾病亞型、細胞差異與治療反應。 
- 對生技研發:可作為「虛擬實驗室」核心技術,用於初步藥物或治療策略篩選。 
與 ChatGPT 或 Gemini 有什麼不同?
雖同屬大型語言模型(LLM),但訓練資料完全不同。ChatGPT 理解人類語言;C2S-Scale 理解的是「細胞語言」——以基因表達與生物學註解為核心語料。換言之,前者用於人類語意,後者用於生物系統語意。
參考資料
Google Research Blog – Teaching Machines the Language of Biology: Scaling Large Language Models for Next-Generation Single-Cell Analysis (2025)
van Dijk et al., Scaling Large Language Models for Next-Generation Single-Cell Analysis, bioRxiv (2025) [DOI: 10.1101/2025.04.14.648850]
Marktechpost (2025 Oct 17) – Google AI Releases C2S-Scale 27B Model That Translates Complex Single-Cell Data into Sentences
Google AI Blog (2025) – AI Generates Cancer Hypotheses Later Validated by Scientists
Hugging Face Model Page: vandijklab/C2S-Scale-Gemma-2-27B





