從語言模型到細胞模型：DeepMind C2S-Scale 生醫研究的分析與假說生成

Muting Functional Medicine
4天前
讀畢需時 6 分鐘

已更新：4天前

AI 進入細胞層級的時代

過去十年，單細胞轉錄組學（single-cell RNA sequencing, scRNA-seq）讓我們能從單一細胞層級觀察基因表現，但這種資料同時也帶來前所未有的挑戰：

一個樣本可能包含數萬個細胞，每個細胞記錄上萬個基因的表現量。
傳統分析依賴降維（如 PCA、UMAP）與分群（clustering），結果往往受參數與資料噪音影響。
對臨床醫師而言，這些結果仍過於抽象，不易轉化為臨床假說。

2025 年，Google DeepMind 與 Yale University 合作提出了一項顛覆性的研究：C2S-Scale（Cell2Sentence-Scale）。這個模型嘗試讓人工智慧「讀懂細胞」，就像它能理解人類語言一樣。這不只是技術突破，更是生醫資料分析邁向「語言化」的里程碑。

什麼是 C2S-Scale？用最簡單的語言說明

C2S-Scale 的核心概念可以用一句話總結：

把每個細胞的基因表達轉成一句「細胞句子」，再用語言模型（LLM）去理解它。

這個看似簡單的轉換，實際上跨越了「數值資料」與「語意理解」之間的鴻溝。具體步驟如下：

資料轉換（Cell → Sentence）每個細胞中表現最強的若干基因，依強弱順序排列成文字序列。例如：MALAT1 TMSB4X B2M EEF1A1 …這串文字就是「細胞句子（cell sentence）」。
語言模型輸入系統將這些句子餵入一個語言模型（類似 ChatGPT 的 Transformer 架構），讓模型學習細胞之間的語意關聯。
模型輸出模型能回答各種任務：
- 這是哪一種細胞？
- 如果加入某藥物、抑制某基因，細胞狀態會怎麼變？
- 這群細胞的整體功能如何？

這種設計讓生物學問題變得「可對話」。我們不再只能畫 heatmap，而是能「問細胞問題」，再讓 AI 回答。

技術架構與資料規模

C2S-Scale 建構於 Google 的 Gemma-2 模型（屬於大型語言模型 LLM 系列），採 decoder-only 結構，與 ChatGPT 或 Gemini 屬於同一技術家族。根據 DeepMind 公開資訊：

參數規模：從 1 億至 270 億（27 B）不等。
訓練資料：涵蓋 > 800 個公開 scRNA-seq 資料集、約 5,700 萬個細胞，主要來自人類與小鼠。
訓練任務：同時包含細胞類型分類、基因干擾預測、藥物反應模擬及文本問答。

研究團隊發現，模型表現與規模呈現明顯正相關，即語言模型在生物資料上同樣遵守「規模法則（Scaling Law）」──越大越聰明。這也意味著，生物學的複雜模式，其實可以被語言模型捕捉。

AI 在生醫研究的突破性應用

虛擬細胞模擬（Virtual Cells）

C2S-Scale 可根據基因表達的語意關聯，預測細胞在「受到處理」後的變化，例如：

加入藥物、敲除基因、改變氧氣濃度。這讓研究者能在實驗前，先用 AI 預測細胞會怎麼反應。

藥物組合與干擾預測

在一項展示性研究中，模型在腫瘤免疫的情境下，預測出一組此前未記錄的藥物組合：低劑量 interferon ＋ CK2 抑制劑 silmitasertib（CX-4945），能顯著提升腫瘤細胞 MHC-I 抗原呈現。後續 in vitro 實驗證實，該組合可提升抗原呈現約 50 %。這說明模型並非僅「分析資料」，而是能「生成新假說」。

單細胞分類與組織來源預測

C2S-Scale 能準確識別細胞類型、預測組織來源，其效能接近傳統深度學習模型，但需要的資料標註更少。

自然語言問答

研究者可直接以英文或生物術語詢問：「這群細胞顯示出何種代謝狀態？」模型將回覆：「該細胞群呈現氧化磷酸化上升、糖解作用下調。」這種輸出形式對臨床醫師而言更直觀，也能與既有臨床報告結合。

對醫師與研究員的實際意義

對臨床醫師：

理解疾病亞型：在癌症或腎病變研究中，可用 AI 輔助辨識不同病程中細胞狀態的差異。
藥物反應預測：未來若整合病人樣本，可預先模擬治療反應或副作用趨勢。
臨床報告自動化：透過「細胞句子」與自然語言生成，可能協助形成更具解釋性的報告內容。

對基礎研究員：

快速生成假說：從龐大資料中找出關聯，形成待驗證的分子假說。
跨物種比對：同一模型可同時分析人與小鼠資料，找出保守路徑。
與濕實驗（wet lab）整合：可先 in silico 模擬，再進行目標性實驗，提高研究效率。

舉例而言，若研究特定分子在細胞抗氧化中的作用，您可以：

先在 scRNA-seq 資料中建立「特定處理前後」的 cell sentence。
使用 C2S-Scale 預測未觀察過的細胞狀態。
針對模型指出的基因群（例如 NRF2 上調、IL-6 下調）設計實驗驗證。

潛在限制與科學審慎

儘管這項技術令人振奮，但從研究員視角仍有多項應注意的限制：

資訊壓縮問題把連續的表達值轉為排名（文字）勢必損失定量資訊。某些細微變化或低表達但關鍵的基因，可能被忽略。
生物真實性不足模型主要基於公開資料集（多為理想化實驗），與實際臨床樣本差距仍大。
可解釋性（Explainability）仍待改善雖然模型能「告訴你結果」，但「為什麼得出這結論」仍不透明。這在臨床應用上是關鍵問題。
倫理與監管挑戰若未來將此類模型應用於臨床決策，必須建立透明的資料追蹤、演算法審查與責任界定。
過度期待的風險科學界過去也曾出現 “AI 萬能” 的熱潮。真正的挑戰不是模型能否運作，而是能否「產出可重現的科學成果」。

前瞻觀點：AI 將成為科學的共同作者

C2S-Scale 展現了一個新方向：AI 不只是工具，而是「共研究者」。它能閱讀基因表達的「語法」，產生新的科學假說。這讓研究流程從「人產生假說 → 實驗 → 驗證」進化為「AI 與人共同生成假說 → 人驗證 → AI 再學習」。未來若再結合多模態資料（影像、代謝體、臨床紀錄），這樣的模型可能成為「虛擬實驗室（Virtual Lab）」的核心，讓醫師與研究員在電腦前即可模擬疾病進程、測試治療策略。

不過，我們也應保持批判：AI 可以幫助我們「想得更快」，但仍需要人類科學家「想得正確」。

結語

C2S-Scale 的誕生，代表人工智慧開始能「理解生命語言」。從基因序列、轉錄表達、到細胞狀態，這一切都能轉化成語言模型可讀的文本。

對臨床醫師，它是潛在的決策輔助工具；對研究員，它是生成假說的加速引擎。

但在這場革命中，我們不能忽略最重要的一件事──任何模型都需要人類的審慎與驗證。只有當 AI 與科學家互為鏡像、互為限制，這項技術才能真正推動生醫研究進步。

人工智慧與生物學的融合，正從「資料分析」走向「語意理解」。

C2S-Scale 不只是分析工具，而是一座讓科學家與細胞對話的橋樑。

它提醒我們，未來的生醫研究不僅在實驗室，也在模型之間展開。

真正的關鍵，不是 AI 能做什麼，而是我們能用它問出更好的問題。

#AI #癌症

C2S-Scale 常見問題

C2S-Scale 到底是什麼？

C2S-Scale 是由 Google DeepMind 與 Yale University 開發的 單細胞語言模型框架。它將單細胞 RNA 定序（scRNA-seq）資料轉換成「細胞句子（cell sentences）」，讓 AI 能像閱讀文字一樣理解細胞，進而進行分類、干擾模擬、假說生成等分析任務。

為什麼這項技術被認為是突破？

這是首次證明大型語言模型（LLM）在生物學領域也遵循規模法則。模型規模與資料量越大，越能準確捕捉基因表達與細胞狀態之間的關聯。C2S-Scale 讓生物資料分析進入「語意化時代」，AI 不只能分析數據，也能提出新假說。

C2S-Scale 能直接用於臨床應用嗎？

目前仍屬於 研究階段（pre-clinical）。多數成果仍停留在體外（in vitro）或電腦模擬（in silico）層級，尚未通過臨床試驗驗證，因此現階段主要應用於研究與假說生成。

模型如何確保生物資料的可靠性？

研究團隊使用了超過 800 個公開資料集（約 5,000 萬細胞），涵蓋多種組織與物種。不過，由於各研究之間在測序平台與樣本條件上差異很大，資料偏差（data bias）與標註異質性 仍是主要挑戰。研究者在應用時應搭配實驗驗證以確保可靠性。

C2S-Scale 對研究員或臨床醫師有什麼實際幫助？

對研究員：可模擬藥物或基因干擾的細胞反應，加速假說生成。
對臨床醫師：有助理解疾病亞型、細胞差異與治療反應。
對生技研發：可作為「虛擬實驗室」核心技術，用於初步藥物或治療策略篩選。

與 ChatGPT 或 Gemini 有什麼不同？

雖同屬大型語言模型（LLM），但訓練資料完全不同。ChatGPT 理解人類語言；C2S-Scale 理解的是「細胞語言」——以基因表達與生物學註解為核心語料。換言之，前者用於人類語意，後者用於生物系統語意。

參考資料

Google Research Blog – Teaching Machines the Language of Biology: Scaling Large Language Models for Next-Generation Single-Cell Analysis (2025)

van Dijk et al., Scaling Large Language Models for Next-Generation Single-Cell Analysis, bioRxiv (2025) [DOI: 10.1101/2025.04.14.648850]

Marktechpost (2025 Oct 17) – Google AI Releases C2S-Scale 27B Model That Translates Complex Single-Cell Data into Sentences

Google AI Blog (2025) – AI Generates Cancer Hypotheses Later Validated by Scientists

Hugging Face Model Page: vandijklab/C2S-Scale-Gemma-2-27B