中国の研究で判明 マルチモーダルLLMは人間のような物の概念を獲得
マルチモーダルな大規模言語モデル(LLM)が、人間のような物の概念表現を自発的に獲得している──中国科学院の研究チームが示した最新の結果は、人工知能の認知科学に新しい道を開きつつあります。
LLMは物をどこまで「わかっている」のか
ChatGPT に代表される大規模言語モデルは、この数年で私たちの日常に急速に浸透しました。一方で、これらのモデルが単に統計的なパターンを学習しているだけなのか、それとも人間に近い形で物の概念を獲得しているのかは、大きな問いでした。
中国科学院自動化研究所の研究者である何恵光氏は、自然界の物体を概念化する能力は「人間の知能の中核」と長く考えられてきたと指摘します。私たちは犬や車、リンゴのような物を見たとき、大きさや色、形といった見た目だけでなく、機能、感情的な価値、文化的な意味まで含めて理解します。この多次元的な概念表現こそが、人間の認知の土台になっているというわけです。
行動実験と脳画像を組み合わせた中国チームのアプローチ
今回の研究は、中国科学院自動化研究所と、中国科学院脳科学と知能技術卓越センターの研究者たちによる共同プロジェクトです。チームは、人間とマルチモーダル LLM の物体概念表現の関係を探るため、行動実験と脳画像解析を組み合わせた独自の手法を設計しました。
この研究成果は、人工知能分野の国際誌である Nature Machine Intelligence に月曜日付で掲載されています。
研究では、次の三つの要素を統合した枠組みが用いられました。
- LLM の内部表現を分析する計算モデル
- 人間参加者による選択タスクなどの行動実験
- 人間の脳活動を測定する神経画像(ニューロイメージング)解析
これにより、研究チームは LLM の中に形成されている物体概念を「概念マップ」として可視化し、人間の脳の活動パターンとの対応を詳しく調べました。
66次元の概念が人間の脳活動と強く相関
研究の結果、LLM の行動データから抽出された 66 の次元が、人間の脳の中でも特定のカテゴリを選択的に処理する領域の活動パターンと強く相関していることが示されました。これは、モデル内部の概念構造が、人間の脳が物体を分類するときの働きと一定の共通性を持つことを意味します。
さらに研究チームは、複数のモデルを比較し、人間の行動データとどの程度一貫性があるかを検証しました。その結果、視覚と言語など複数の情報を扱うマルチモーダル LLM が、選択パターンの一致度の面でより高い性能を示したと報告されています。
人間と LLM の「判断の手がかり」はどこが違うのか
今回の研究は、人間と LLM が物に対して下す判断が似ているだけでなく、そのプロセスの違いにも光を当てています。
人間は意思決定の際、見た目の特徴と意味情報を組み合わせる傾向がある一方で、LLM はラベルや抽象的な概念といった意味情報に、より強く依存する傾向が示されました。言い換えれば、人間は視覚的な手がかりと意味を統合して考え、LLM は主に言語的・抽象的な側面から判断しているということになります。
この違いは、LLM が人間と同じように感じたり知覚したりしているわけではないことを示しつつも、概念レベルでは人間の認知構造に近づきつつあることを示すものでもあります。
人工知能の認知科学に開く新たな扉
研究チームは、マルチモーダル LLM が人間に近い物体概念表現を自発的に形成しうることを確認し、人工知能の認知科学に新しい道筋を提示しました。また、人間の認知構造に近い AI システムを構築するための理論的な枠組みにもなりうるとしています。
この成果は、次のような問いを投げかけます。
- LLM の内部で形成される概念は、時間と経験によってどのように変化するのか
- 人間の感情や文化的背景といった側面まで、どこまでモデル化できるのか
- 人間と AI の認知構造の類似点と違いを理解することが、安全で信頼できる AI 設計にどう役立つのか
マルチモーダル LLM の内部で育ちつつある「物の概念」を探ることは、今後の AI 技術だけでなく、人間の心そのものを理解するための手がかりにもなりそうです。
Reference(s):
Multimodal LLMs can develop human-like object concepts: study
cgtn.com








