AI時代に言語をどう守るか ハンガリーが挑む母語と文化の保護 video poster
上海で開幕していた世界人工知能会議(World Artificial Intelligence Conference)がきょう閉幕し、ハンガリーの研究者が、AI時代に自国の言語と文化をどう守るかという問いを投げかけました。
AIの海に浮かぶ「言語の島」ハンガリー語
ハンガリー言語学研究センターの上級研究員タマシュ・ヴァーラディ氏は、会議の場で自国の状況をこう説明しました。ハンガリーは人口約1,000万人の小さな国で、ハンガリー語はインド・ヨーロッパ語族に属さない独自の言語です。そのため、英語やフランス語のような巨大市場の言語と比べると、世界の大手AI開発企業にとってはニッチな存在になりがちだといいます。
ヴァーラディ氏は、ハンガリー語を「AIの海に浮かぶ言語の島」に例えました。ユーザー数が限られる言語は、商業的な観点からは優先度が下がりやすく、最新のAI技術の恩恵を十分に受けられないリスクを抱えています。
ハンガリー独自モデルの強みは「データの質」
研究パラダイムをAI向けに転換
こうした課題に対処するため、ハンガリー言語学研究センターは2020年代に入り、ニューラルネットワークや深層学習を活用したAI研究へと大きく舵を切りました。人手で整理した言語データをもとに、大規模言語モデル(LLM)を自前で開発しているのが特徴です。
ヴァーラディ氏によれば、同センターは現在、ハンガリー語としては世界最大級の「整理され、きれいにクリーニングされ、重複を除去した」学習用コーパス(言語データ集)を保有しているといいます。
ChatGPT以前に生まれていたハンガリー語モデル
センターが最初のハンガリー語ネイティブモデルを完成させたのは、ChatGPTが世界的に話題になるわずか2週間前でした。開発当初は、自信もあったといいます。
当時の代表的な英語中心のモデルであるGPT-3には、ハンガリー語のデータが約1億2,800万語分含まれていました。一方、同センターが最初のモデルで学習させたハンガリー語は約320億語分。量だけを見れば、桁違いのデータを自前で用意できていたことになります。
多言語モデルの進化がもたらしたジレンマ
0.006%でも40億語 超大規模モデルのインパクト
しかし、その後の状況は急速に変わりました。メタをはじめとする企業が、多数の言語を一つのモデルにまとめて学習させる多言語モデルを次々と発表したのです。
ヴァーラディ氏によると、ある多言語モデルでは、ハンガリー語が全データのわずか0.006%という割合であるにもかかわらず、事前学習に使われたデータ全体の規模があまりに大きいため、結果としてハンガリー語だけでも約400億語分が含まれることになったといいます。
つまり、たとえ比率は小さくても、超大規模な多言語モデルでは、ハンガリー語でも膨大な量の学習データが取り込まれるようになったのです。これは、ハンガリー側が自前で集めたデータ量を上回る規模です。
世界の巨人と限られたリソース
こうした変化は、ハンガリーの研究チームにとって大きなプレッシャーになりました。会議でヴァーラディ氏は、「メタのようなグローバル企業や、中国のモデルが利用できるリソースには本当に驚かされる」と語り、自身のチームが「非常に限られた条件のもとで」モデル開発を進めている現状に触れました。
同センターでは、一つのモデルを仕上げるのに数か月単位の時間がかかるといいます。高速な計算資源や巨大な予算を前提にした世界のトップ企業と比べれば、開発のペースや規模で見劣りするのは否めません。
それでもローカルモデルにこだわる理由
「言語の細部」への専門性と注意
それでもヴァーラディ氏は、自国のアプローチに明確な意味があると考えています。彼は、世界向けに作られた巨大な多言語モデルについて、「個々の言語の細かな要素にまで専門的な注意を払うことは難しい」との見方を示しました。
対照的に、ハンガリー語に特化したモデルであれば、文法・語彙・言い回しの癖だけでなく、文化的な前提や歴史的な表現まで、細部を意識して設計しやすくなります。
図書館やアーカイブから集めた「文化のコーパス」
同センターの強みは、データの集め方にもあります。ヴァーラディ氏は、インターネット上のテキストだけでなく、図書館や各種リポジトリ(学術・公的な文書を収めた保存庫)からも資料を集め、丹念に整理していると語りました。
その結果、生まれたのは「ハンガリー文化をどう表現するかを、自分たちで完全にコントロールできる」コーパスです。どの作品や資料を学習に使うかを自分たちで選べるため、モデルに反映されるハンガリー語の姿も、自国の研究者が責任を持って設計できます。
大量のデータを無差別に集めるのではなく、文化の厚みや多様性がきちんと残るように選別していく。こうした姿勢は、単なる技術開発を超えた「文化政策」ともいえるものです。
言語の多様性は誰が守るのか
インタビューのなかで、記者が「言語の多様性を守る役割は、やはりその言語を話す人々自身が担うべきではないか」と問いかけると、ヴァーラディ氏は力強く同意したといいます。
巨大な多言語モデルが進化する一方で、小さな言語コミュニティが自らの言葉をどうAIに映し込んでいくのか。ハンガリーの取り組みは、その実験の一つといえます。
日本語話者にとっての示唆
ハンガリーの例は、日本語を含む他の言語コミュニティにとっても無関係ではありません。世界共通のAIプラットフォームに任せきりにするのか、それとも自分たちの文化や価値観を反映したデータを用意し、主体的にモデルづくりに関わっていくのか。
ハンガリーの研究者たちは、限られたリソースの中でも自国語のためのモデルを育て続ける道を選びました。その姿勢は、AIが急速に生活に入り込む今、私たち自身が母語と文化をどう守り、どうアップデートしていくのかを静かに問いかけています。
Reference(s):
Hungary's quest to preserve linguistic heritage in the age of AI
cgtn.com








