LG AI『エクサワン』、マルチモーダル拡張能力を実証
LG AI研究院は9日、画像と文字の両方を理解するマルチモーダルAIモデル「エクサワン4.5」を公開しました。これは、自社開発AIモデル「K-エクサワン」がテキストを超え、視覚情報まで処理できる能力に拡張されたことを示しています。「エクサワン4.5」は、自社開発したビジョンエンコーダーと大規模言語モデル(LLM)を統合したビジョン・言語モデル(VLM)であり、仮想環境を超えて物理的世界を理解する「フィジカルインテリジェンス」へとエクサワンを発展させるための準備段階と位置づけられました。
このような技術開発は、科学技術情報通信部が推進する「独自AIファウンデーションモデル(Dokpamo)」事業参加の一環であり、外部AIへの依存度を下げ、独自技術力を確保しようとする政府の政策方向と軌を一にしています。LG AI研究院はDokpamo事業を通じ、2360億パラメータ規模のLLM「K-エクサワン」を開発し、一次段階評価で最高点を獲得しました。8月の二次評価後、三次進出が確定すれば、「K-エクサワン」を画像、音声、映像まで理解するマルチモーダルへと拡張する計画です。
「エクサワン4.5」は、330億パラメータ規模でありながら、テキスト理解・推論領域において「K-エクサワン」と同等の性能を実現しました。自社開発したハイブリッドアテンション構造と高速推論技術を適用し、グローバル競合モデルに比べて優れたベンチマーク結果を示しました。「エクサワン4.5」は、契約書、技術図面などの産業現場文書の推論に強みを発揮します。韓国語・英語を超え、スペイン語、ドイツ語など多言語をサポートします。
ハギングフェイスへの公開、韓国文化特化学習、青年AI専門家育成プログラムの活用など、「みんなのAI」実現のためのアクセス拡大努力も並行しています。LG AI研究院によるオープンウェイト公開と教育プログラム運営は、モデル公開と実際の活用との間の隔たりを縮め、こうした技術の大衆化に貢献すると期待されています。
LG AI研究院信頼安全事務局総括のキム・ミョンシン氏は、「韓国語能力を備えたAIは増えているが、歴史や文化的な敏感性を理解することは次元の異なる問題だ」とし、「エクサワンは、自社設計したAIリスク分類体系(K-AUT)に基づき、豊かな表現力と信頼性を同時に確保したAIへと進化していくだろう」と述べました。