AIは動画を「見て」いない――学習モードで気づいた、動画認識の本当の仕組み

執筆者:

カテゴリ:

🗨 こんな会話から始まった

「AIって動画をリアルタイムで理解しているんですか？」

「試してみましょうか。まず、動画をフレームに分解するとどうなると思いますか？」

これは、Claudeの学習モードで交わした対話の入り口だ。

ある日、動画を入力できるAIの技術解説記事を読んだ。その記事には、GPT-4oやGemini 1.5 Proが「走行中の車」や「右に曲がっている」という動的な状況まで認識できると書かれていた。

しかし読み進めるうちに、素朴な疑問が浮かんだ。

動画を細切りにしているなら、ストーリーや流れは本当に分かるのだろうか？

その直感を持ったまま、Claudeの学習モードに切り替えて対話を始めた。以下は、その対話の記録だ。

「細切り」だから流れが分からないのでは？

記事によると、動画入力AIは動画を複数のフレーム（静止画）に分解して処理する、8フレームに1枚だけ取り出すような間引きも行われる。

Claudeに問いかけてみた。「サッカーのPKシーンを8フレームに1枚で取り出したとき、AIは何を理解できて、何を理解できないと思いますか？」

考えてみると、答えは自然と出てきた。PKの準備をしている様子やサッカー場での試合という状況は分かる。しかし「蹴る直前→ボールが飛ぶ→ゴールが入る」という決定的な流れをつなげて理解することは、おそらくできない。

この気づきを「時間的文脈の欠如」と呼ぶ。静的な情報（場所・状況・登場人物）は把握できるが、動的な因果の流れ（直前→瞬間→結果）は把握しにくい。

ここで新たな疑問が生まれた。記事では「走行中」「右に曲がっている」という動的な状況を正しく認識できていた。PKと車の走行、なぜ差が出るのか。

対話を続けながら仮説を立てていった。フレームとフレームの間にある出来事を、AIは学習済みの知識から「補完」しているのではないか。

そしてその補完の精度は、学習データの豊富さに依存する。走行中の車に関する描写は、テキストデータの中に大量に含まれている。一方、PKの決定的瞬間の詳細な描写は相対的に少ない。

つまり、AIは動画を「見て」リアルタイムに理解しているのではなく、フレームを「読んで」、その間を学習データで補完している。最初の直感は、本質を突いていたことになる。

対話を通じて辿り着いた理解を、自分の言葉でまとめるとこうなる。

動画入力AIは動画をフレームとして分解し、各フレームの状況を理解したうえで、フレーム間の出来事を過去の学習データをもとに補完して全体の流れを把握している。そのため補完の精度は学習データの豊富さに依存する。

Claudeはこの言語化を「完璧です」と評した。しかし対話はそこで終わらなかった。

最後に応用問題が出た。「手術中の医療動画をこのAIに解析させた場合、精度はどうなると思いますか？」

答えはすぐに出た。医療動画の学習データは少ない。補完精度が低い。そして精度の低い補完を事実として扱えば、誤った医療判断につながる。患者の命が危険にさらされるリスクがある。

「動画の仕組み」という技術的な話題から始まった対話が、AIリテラシーと倫理という地点まで自然に展開していた。

今回の対話を振り返って、2つのことが残った。

ひとつは、AIの「できること」と「できないこと」の境界を自分の言葉で理解することの重要性だ。「AIは動画を認識できる」という事実だけでなく、「どうやって」「どこまで」「何が苦手か」まで理解することが、AIを安全に使いこなすための基礎になる。

もうひとつは、学習モードという対話スタイルの力だ。一方的に説明を受けるのではなく、問に答えながら自分で考えることで、技術的な理解とリスク認識が同時に深まった。AIは「答えを教えてくれるツール」だけでなく、「考えることを助けるツール」にもなれる。

HABAねっとは、北陸を拠点に中小企業・個人事業主のDX伴走支援を行っています。AIツールの選定・設定・活用定着まで、「ツール選定」ではなく「課題」「業務」「人」から設計するDXを、一緒に組み立てます。