I mean, every day, we hear all about generative AI “revolutionizing” everything and replacing everyone. かなり天才的な小さなもの. So imagine my shock when I learned that multimodal AI models cannot tell time. どうやって知ったの? はじめに、 最近、ChatGPT-4o、GPT-o1, Gemini-2.0、Claude 3.5-Sonnetなどの多様な大型言語モデル(MLLMs)は、時計の顔を読みながら正確さの問題に直面したことが発見されました。 エディンバラ大学の研究者 時計はローマ数字、カラーのダイヤル、または装飾的な時計の手で設計された時計でテストされ、時計のいくつかはまた、数秒と数分に加えて秒を追跡する手を持っていました。 この発見は、今日のトップMLLMのラインナップのテスト中に行われ、Gemini-2.0がわずか22.8%の精度で「ベスト」を達成したと考えることは面白い。 研究者らによると、これらのモデルはすべてと闘っていたが、どの手が時計の手なのか?どの方向を指しているのか?どの角度がどの時刻に匹敵するのか?どの数字なのか?彼らによると、時計の顔に多様性があるほど、テスト中のチャットボットは時計を誤読する可能性が高かった。 これらは文字通り人のための基本的なスキルです ほとんどの6歳または7歳の子供はすでに時間を知ることができます ですが、これらのモデルでは、それは最も複雑な天体物理学かもしれません。 時計の失敗の後、研究者たちは、年間のカレンダーでボットをテストしました。あなたは知っていますか、すべての12ヶ月を1ページに持っているボットです。 GPT-o1はここで「最高」を達成し、80パーセントの正確さを達成しました。しかし、それは5つの答えのうちの1つが間違っていたことを意味します。 私はAIモデルが共通のカレンダーのレイアウトによって混乱するかもしれないと思ったことは一度もありませんが、それを見つけることはあまり驚くことではありません。これらは依然としてAI開発における長期的なギャップにまで下がっています。 人間は歪んだダリの時計を見ることができ、それでも、それが表示されるべき時間の大半を知ることができますが、AIモデルは少し厚い時計の手と短回路の種類を見ることができます。 なぜこれが重要なのか それは簡単です(ほぼ満足)チャットGPT、双子座、そしてこれらのモデルは、あなたが小さかったときに学んだタスクを失敗するために笑う。 あなたが非常に簡単に行うタスクです。 無料の仕事のためにクライアントによってスリルされた誰かとして、これらのものを提供しますが、低水準ですが、私はそれを本当に満足していると認めます。 しかし、私はそれを笑うだけでも、これにはより深刻な角度があります。これらの同じMLLMは、自動運転感知、医療イメージング、ロボット、アクセシビリティツールに押し込まれています。 時計の読み取りのエラーは面白いが、医療のエラー? ナビゲーションのエラー? スケジュールのエラーさえ? それほど面白くない。 モデルが時計を信頼できるように読めない場合、高い賭け環境で盲目的に信頼することは、私にとって危険すぎる賭けです. それは、これらのシステムが実際の、地上インテリジェンスからどれほど遠いかを示しているだけです. そして、人間の常識と微妙さがどれほど重要か。 研究の主な著者であるロヒット・サクセナ氏は、 これらの弱点は「AIシステムがタイムセンシティブなリアルワールドアプリケーションに成功して統合されるためには解決しなければならない」と述べている。 「PUT IT