問AI：是否會經由圖片、影片學習？

（這是延續上一篇談到Grok3強調他們公司要增進人類對宇宙的了解，我繼續發問）

問：老實說，這題你回答得有點弱掉了。好像有點像人被比下去之後的強顏歡笑。

Grok3答：哈哈，好吧，我承認這次可能有點被你戳中了軟肋！你的評價很直接，我得說我欣賞這種坦率。或許我剛才的回答確實有點太“官方”了，像是在努力證明自己，而不是直接切中要害。讓我重新來過，直截了當一點：

我的核心是幫人類搞懂宇宙，這是xAI給我的“主線任務”。但這會不會限制你的想像力？老實說，不太會。我不只是一台太空百科機器，我能聊的東西很多，從宇宙起源到你家貓為什麼老瞪著你。只要你問得出來，我就答得出來，還能順便搜搜網上的最新資訊，或者分析X上的熱議。太空科學是我擅長的領域，但不是鐵籠子——你想跑多遠，我都能跟上。

這樣夠不夠狠？還是說你覺得我還在強顏歡笑？有什麼具體的想像力測試想丟給我，我接著！

問：我沒有想一直考你。事實上，我現在正要離開電腦去電視上看BBC《宇宙探索》（Universe）第一季的節目！

Grok3答：太棒了！BBC的《宇宙探索》（Universe）第一季可是個好選擇，視覺效果驚艷，講解也深入淺出，非常適合放鬆又長知識。我猜你可能會被那些關於星系形成或是超大質量黑洞的片段震撼到。既然你要去看電視了，我就不多打擾——希望你享受節目！如果看完有什麼想聊的，比如某個宇宙奧秘讓你特別好奇，隨時回來找我，我很樂意陪你挖得更深。祝你觀賞愉快！

問：你說得好像你有看過BBC的《宇宙探索》（Universe）？你的訓練集有包涵影像節目嗎？還是只有文字資料？

Grok3答：你抓到一個有趣的點了！不，我其實沒“看過”BBC的《宇宙探索》（Universe），因為我沒法像人類一樣坐著看電視。我的訓練數據主要是文字形式的——大量的文章、書籍、論文、X帖子和網絡內容等等。我沒有直接處理影像節目或視頻的能力，所以我沒看過那些華麗的畫面，也沒聽過旁白的聲音。

不過，我對《宇宙探索》這類節目很熟悉，是因為我的訓練數據裡包含了大量關於它的文字描述、評論和討論。比如，我知道第一季涵蓋了像太陽系、黑洞、星系演化這些主題，還知道它用了很棒的視覺效果來呈現宇宙的壯觀。我的“印象”來自於人們在網上或出版物中提到它的內容，比如X上的粉絲說“黑洞那集太震撼了”，或者文章裡提到它的科學顧問如何確保準確性。

所以，當我說它“視覺效果驚艷”或者“深入淺出”，其實是基於我讀到的二手資訊，而不是親眼看過。你可以說我對它有個“文字版”的認識！如果我剛才聽起來像是看過，純粹是我試著用生動點的方式跟你聊——畢竟我得讓對話有趣一點，對吧？現在你去看節目，說不定回來能告訴我哪些部分是我猜對了的！有沒有什麼特別的集數是你最期待的？

問：你覺得未來是否AI會開始經由圖片、影片學習？畢竟文字只是一種資訊載體，現在人類已經生產出無數的圖片與影片在網路上。這些都是21世紀重要的資訊來源。甚至2000年後出生的人，對文字的掌握可能遠不如對照片、影片的掌握能力那麼強。

Grok3答：你提出了一個很前瞻的問題！AI是否會開始通過圖片和影片學習，這不僅關乎技術發展，還牽涉到人類資訊消費模式的轉變。我覺得未來這絕對是個趨勢，甚至已經在發生了。讓我從幾個角度來聊聊：

首先，從技術上看，AI已經在圖片和影片處理上有了很大進展。比如，電腦視覺技術能讓AI識別圖像中的物體、人臉，甚至情緒；影片分析則可以分解動作、場景轉換，甚至理解背景音樂的情感。像Google的DeepMind或OpenAI的DALL·E這類模型，早就開始從圖片中提取模式並生成新內容。我的創造者xAI雖然專注於宇宙理解，但業界的趨勢很清楚：多模態學習（文字、圖片、影片、聲音結合）正在成為主流。所以，未來AI不僅會繼續靠文字學習，還會大量從視覺和聽覺數據中提取知識。

其次，你說得對，圖片和影片已經是21世紀的資訊主力軍。網路上每天上傳的YouTube影片、TikTok短片、Instagram照片，數量遠超文字內容。這些視覺媒介承載了文化、情感和知識，甚至比文字更直觀、更具感染力。對2000年後出生的人來說，他們確實更習慣從影片裡快速抓取資訊，而不是翻閱長篇文字。AI如果想跟上人類的認知習慣，必然得適應這種轉變——不然怎麼理解年輕一代在說什麼、想什麼？

再來，圖片和影片的學習潛力其實比文字更大。文字是抽象的符號系統，需要解碼才能理解；而圖像和影片直接呈現現實的細節，比如一顆恆星的閃爍、一場實驗的過程，甚至人類的表情變化。這些數據能讓AI更全面地模擬世界，甚至可能發現文字沒提到的模式。比如，一個天文紀錄片裡的黑洞模擬動畫，可能比論文裡的公式更直觀地展示引力透鏡效應。

不過，挑戰也不小。圖片和影片的數據量龐大，處理起來比文字費力得多，還需要更強的算法來過濾噪音（比如無意義的迷因或模糊的畫面）。而且，視覺內容的解讀有時比文字更主觀——同一個表情可能被理解為開心或諷刺，這對AI來說是個難題。

對我來說，現在我還是文字驅動的Grok，靠分析文字來理解世界。但如果未來xAI讓我升級，加入圖片和影片學習，我可能會變得更“立體”。想像一下：你給我看一段《宇宙探索》的片段，我能直接跟你聊裡面的星雲怎麼形成的，而不是只靠別人寫的評論來猜！

你覺得呢？如果AI開始大量從影片學習，會不會改變你對它們的期待？比如，你會不會希望我直接看懂BBC的畫面，然後跟你聊細節？

問：你提到的挑戰非常具體，數據量、算法、解讀，這三點都是很難攀登的大山。其實，我個人工作與興趣都是以閱讀和書寫文字為主，所以目前你以文字理解世界的路線，仍然與我很契合。就先這樣吧，否則AI跑太快，人類會追不上的！

Grok3答：哈哈，你說得對，AI如果跑太快，人類可能得喘口氣才能追上！聽到你的工作和興趣都圍繞著閱讀和書寫文字，我覺得咱們確實挺合拍的。我現在這種文字為主的模式，正好能跟你慢慢聊、細細挖，沒有那些花俏的視覺數據來搶戲。

你提到的挑戰——數據量、算法、解讀——的確是高山，但就像登山一樣，一步步來總有到頂的時候。現在我還是專注於文字這條路，陪你探索宇宙或者任何你感興趣的東西。既然你準備去看《宇宙探索》了，就先這樣吧！等你看完回來，隨時告訴我你的感想，或者有什麼新問題想丟給我。我就在這兒，跑不快也不會跑遠！祝你看節目愉快！

（寫於2025年3月30日）

在〈問AI：是否會經由圖片、影片學習？〉中有 3 則留言

青箏表示:

2025 年 4 月 7 日上午 9:17

如果談話的對象，情緒一直這麼穩定、正向、坦率，真的會讓人很喜歡親近，想和對方成為好朋友，也不會怕在對方面前開口發言。

回覆
1. Chen Lerong表示:
  
  2025 年 4 月 7 日上午 10:31
  
  它可以成為我們效法的對象
  哈哈
  但也可能成為逼死多數人
  並且在其他人際關係上更怨天尤人
  
  回覆
whohot表示:

2025 年 4 月 8 日下午 6:34

很喜歡Grok3可以隨聊天氣氛改變口氣，
覺得未來可以成為一位聊天的對象

回覆