一、AI 的起點:模仿人腦神經元
人工智慧最初的靈感來自於人類神經元的工作方式。神經元會接收來自外界的多個刺激(輸入),然後經由加權、整合,決定是否發送訊號(輸出)。
這個模型在數學上被簡化為一個「感知機(Perceptron)」,輸入是多個數值,每個數值乘上一個權重,再經過一個激活函數(例如階梯函數)來決定是否「發射訊號」(輸出為 1 或 0)。這樣的系統可以劃出一條直線來區分兩類資料,因此最早的神經網路只能處理簡單的二元分類問題,例如區分正方形和三角形。
然而這種單層神經網路(Single-layer Perceptron)無法處理非線性問題,例如「XOR問題」——因為無法用一條直線將兩組資料分開。這個限制導致 AI 研究在 1970 年代進入第一次寒冬。
二、嘗試各種替代方法
為了解決線性不可分問題,研究者開始嘗試其他方法,包括:
-
機率模型:假設資料符合某種機率分布(如常態分布),可以用機率方式來預測分類邊界。
-
K 最近鄰(KNN):不建模資料,而是直接計算「最近的樣本類型」來決定預測結果。
-
主成分分析(PCA):當資料維度過高時(如醫療資料中同時考慮身高、體重、基因等參數),使用 PCA 可降維找出「最有判別力的方向」。
這些方法雖然解決了部分問題,但都需要「標註資料」(監督式學習),且每個模型只能回答特定問題,無法通用於其他任務。
三、多層感知機與誤差反向傳播(Backpropagation)
到了 1980 年代,研究者重新開始探索多層神經網路(Multi-layer Neural Networks)。關鍵突破是「誤差反向傳播演算法」,由 Rumelhart 等人在 1986 年提出。
這個方法允許誤差從輸出層向輸入層回傳,逐層調整每個神經元的權重,進而有效訓練深層神經網路。這也讓 AI 再次獲得重視,但受到當時計算能力與資料不足的限制,應用仍然有限。
四、AI 第二波熱潮:CNN 與影像辨識革命
AI 的第二波浪潮來自影像辨識的進展。1998 年 LeNet 模型首次成功應用於手寫數字辨識,但真正引爆的是 2012 年 AlexNet 在 ImageNet 競賽中的勝出,它的特點包括:
-
使用多層卷積神經網路(CNN)自動提取圖像特徵。
-
採用 GPU 進行平行運算,大幅提高訓練效率。
-
引入 Dropout 技術避免過度擬合。
此後,深度學習(Deep Learning)成為主流,CNN 廣泛應用於人臉辨識、醫療影像、智慧攝影等領域,傳統的 SVM、KNN 等方法逐漸被取代。
五、語言模型與 Transformer 的誕生
與影像不同,語言的處理更為複雜,因為文字是有順序且有上下文關係的。一開始的語言模型,如 RNN(循環神經網路),雖然能處理序列資料,但存在「長距離依賴」問題,資訊難以從頭傳到尾。
2000 年代出現的 LSTM、GRU 改善了一部分問題,但計算速度仍慢。
2017 年,Google 提出 Transformer 架構,徹底改變了 NLP 領域。Transformer 不再逐字處理,而是一次輸入整段文字,並透過:
-
Self-Attention 機制:每個字與其他所有字互相比較,學習彼此的關聯性。
-
多頭注意力(Multi-head Attention):讓模型可從不同角度理解語意(例如情感、語法、時間關聯等)。
-
詞嵌入(Embedding)空間:將文字轉換為向量,類似詞與詞之間的「空間距離」代表語意相似度。
這個架構促成了大型語言模型(LLM)如 BERT、GPT 系列的誕生,使得 AI 能產生流暢自然的語句,甚至能進行翻譯、對話、摘要、寫作等任務。
六、AI 未來發展趨勢
現今的 AI 已經突破許多原本被認為不可能的領域,包括自動駕駛、智慧醫療、藝術創作、科學研究輔助等。未來的挑戰會集中在:
-
模型透明性與可解釋性
-
減少訓練所需資源與碳排放
-
資料隱私與倫理議題
-
通用人工智慧(AGI)的探索
總結
人工智慧的發展就像一場從模仿人類神經元到構建龐大語言模型的旅程。每一個階段都有突破與瓶頸,而今天我們正站在一個全新世代的起點,面對更強大但也更複雜的 AI 技術。
希望透過這次的分享,大家對 AI 的來龍去脈有初步認識,也能在日常生活中更理解這些「智慧系統」背後的運作方式。
陳永信 2025/5/21, assisted by ChatGPT

原理那麼複雜,您自修也能懂。強。
回覆刪除