Speak：打造超越 Duolingo 的 AI 語言學習平台

Connor 和 Andrew 早就知道，在接下來的 5 到 10 年內，隨著資料量和運算能力持續成長，AI 模型將進步到能夠完全取代人類在學習過程中的角色

May 17, 2025

公司名稱：Speak
類別：語言學習 / 消費性 AI / 教育科技（EdTech）
成立時間：2016 年
地點：美國加州 San Francisco

投資要點

PMF 已證明，轉向國際與企業市場
- 在韓國建立強大用戶基礎（300 萬用戶，6% 滲透率）
- 現轉向美國、日本、台灣與東南亞市場拓展
生成式 AI 教育應用最佳商業化案例
- 結合 ASR + LLM 的完整技術堆疊
- 多模態互動學習體驗已大幅超越傳統語言平台
高度防守力的資料網路效應
- 發音資料具地方性難以複製
- 語音錯誤資料成為專屬訓練資料集（data moat）
雙引擎營收模式具擴張性
- B2C 訂閱已穩定現金流
- B2B 採用率快速上升，企業黏著度強（85%）

投資結論

Speak 是一間極具技術深度、產品體驗完整、商業化明確的新創公司。它具備：

世界級團隊與技術整合能力
清晰且快速擴張的產品路徑
AI 驅動教育應用的領先者地位

對於希望布局「AI 教育 + 語音應用」市場的投資者而言，Speak 提供的是具技術護城河、全球市場擴張潛力強、並兼具現金流與資本增值空間的中長期標的。

誕生過程與創辦人背景

語言學習平台 Speak 的故事，不只是 AI 在教育領域的應用成功案例，更是一段由兩位極具天賦的創業者交織出的非典型創業旅程。

Connor Zwick：矽谷少年的第一桶金

Connor 從小對電腦與軟體開發充滿熱情，在高中時期就創辦了應用程式 FlashCards+，幫助學生用 iPhone 背單字卡。這款 App 在他進入哈佛大學時用戶已超過 500 萬人，最終於 21 歲時成功出售給教育平台 Chegg，並在就讀哈佛一年後毅然輟學，成為 Thiel Fellowship 的一員。

Andrew Hsu：12 歲上大學的天才神童

Andrew Hsu（徐安廬）是台裔美籍的資優生典範。年僅 12 歲就進入華盛頓大學，同時主修 生物化學、神經科學與化學。16 歲時進入史丹佛大學攻讀博士學位，但為了實現創業夢想，他選擇退學加入 Thiel Fellowship，這也成為他與 Connor 命運交會的起點。

兩人分別輟學於哈佛與史丹佛，卻在「反學院主義」的創業者計畫 Thiel Fellowship 中結緣，共同展開一場挑戰語言學習傳統的創業旅程。

創立理念：為什麼創造 Speak？

兩位創辦人都曾對機器學習與人工智慧懷有熱情，一開始曾探索電腦視覺領域，但很快便發現語音技術的潛力更具人性連結。他們相信：

「學語言最有效的方式，不是死背單字，而是『開口說出來』。」

然而，對於全球 15 億正在學英文的非英語母語者來說，傳統教育系統普遍缺乏口說練習資源。聘請真人家教成本高昂、效率低落，而遊戲化 App 又無法提供真實語境。

於是，Speak 的核心願景逐漸成形：

打造一位 具備 AI 智慧的語言家教，可提供沉浸式對話、個人化回饋、隨時隨地練習，讓任何人都能用說話學會語言。

產品運作方式：Speak 是如何教語言的？

Speak 並不是另一款遊戲化語言 App，它以以下幾個核心設計區隔自己：

1. 語音對話為核心（AI 語境模擬）

使用者從一開始就進入開放式對話場景，不是單選題，而是像真人一樣開口說話、參與對談。

2. 高頻詞組 + 模式化輸出

學習策略根據語言學理，先教使用者生活中最常出現的 高頻詞組（chunks），透過重複與對話應用內化為語感。

3. AI 回饋與動態調整

內建語音辨識與生成式 AI 系統，可根據使用者的口音、語法、節奏進行即時評估與糾正，並自動調整下次練習內容。

4. 沒有遊戲分數，只有實用對話

Speak 拒絕「刻意遊戲化」，所有互動設計以「提升溝通流利度」為最高原則。

使用者已超過 1,000 萬人，年增長翻倍
年經常性收入（ARR）已突破數千萬美元，接近獲利
擴展至 40 多個國家，並推出企業版 Speak for Business

與 OpenAI 的合作關係

Speak 能在語音互動與對話式學習領域中走得如此精準與快速，背後的關鍵合作夥伴是 —— OpenAI。

技術整合與投資支持

Speak 是 OpenAI Startup Fund 的被投資公司之一，自 2022 年起即獲得語言模型與語音 API 的技術支援。平台使用的 AI 對話與評估引擎，是在 GPT 系列語言模型與 Whisper 語音辨識模型的基礎上深度客製化。

OpenAI 合夥人 Ian Hathaway 曾指出：

「Speak 將我們對 AI 學習應用的願景化為現實。他們的技術團隊與產品理解力令人驚艷。」

這種合作讓 Speak 成為生成式 AI 在語言學習領域的標竿應用案例，既是科技落地，也是商業模式的範本。

語音模型與演算法設計：核心技術堆疊分析

Speak 的競爭優勢之一，在於其獨特的語音技術堆疊與演算法整合能力。相較於單純使用 OpenAI API 的應用，Speak 採用自研與外部 LLM 技術結合，建立高度客製化的學習引擎。

1. 語音辨識引擎（ASR）｜基礎層

使用 自訓練版 Whisper 模型為核心，針對非母語口音（特別是亞洲腔）進行優化
支援 逐音節（phoneme-level）辨識與錯誤標記
特別著重於 語速、語調、重音偏移的語意理解與評分系統

2. 對話生成引擎（LLM）｜語言層

基於 GPT 系列（OpenAI 提供）+ 自訓資料微調
加入 主題情境包（scenario packs） 與 話語風格變異控制（style control）
模型可根據使用者表現與目標，實現多輪追問、任務導向的教學引導

3. 評分與適應學習演算法（Scoring & Adaptation）

利用 語音信號分析 + LLM 解語義意圖 雙軌模型打分
建立 個人語言能力向量圖譜（Learner Vector Profile）
自動調整內容難度、情境複雜度與語言功能（如主動問 vs 被動答）

技術難點在於：將聲音（audio）→語意（meaning）→教學回饋（pedagogy）串接起來的「教學即演算法」邏輯。

使用者黏著度演進與設計策略

過去問題：

使用者通常於 7 天內流失 60%
缺乏明確目標導向與進度激勵

新策略（2023 年起）：

目標導向式 onboarding
- 使用者登入後需設定一個語言任務（如模擬面試、預約醫生等）
- 系統根據該目標自動規劃語境訓練內容
每日語音任務提醒 + 逐步解鎖內容
- 類似 Duolingo 的進度視覺化 + 不遊戲化地「解鎖劇情對話」
發音分數與語流追蹤圖表
- 提供用戶自我比較工具（如每週語調穩定度曲線）
- 強化「語音即數據即進步」的自我驅動

消費者 vs 企業用途：雙軌市場模型

目前 Speak 已有超過 200 家企業用戶，韓國前十大雇主中的 8 家皆為客戶，企業內部採用率高達 85%，這使其在教育科技界的 B2B 應用極具代表性。

商業模式與市場競爭態勢

收費方式

個人用戶（B2C）：$20/月或 $99/年，主打語音 AI 對話教學。
企業用戶（B2B）：依照座位數與功能模組報價，支援儀表板與學習成效報表整合。

網路效應與技術護城河

每筆語音數據皆反饋至模型優化 → 構成資料優勢與使用者黏著度
開放式對話 + 自研發音模型組合，具備高門檻的技術複製難度
對亞洲腔英語適配的特化模型，形成地區性防守力

從創投視角看 Speak：投資思維總結

✅ 優勢亮點

技術門檻高：語音識別 + LLM 對話整合優異，競爭對手難以複製
PMF 強且成熟：南韓市場驗證成功，已跨國擴張
收入具體、付費意願高：訂閱模式清晰，ARR 達數千萬美元
B2B 成熟 + B2C 滲透中：具雙引擎商業擴張潛力
創辦人團隊具天賦且實作強：技術、產品、創業歷練三者兼備

⚠️ 風險關鍵

LLM 成本下降 + 大語言模型供應商（如 OpenAI、Google）可能直接跨入教學應用市場
多語種模型尚未成熟，非英語場景仍為挑戰
遊戲化與黏著機制仍需創新以因應用戶流失風險

Discussion about this post

Ready for more?