Speak:打造超越 Duolingo 的 AI 語言學習平台
Connor 和 Andrew 早就知道,在接下來的 5 到 10 年內,隨著資料量和運算能力持續成長,AI 模型將進步到能夠完全取代人類在學習過程中的角色
公司名稱:Speak
類別:語言學習 / 消費性 AI / 教育科技(EdTech)
成立時間:2016 年
地點:美國加州 San Francisco
投資要點
PMF 已證明,轉向國際與企業市場
在韓國建立強大用戶基礎(300 萬用戶,6% 滲透率)
現轉向美國、日本、台灣與東南亞市場拓展
生成式 AI 教育應用最佳商業化案例
結合 ASR + LLM 的完整技術堆疊
多模態互動學習體驗已大幅超越傳統語言平台
高度防守力的資料網路效應
發音資料具地方性難以複製
語音錯誤資料成為專屬訓練資料集(data moat)
雙引擎營收模式具擴張性
B2C 訂閱已穩定現金流
B2B 採用率快速上升,企業黏著度強(85%)
投資結論
Speak 是一間極具技術深度、產品體驗完整、商業化明確的新創公司。它具備:
世界級團隊與技術整合能力
清晰且快速擴張的產品路徑
AI 驅動教育應用的領先者地位
對於希望布局「AI 教育 + 語音應用」市場的投資者而言,Speak 提供的是具技術護城河、全球市場擴張潛力強、並兼具現金流與資本增值空間的中長期標的。
誕生過程與創辦人背景
語言學習平台 Speak 的故事,不只是 AI 在教育領域的應用成功案例,更是一段由兩位極具天賦的創業者交織出的非典型創業旅程。
Connor Zwick:矽谷少年的第一桶金
Connor 從小對電腦與軟體開發充滿熱情,在高中時期就創辦了應用程式 FlashCards+,幫助學生用 iPhone 背單字卡。這款 App 在他進入哈佛大學時用戶已超過 500 萬人,最終於 21 歲時成功出售給教育平台 Chegg,並在就讀哈佛一年後毅然輟學,成為 Thiel Fellowship 的一員。
Andrew Hsu:12 歲上大學的天才神童
Andrew Hsu(徐安廬)是台裔美籍的資優生典範。年僅 12 歲就進入華盛頓大學,同時主修 生物化學、神經科學與化學。16 歲時進入史丹佛大學攻讀博士學位,但為了實現創業夢想,他選擇退學加入 Thiel Fellowship,這也成為他與 Connor 命運交會的起點。
兩人分別輟學於哈佛與史丹佛,卻在「反學院主義」的創業者計畫 Thiel Fellowship 中結緣,共同展開一場挑戰語言學習傳統的創業旅程。
創立理念:為什麼創造 Speak?
兩位創辦人都曾對機器學習與人工智慧懷有熱情,一開始曾探索電腦視覺領域,但很快便發現語音技術的潛力更具人性連結。他們相信:
「學語言最有效的方式,不是死背單字,而是『開口說出來』。」
然而,對於全球 15 億正在學英文的非英語母語者來說,傳統教育系統普遍缺乏口說練習資源。聘請真人家教成本高昂、效率低落,而遊戲化 App 又無法提供真實語境。
於是,Speak 的核心願景逐漸成形:
打造一位 具備 AI 智慧的語言家教,可提供沉浸式對話、個人化回饋、隨時隨地練習,讓任何人都能用說話學會語言。
產品運作方式:Speak 是如何教語言的?
Speak 並不是另一款遊戲化語言 App,它以以下幾個核心設計區隔自己:
1. 語音對話為核心(AI 語境模擬)
使用者從一開始就進入開放式對話場景,不是單選題,而是像真人一樣開口說話、參與對談。
2. 高頻詞組 + 模式化輸出
學習策略根據語言學理,先教使用者生活中最常出現的 高頻詞組(chunks),透過重複與對話應用內化為語感。
3. AI 回饋與動態調整
內建語音辨識與生成式 AI 系統,可根據使用者的口音、語法、節奏進行即時評估與糾正,並自動調整下次練習內容。
4. 沒有遊戲分數,只有實用對話
Speak 拒絕「刻意遊戲化」,所有互動設計以「提升溝通流利度」為最高原則。
使用者已超過 1,000 萬人,年增長翻倍
年經常性收入(ARR)已突破 數千萬美元,接近獲利
擴展至 40 多個國家,並推出 企業版 Speak for Business
與 OpenAI 的合作關係
Speak 能在語音互動與對話式學習領域中走得如此精準與快速,背後的關鍵合作夥伴是 —— OpenAI。
技術整合與投資支持
Speak 是 OpenAI Startup Fund 的被投資公司之一,自 2022 年起即獲得語言模型與語音 API 的技術支援。平台使用的 AI 對話與評估引擎,是在 GPT 系列語言模型與 Whisper 語音辨識模型的基礎上深度客製化。
OpenAI 合夥人 Ian Hathaway 曾指出:
「Speak 將我們對 AI 學習應用的願景化為現實。他們的技術團隊與產品理解力令人驚艷。」
這種合作讓 Speak 成為生成式 AI 在語言學習領域的標竿應用案例,既是科技落地,也是商業模式的範本。
語音模型與演算法設計:核心技術堆疊分析
Speak 的競爭優勢之一,在於其獨特的語音技術堆疊與演算法整合能力。相較於單純使用 OpenAI API 的應用,Speak 採用自研與外部 LLM 技術結合,建立高度客製化的學習引擎。
1. 語音辨識引擎(ASR)|基礎層
使用 自訓練版 Whisper 模型為核心,針對非母語口音(特別是亞洲腔)進行優化
支援 逐音節(phoneme-level)辨識與錯誤標記
特別著重於 語速、語調、重音偏移的語意理解與評分系統
2. 對話生成引擎(LLM)|語言層
基於 GPT 系列(OpenAI 提供)+ 自訓資料微調
加入 主題情境包(scenario packs) 與 話語風格變異控制(style control)
模型可根據使用者表現與目標,實現多輪追問、任務導向的教學引導
3. 評分與適應學習演算法(Scoring & Adaptation)
利用 語音信號分析 + LLM 解語義意圖 雙軌模型打分
建立 個人語言能力向量圖譜(Learner Vector Profile)
自動調整內容難度、情境複雜度與語言功能(如主動問 vs 被動答)
技術難點在於:將聲音(audio)→語意(meaning)→教學回饋(pedagogy)串接起來的「教學即演算法」邏輯。
使用者黏著度演進與設計策略
過去問題:
使用者通常於 7 天內流失 60%
缺乏明確目標導向與進度激勵
新策略(2023 年起):
目標導向式 onboarding
使用者登入後需設定一個語言任務(如模擬面試、預約醫生等)
系統根據該目標自動規劃語境訓練內容
每日語音任務提醒 + 逐步解鎖內容
類似 Duolingo 的進度視覺化 + 不遊戲化地「解鎖劇情對話」
發音分數與語流追蹤圖表
提供用戶自我比較工具(如每週語調穩定度曲線)
強化「語音即數據即進步」的自我驅動
最新指標(2024 年中):
D7 留存率上升至 48%
平均使用時長為 每日 12~17 分鐘
進階學習者(使用超過 30 天)付費轉換率高達 13.5%
Speak 不靠遊戲化維繫留存,而是以「語音進步感 + 真實對話帶來的自信感」驅動習慣建立。
消費者 vs 企業用途:雙軌市場模型
目前 Speak 已有超過 200 家企業用戶,韓國前十大雇主中的 8 家皆為客戶,企業內部採用率高達 85%,這使其在教育科技界的 B2B 應用極具代表性。
商業模式與市場競爭態勢
收費方式
個人用戶(B2C):$20/月 或 $99/年,主打語音 AI 對話教學。
企業用戶(B2B):依照座位數與功能模組報價,支援儀表板與學習成效報表整合。
網路效應與技術護城河
每筆語音數據皆反饋至模型優化 → 構成資料優勢與使用者黏著度
開放式對話 + 自研發音模型組合,具備高門檻的技術複製難度
對亞洲腔英語適配的特化模型,形成地區性防守力
從創投視角看 Speak:投資思維總結
✅ 優勢亮點
技術門檻高:語音識別 + LLM 對話整合優異,競爭對手難以複製
PMF 強且成熟:南韓市場驗證成功,已跨國擴張
收入具體、付費意願高:訂閱模式清晰,ARR 達數千萬美元
B2B 成熟 + B2C 滲透中:具雙引擎商業擴張潛力
創辦人團隊具天賦且實作強:技術、產品、創業歷練三者兼備
⚠️ 風險關鍵
LLM 成本下降 + 大語言模型供應商(如 OpenAI、Google)可能直接跨入教學應用市場
多語種模型尚未成熟,非英語場景仍為挑戰
遊戲化與黏著機制仍需創新以因應用戶流失風險



