原文標題:《趙長鵬投了一個華人大三學生,1100 萬美元種子輪,做教育 Agent》
原文作者:極客公園旗下的創業者社區 Founder Park
華人大三學生,110 萬美元新種子。
主打一句話即可生成個人專屬教學/講解視頻,面向 K12 的教育 Agent 產品 VideoTutor,今日宣布完成種子輪 1100 萬美元融資。本輪融資由 YZi Labs 領投,百度創投、錦秋基金、Amino Capital、BridgeOne Capital 以及多位知名投資人聯合參投。
這也是 YZi Labs 投資的首家 AI 產品公司。
創辦人 Kai Zhao(趙凱)表示,VideoTutor 獲得了CZ及 YZi Labs 投資團隊的認可與支持,並最終由 YZi Labs 領投本輪融資。他們拿到了 10 多個 TS(投資意向書),最後選擇了這幾家。
5 月 14 日上線第一版產品(在 Founder Park 產品市集首發),得到了市場的認可與 PMF 的驗證,不到 5 個月的時間,完成了這筆 1100 萬美元的種子輪融資。
在 Kai 看來,他們能拿到這筆融資的核心原因是:方向正確的前提下,「小天才團隊」用可視化學習的方式解決了 K12 賽道的美國高考學習的痛點。
「這個領域比較適合年輕人去做,再加上有非常好的工程化動手能力,以及 founder 本身有非常好的 insight 和經驗,執行力非常快。」
不只是他們,Cursor、MerMerero、Pika、GPero 等等,
不只是他們,Cursor、MerMerero、Pika、GP 下一個高齡創業的認知。
AI 時代的創業,真的有些不一樣了。
我們跟 VideoTutor 的這些年輕人們聊了聊,想知道為什麼他們能拿到這筆種子輪融資,如今的矽谷創業正在發生什麼樣的變化。以及,為什麼他們這麼想招國內大廠的員工。
訪談來賓:CEO Kai Zhao、CTO James Zhan。
訪談&編輯 | 萬戶
以下是訪談內容,經 Founder Park 編輯整理。

Founder Park:這麼多機構都很看好你們,在你看來,核心是哪個點?
Kai:我覺得首先是方向正確,AI 教育這個賽道非常有潛力和前景,我們切入的教育領域是美國高考 SAT、AP。瞄準的使用者群體是 K12 的高中生,我們和這個使用者群體的 gap 非常小,基本上沒有代溝。我們走過整個準備學習週期,知道考試和準備的痛點在哪裡,能做出一個真正解決這個人群痛點的產品。
其次,團隊非常優秀。 James 來自 Gemini,在Google就是做 AI 工程和演算法的核心工程師。我自己有三次教育創業經歷,從大一開始就創業做教育軟體,在大二期間參與創建 MathGPTPro 其中計畫入選奇績創壇等。有成功打造教育產品的經驗。
第三點,我們做的 AI 教育領域,核心是動畫引擎,而我們是 VideoTutor 的核心開發者,是最了解核心技術的團隊,能把動畫引擎做到十分精準的渲染。
團隊本身有非常好的 marketing 基因,知道怎麼做傳播。
VideoTutor 非常符合美國主流 VC 的一個投資共識,叫“小天才團隊”,指的就是這個領域比較適合年輕人去做,再加上有非常好的工程化動手能力,以及 founder 本身有非常好的 insight 和經驗,執行力非常快。我覺得這是所有投資人都能看好的一個共識的原因。

VideoTutor 在 YZi Labs EASY Residency Demo Day 登上紐交所
Founder Park:你們的產品想解決教育裡產業的哪個核心問題?
Kai:市面上目前的學習產品,可歸為兩類:主動學習產品和被動學習產品。被動學習產品,像是位元組的 Gauth、Chegg、AnswersAi 等,涵蓋了我們稱之為「作業解答」(Homework Help)的場景,學習連結非常短,主要是學生付費來做作業解答。
而 VideoTutor 涵蓋的是主動學習場景,我們不需要考慮學生的學習動機,因為他們必須要去學習、要去考試,例如美國高考 SAT、AP。在這個場景裡,有大量視覺化的痛點需求,美國高考 80% 的內容都涉及函數、微積分等需要複雜影像渲染的知識。 VideoTutor 的動畫引擎就能非常好地解決這個場景。

而且,這領域的客單價非常高。美國平均每年有 260 萬名學生要參加 SAT 考試,付費需求量很大。線下的 SAT 課程收費很貴,不是按套餐,而是按小時收費,平均每小時 150 美元起步,大部分收費在 230 美金。很多學生和家長都會付費學習。但 VideoTutor 能夠很好地平移甚至取代老師的培訓,因為現階段 AI 生成的影片和老師培訓的內容幾乎沒區別了。這樣一來,學生能以最低的成本擁有一個自己的 AI 個人化準備老師。
Founder Park:你們當時決定要做這個產品的契機是什麼?
Kai:其實在我們之前,史丹佛已經有個團隊做了,叫 Gatekeep Ai。他們當時也想做視覺化學習。我當時已經意識到這個方向的影響力了。前幾次創業時,大家做的教育產品基本上都是接 GPT 的 API,類似一種 ChatGPT Wrapper 的產品。但我們發現,僅基於文字問答,這類產品是有天花板的。可以看到,像 Chegg、Gauth 的業務都在下降,很大一部分場景都被 ChatGPT 取代了,因為學生付費 20 美金用 ChatGPT 就能解決很多作業問題。
基於 API 套殼、做優化層面的產品已經到了天花板。
但多模態視覺生成有非常大的前景,因為在美國高考這個領域有非常多視覺化學習的場景。可惜 Gatekeep 開了個好頭,但沒有繼續下去,因為它推出得有點早,當時的基礎模型編程能力還沒成熟,GPT-4 也還沒發布。再加上數學動畫引擎涉及渲染和演算法,他們沒有攻克。但我們團隊掌握了動畫引擎的所有核心開發,解決了這個問題,讓影片渲染非常準確。
Founder Park:你們當時產品上線後,跟幾個學校也達成了合作。在你們看來,是什麼時候或哪個功能讓你們覺得「我這個產品做對了,痛點找對了」,感覺自己找到了 PMF?
Kai:可以從三個維度來說。
首先,從營收指標維度,到現在為止 VideoTutor 已經收到了 1000 家企業的 API 請求,包含了美國所有知名的大型教育機構,甚至國內的機構。此外,還有很多學校想要購買服務。 C 端用戶的意圖更直接,有個學生家長,也是個投資人,他體驗完產品後,把產品給了所有親朋好友試用,所有人都願意付費。然後他不知道從哪裡拿到了我的電話,傳簡訊給我想要投我們。 C 端用戶有非常強烈的付費意願。
第二點,從使用者需求層面。為什麼美國線下一對一的 Tutor 教育那麼剛性?因為家長覺得一對一教學效果好,願意付這個錢。現在多模態 AI 技術已經能擬人化地做到一對一的教學效果,所問即所答。而且,美國線上一對一教學老師錄的影片課,其實跟 AI 生成的影片沒差別了。這就是我說的「需求平移」,學生花大錢買的錄影課程,跟我 AI 生成的沒差別,那為什麼不用 AI 呢?成本更低,教學效果更好。
我們收到了許多學生非常正向的回饋,很多老師也願意傳播這個產品,前期的完播率和使用時長都特別好。我們現在篩選出的 200 個種子用戶,都是早期累積的。
第三點,就是一種產品的 taste 和 sense。當你不斷地做,從整個教育產業的進步、到學生和家長付費的核心需求點、再到產品本身的進化,倒推回來想,整個邏輯是閉環的。所以從這三個維度來看,你就覺得 PMF 已經夠了。最核心的就是,付費意願非常非常強。

跟 FIZZ 達成了合作
Founder Park:很多用戶主動想付費,也有人主動聯繫你們想投資。
Kai:對。 SAT、AP 這個領域,付費意願本來就很強。這個領域的客單價都高達 100 到 200 美金起步,線下上課更貴,可能要 800 美金。美國有 260 萬名學生要考 SAT,其中 37% 的學生都會主動付費,這是一個付費意願和需求都非常強的市場。我們的產品可以實現非常好的需求平移。
Founder Park: SAT 這個賽道,對考生來說,一個真人老師和一個 AI,他會信任 AI 嗎?
Kai:現在 AI 回答像美國高考 SAT、AP 這種程度的問題,基本上不太會出現事實性的錯誤。在這種情況下,為什麼它比線下 tutor 更好?一個是便宜,二個是學生有任何問題都能不斷提問,不用擔心問了笨問題老師會有看法或不耐煩,可以 24 小時隨時隨地學習。
而且這個市場是可以平移的,做完美國市場,我們還可以平移到加拿大、英國的 A-Level 考試等等,付費需求非常大。
Founder Park:付費這塊你們現在怎麼考慮?
Kai:我們是包月訂閱,還有一種是按學習結果付費。我覺得現在 AI 已經可以做到按結果付費了。我們可能會推出一個套餐,例如你付 799 美金,我們保證你的孩子 SAT 數學能考滿分。
Founder Park:但依考試結果付費,不是還要看學生個人的能動性嗎?
Kai:這在國內高考可能做不了,因為高考考核點非常多,有上千個。但美國高考 SAT 只有 62 個考場,其中 50 個是常規考點,大部分學生都沒問題,剩下的 12 個考場基本上也能掌握。除非這個學生的邏輯層次確實有問題,否則基本上不存在學不會的情況。而 AI 的提效效果非常明顯。
其實很多美國線上 tutor 也有這個服務,你付給老師 1800 美金,老師輔導孩子,成功率基本上是 100%,因為 SAT 考點是固定的。只要學生智商水準正常,基本上都沒問題。但高考不行,高考沒辦法短期內提上來。而且國內高考需要拉開分數差距,會有難題,但美國高考不存在絕對的難題,因為它更多是考察你是否掌握了知識點。
按結果付費也是之前教輔老師已經在用的模式,具備這個前置條件。
Founder Park:那你們的定價裡,模型成本會是個困擾嗎?佔比高嗎?
Kai:我們這個領域的客單價定價非常高,都是 69 美金一個月起步,模型成本現在很便宜,不成問題。教育這個行業不像 coding 領域,大家都在卷價格,因為 coding 需要支持很長的上下文。
Founder Park:記得你上次說,你們第一版的原型差不多只花了兩個多月的時間。當時整個開發週期,例如分工、決定要做哪些功能、不做哪些功能,是怎麼考慮的?
Kai:我們團隊所有人的共識就是,迭代要快,因為快才能快速得到早期使用者的回饋。
第一個版本在推特上發了之後引起了很大轟動,帶來了大量用戶。但這些用戶裡,很多是程式設計師、投資人或科技愛好者,我們可以統稱為「科技嚐鮮者」。在那個階段,從他們那裡得到的回饋比較分散,價值不大。還是要從這麼多廣泛的用戶裡,篩選出真正核心的種子用戶,也就是高品質的高中生,然後透過諮商的方式獲得有用的回饋。
我們得到的核心回饋就是,影片渲染的精確性必須達到 100%,這是需要最佳化的重中之重。 UI 是否好看,或者是否支援不同的 TTS 聲色選擇這些功能,都被我們砍掉了。回歸到產品的核心:我們做的是理科場景的知識學習,那麼圖形渲染的精確性就是核心。
Founder Park:生成時長當時是怎麼取捨的?
Kai:那時候最高的高峰時間大概是 6 分鐘。當時的主要考量是,普通題目的講解和知識點講解不應該超過 6 分鐘。但後續的回饋中,我們發現有些學習能力不是那麼好的學生,希望內容能再多深入一點。我們意識到時長不該做限制,更多還是取決於使用者的學習能力。
Founder Park:現在最長能到多久?
Kai:最長應該在一個小時以內,可以一直打破砂鍋問到底。邊交流邊即時生成,不過這個功能是最近上的,最開始的版本是沒有的。
Founder Park:有沒有當時想做,後來發現沒那麼重要就先不做的功能?
Kai:比如說 App。當時覺得是不是要快速開發 App,但後來發現美國大部分學生基本上都是用 Laptop 或 iPad 學習,美國大部分 K12 學校都會給學生發一台 Chromebook 電腦,電腦高度普及,他們的作業也都是在電腦上完成。高中生基本上人手一台電腦,手機在學習場景的佔比不到 5%,比例很低。
Founder Park:所以如果是一款主打教育或學生群體的產品,網頁端是首先要做的,App 倒倒沒那麼重要。
Kai:對,當時其實已經知道這個數據了,畢竟在美國上學多年。後來我們從早期的幾萬名用戶挖了 100 個學生做研究,這 100 個學生裡面 90 多個都有電腦,所以我們更確信了這一點。
Founder Park:你們上線第一個版本時,也是瞄準 K12 群體來做的嗎?
Kai:是的,之後也是瞄準這個群體。我們跟 Gauth 不算競技,我們更多的是做考試訓練場景。美國大量高中生本身就會選擇線下培訓或線上學習平台,而 VideoTutor 很好地把這個需求平移了過來。
Founder Park:K12 會是你們起碼一年內的核心使用者群體嗎?
Kai:應該是兩年以內的核心指標。
Founder Park:簡單介紹一下你們現在的技術實現方案吧? VideoTutor 在生成課程、圖表這塊確實做得比其他視頻生成模型好很多,甚至在很多模型連文字都無法準確生成的時候,你們的技術讓人很驚喜。
James:我們產生的影片既有文字也有圖案。大概的生產流程就是:讓大語言模型去產生文字和對應的動畫指令,然後動畫指令再經過我們的動畫引擎渲染,最後呈現在影片上。
文字部分相對簡單,我們讓大語言模型產生文本,然後直接渲染上去。但動畫部分,是我們自己的一個數學動畫渲染引擎產生的。它的優點在於渲染座標軸、幾何圖形等內容的精確度非常高,而這正是我們的核心技術所在。
現在的大語言模型輸出的只是文本,我們做的這套 agent 就相當於給了大語言模型一張紙和一支筆,讓它能把它想像中合適的教學動畫給畫出來。畫出來的那一部分,就全是我們的技術了。
Founder Park:整個視頻最後的合成,包括音視頻,是怎麼處理的?
James:一開始使用者會傳入一個 prompt,例如「什麼是勾股定理?」。第一步,我們讓大語言模型去推理所有場景,一般會規定 3 到 5 個場景,這取決於問題的難度。然後,模型會為每個場景產生大致的腳本。接著,再根據每個場景的腳本做第二次推理,產生場景中的文字、對應的圖案和人聲的文字。人聲文本再用 TTS 合成。
最後,我們把所有場景拼接起來,組成一個完整的影片。
Founder Park:我理解第一版是這樣的方案。現在加入了隨時可互動的過程之後,生成過程是不是也有變化了?
James:確實有變化。我們現在為了讓使用者能最快看到內容,會先生成第一個場景,讓使用者先看,後面的場景則在後台繼續渲染。當使用者提出問題時,我們會將他的人聲轉換為文本,然後把這個文本連同之前所有場景的內容一起交給大語言模型去推理,讓它規劃接下來的教學場景。後續場景的渲染流程就跟之前一樣了。
Founder Park:如果使用者在聽到一分鐘時有個問題,他會直接提問。你們收到提問後,就把用戶的提問和之前講過的內容一起回給模型處理。在這個過程中,用戶提問完之後,動畫是繼續播出還是會停下來?
James:我們現在的延遲已經從一開始的二三十秒,壓到了 5 秒以內。在互動上,我們會做一些過渡,讓使用者不會過度專注於這 5 秒,整個過程的銜接會比較絲滑。在 4-5 秒內,他就能看到根據他問題全新呈現的內容。
目前階段的設計是,AI 老師會說:「嗯,我考慮一下」,然後把黑板一擦,就像真實模擬老師一樣。你覺得講得有問題,那我就擦掉重新給你寫一遍,這樣的流程會感覺比較自然。
而且我們不只是被動地等待使用者提問,中途我們也會做 Quiz。我們會根據 Quiz 的回饋和使用者的問題進行推理。而且我們不是完全自由麥,而是需要使用者主動打開麥克風,有一個開啟和關閉的動作。
Founder Park:所以基於這樣的機制,最長大概能產生一個小時的解說。
James:準確來說是沒有限制的,如果他一直有問題,就可以一直問下去。
Kai:對,沒有預設限制。其實 VideoTutor 做這個方向,也是隨著多模態 AI 的進步,我們不是在創造需求,而是在更能滿足現有的需求。你看線下的真人教育,為什麼美國家長願意付很貴的錢?因為美國教培產業更多是一對一教學,每小時 100 美金起步。就是因為線下的老師能做到引導式提問,我能觀察到你哪裡不會,然後接著問你。 VideoTutor 也是盡量實現這種真老師的教學效果,讓每個孩子都能做到即時互動、即時教學。
Founder Park:學生上課時,會要求開啟攝影機嗎?
Kai:不太會。學生是否開攝影機主要取決於美國的隱私法案。產品裡面不太會設計強制開啟的功能,是否開啟取決於學生的意願。主要的互動還是透過提問和語音回饋。
Founder Park:技術上,你們是採用小模型和雲端大模型配合的策略,還是怎麼樣?
Kai:是一種配合。我們內部有一個資料集,現在已經有超過 10 多萬個的視訊資料。這些資料中比較好的都會被人工進行二次標註,然後用來訓練微調模型。例如我們現有超過 8000 條的 SAT 樣本訓練資料。這些微調過的小模型會配合雲端的通用商用模式像 Claude、Gemini 來做。
Founder Park:用 Claude、Gemini 還是 GPT,會對產品的核心效能有影響嗎?
Kai:我們主要涉及 K12 領域,基礎模型的水準已經足夠了。但為了確保 100% 正確,我們會呼叫兩個模型同時校對,如果兩個模型答案一致,那麼基本上就不會出錯。在程式碼產生方面,更多還是以 Claude 為主,它的程式碼能力比較好。
Founder Park:現在產品的技術瓶頸在哪裡?是模型能力還是程式碼生成?
Kai:模型能力是其中一環。還有就是渲染,現在已經攻克到 5 秒以內,隨著 GPU 的更多部署還能更快。另外一個就是長期記憶能力。我們需要對學生進行長期的學習行為數據積累,知道這個學生有哪些知識點不懂,例如一個月前學的知識點忘了,可以重新提醒他。
James:我們在渲染時間上其實下了很多功夫,一直在做技術突破,從一開始的 2 分鐘到 1 分鐘,再到現在的 10 秒以內。我們最終的目標是希望能做到基本上沒有延遲的渲染,使用者一問,推理一結束馬上就出結果。這是我們團隊目前在攻克的一個難題,但已經找到了新方向。
Founder Park:現階段怎麼衡量產品的核心指標?怎麼判斷一個影片對使用者是有用的?
Kai:最核心的一個指標就是考試。在新版本裡,你看完視頻,結尾會有一個 quiz,做對了就證明你理解了,沒做對就證明沒講明白。
學習效果沒辦法只看完播率,有些學生可能看一半就懂了。在他看一半的時候給他做個測試,通過了,剩下的就不需要看了。我們產品的核心指標,就是看多少學生在這裡提高了分數。
Founder Park:但他最終的考試是在別的場景完成的,你們怎麼得到他是否通過的這個結果?
Kai:這就要說到美國的產品文化,就是使用者使用產品後,得到好的結果,會有一種自發性的分享。很多學生用完 VideoTutor 考完 SAT 後,會主動過來分享他們的使用經驗和成績。我們也會讓他們成為校園大使,進行二次傳播。
我們有 20 位高中生組成的校園大使。其實你看 Mercor 早期非常成功,用的就是典型的「使用者成功故事」模式。 Mercor 早期幫很多印度程式設計師找到了美國的工作,然後他們就會聯絡這些用戶,給他們拍一個 user story,講怎麼用 Mercor 找到工作的。這形成了很好的口碑傳播。 VideoTutor 也是一個道理,我們要的就是更多學生使用產品後達到非常好的效果,然後把這些學生的經歷做成 user story 分享出去。
Founder Park:學生主要分享的管道在哪裡?
Kai:學生主要在 TikTok,家長在 Facebook 的群組裡。
Founder Park:如果把時間放到半年或一年的時間維度,你們規劃的產品成長方式是怎樣的?
Kai:我覺得本質上,VideoTutor 核心還是一個 C 端用戶產品,口碑傳播非常重要。許多成功的 AI 應用程式早期都是靠種子使用者的口碑,例如設計師用了覺得好,就傳播開了。對我們來說,核心指標就是有多少 SAT 考生用了這個產品後考了高分,然後傳播給其他孩子和家長。家長主要用 Facebook 和 Instagram,學生用 TikTok,我們會在這些平台上傳播。當形成這種共識性的口碑時,學校老師自然而然就會意識到。我們早期能被這麼多學校知道,就是因為很多老師用了覺得不錯,推薦給了學校的採購負責人。所以,最核心的還是 C 端用戶的口碑傳播,多少孩子用了之後提高了分數是關鍵指標。
Founder Park:新版大概的狀態和推出的時間規劃是怎麼樣的?
Kai:我們希望最快在兩個月內正式 public release。屆時學生能夠以很低的延遲做到所問即所答,並且理科場景的圖形渲染能做到 100% 準確。當然,我們暫時不會涵蓋競賽場景或像線性代數這種複雜的大學知識,更多還是涵蓋 K12 領域。
Founder Park:VideoTutor 現在的障礙或護城河是什麼?
Kai:我覺得有幾點。第一是數據飛輪。影片背後都是程式碼,用戶產生的好的影片數據,經過二次標註後,就能被重新訓練微調模型。越多的數據,影片效果越好。另外就是學習行為數據,我們知道不同學生哪個知識點薄弱,就能建立起數據飛輪,越多人用,產品就越懂學生。第二是領先的技術優勢,例如動畫引擎的演算法。雖然演算法本身不是最核心的優勢,但隨著我們快速迭代,數據越來越多,優勢會更明顯。
第三是品牌,VideoTutor 已經在北美家長圈裡成為 AI 教育領域的一個頭部品牌了,家長的信任度也是一種無形的壁壘。
Founder Park:三到五年後,你預期 VideoTutor 最終會成長成一個什麼樣的產品?
Kai:我們希望未來 VideoTutor 能成為每個人學習理科知識的 AI 老師。我們只做理科。我覺得未來它會超過多鄰國。多鄰國是一個世界級的語言學習產品,但在 STEM 理科場景,過去一直沒有出現世界級的產品,因為理科需要太多圖形渲染。現在基礎模型的技術已經 ready 了,所以我覺得理科場景會誕生下一個「多鄰國」。
Founder Park:你之前有過幾次創業經歷,大概都是做什麼的?
Kai:我現在大三。大一的時候就和 James 一起創業做教育產品,拿了 20 萬美金的天使投資。雖然那次失敗了,但學到了寶貴的經驗:你不能陷入同質化的競爭。當時我們做的 App,市面上有許多同類產品,早期就得陷入投流競爭,很難收費。
第二次創業,我作為共同創辦人加入另一個團隊 MathGPTPro,待了幾個月。在那個階段,我學到了怎麼看待產品指標、如何打造產品、怎麼做使用者擴充。也是在那個時候,我得出一個結論:基於文字類的解答型教育產品已經到頭了。因為它和 ChatGPT 沒什麼差別,而且過去像作業幫花很大代價做的結構化知識題庫,也被大模型的編輯能力取代了。所以第三次創業,就知道,視覺化是必然的趨勢。

趙凱在哈佛大學跟 Sam Altman pitch 的合照
Founder 的合照 Founder 的合照 Founder 的合照 Founder Park:對現在做兩段文字,除了現在的文字或局限有什麼幫助嗎? Kai:有很大幫助。 第一點,更好地判斷方向和產品是否有未來。我會透過看競品的網站流量、營收,來判斷整個產品的進化方向。 第二點,產品打造方面,能更好地判斷產品的開發節奏,包括產品設計、前後端對接、要看哪些指標。 第三點,團隊管理與組織文化能力。我建立了更完整的管理制度,包括每位同學的分工、獎勵和選擇權發放。還有,也學會怎麼去融資了。這一輪 1,000 萬美金的融資,我們在 20 天內就完成了。 Founder Park:你們現在團隊有多少人? Kai:6 個人,大家住在一起。 Founder Park:團隊最初是怎麼搭建起來的? Kai:我跟 James 已經創業兩次了。我們兩個都是一個學校畢業的,大一的時候就一起做了一款 App。大二的時候,我跟另外兩個人一起創業,大家彼此都認識了。當意識到這個技術能帶來非常大的產品願景時,我們就聯絡組隊來做這個產品。之前大家都是校友,包括團隊另一位合夥人 Nick 也是我的大學室友。 Founder Park:你們現在也準備擴招,想招什麼樣的人? Kai:我們主要招後端、前端、大語言模型和 UI/UX 方面的,希望是有經驗的。因為我們現在已經跨越了試誤階段,進入了產品快速 build 的階段,需要有經驗的人來幫助我們成長。 Founder Park:需要有經驗的工程師、產品經理和成長負責人,來把產品從 1 做到 10,甚至從 10 做到 100。 Kai:是的,就是這個階段。我們預期把團隊擴充到 9 到 10 個人,核心還是以招工程師為優先。 這次招的可能會在國內,所以是 in-person 和遠程混合的方式。 Founder Park:希望這個人是什麼畫像的? Kai:我們更希望他是在一些大廠經歷過的,例如位元組、美團。因為位元組是高速、比較卷的組織文化,重視年輕人。在字節訓練過的人,有比較好的方法論和能力,加入我們之後能把這些成功的經驗帶進來,進行融合學習。 想要在國內大廠打過硬仗、有快速迭代經驗的人。我們已經度過學生創業階段了,不太需要招新手,更多需要招一些有經驗,但又不是那種完全的「行業老砲」。因為業界老砲可能要顧及家庭,沒辦法那麼捲。所以中間層次的,年輕又能捲的就比較好。 我們願意給優秀的人才豐富的選擇權。我們雖然融了 1100 萬美金,但為什麼沒在美國招工程師?就是因為我們覺得國內的產品力和工程能力真的非常好。這一波 100% 會有華人經營的團隊打造出偉大的產品,在國際上跑出來。現在很多 AI 應用層面都是華人打造的,國內的工程能力真的很厲害。這也是我們的優勢,要利用中美兩國之間的優勢。 Founder Park:現在尤其是在矽谷,大學生創業的趨勢特別明顯,你看到的是一個什麼樣的狀態? Kai:看一個事實,就說這輪百億美金估值的公司:主打 AI 招聘的 Mercor,已經完成 3 億多美金的新的融資,估值已經百億美金;而 Cursor 已經是板上釘釘的 100 億美金估值。對應的還有像是 GPTZero、Pika 等等。這些都是大學生創業項目,尤其是 Cursor 和 Mercor 的創始人都是大三輟學生。 這一波年輕人創業,都有一個特點,就是高度差異化競爭。他們在極窄的領域裡專注去做,沒有做通用的東西。例如 Mercor 做 AI 招聘,一開始就只做印度程式設計師的招募。 第二點是環境。整個矽谷的資本環境和底層創新,像是史丹佛、YC、Peter Thiel 的基金,都在最早的階段支持大學生創業,不管你有沒有成熟的想法,都願意支持你,並且提供強大的人脈網絡。 第三點,我覺得是這些大學生的特質。無論是我們,或是矽谷出來的這些大學生,都有非常勇敢的冒險精神和強大的學習能力。這種勇敢闖蕩的精神,國內許多學生可能不太有。因為在矽谷,身邊有很多同儕成功的案例激勵你,資本環境也願意相信年輕人。 對我來說,當時也對比成本和效益。如果我選擇讀完大學再找工作,未必能還得起家裡的留學成本,也未必有很大的收益回報。但如果選擇創業,我能在最年輕的時候去瘋狂學習,我的人生就有無限的可能。我從小就想創立一家偉大的公司。 Founder Park:為什麼今天這一代大學生創業能做出百億美金的公司,而以前可能賣個一兩千萬美金就算很了不起了?這裡面有 AI 的熱潮和泡沫因素嗎? Kai:我覺得不完全是泡沫。 Cursor 有 4.5 億美金的真實營收,這是很可靠的。這背後,是這一代年輕團隊的方法論和認知 insight 非常關鍵。你看這些團隊,背景都蠻優秀,他們有非常好的學習能力。 Cursor 早期就是靠身邊的大學生程式設計師,這些人對 AI 接受度高,給了很強的回饋。創辦人本身也是個小天才工程師,能深刻理解用戶,工程迭代能力強,早期就四個人把產品幹起來了。他們把產品迭代好之後,就形成了用戶口碑,有了營收,投資人也怕錯過下一個 Mark Zuckerberg,所以資本又來助力。 最底層的條件是,AI 這波很多技術是新的,年輕人學習速度快,又務實、靠譜、敢幹,所以有極致的用戶理解和超快的迭代速度,去擊敗傳統的產品。例如在 Cursor 之前,GitHub Copilot 做得也挺好,但為什麼沒乾過它?就是因為使用者體驗和執行速度。 Founder Park:是不是可以說,因為 AI 是新技術,所以很多產品認知也需要用新的角度來看? Kai:對,年輕這一代比上一代創業家有更深的認知見解,能離使用者更近。現在主流的 AI 使用者都是 00 後了,他們學習和回饋的迭代速度、包容程度,都比上一輩創業家更快。 所以,認知迭代速度是核心。在行動互聯網時代,技術迭代是以年或季度為單位的,但 AI 時代,技術迭代可能是以天為單位的。身為 founder,你必須快速學習,而年輕人更能熬夜,更有拼勁。 Founder Park:之前有媒體說矽谷很多創辦人也開始 996 了,你們怎麼看? Kai:我身邊一些白人創業朋友,融了很多錢,也 996。他們也跟我們一樣,租個大 house,所有人住在辦公。我覺得 996 更多是環境所迫,現在矽谷有點像淘金熱,大家都不想落後,那就只能比產品迭代速度,必須熬夜快速迭代。這是一種環境塑造,倒逼人必須這麼做。 Founder Park:矽谷的這些大學生創業,在賽道選擇上有什麼趨勢嗎? Kai:我覺得無論是我們做教育,還是其他人,大家都有一個趨勢,就是在自己的舒適圈創業。舒適圈指的是你對這個領域和使用者夠了解。 Cursor 創辦人對 coding 非常了解,我們做教育也是因為對這個人群足夠了解。現在的年輕人比較是在自己已有的認知舒適圈創業,不再貿然跳到不了解的領域。因為這樣你獲得的用戶的回饋才夠快、夠正確。 還有認知疊加。我們三次都做教育,我的認知是不斷疊加的。這幫大學生不太會貿然做過去沒幹過的事,都是想著怎麼幹得更好。他們有新一代的思考方式,在自己認知圈不斷迭代,勇於創造機會。 還有一點是勇敢闖蕩的精神,不太會因為別人的否定而否定自己,有一種「I don't care what you think about me」的態度,非常自信。背後就是「高速實驗」的文化,我知道我產品還沒 ready,但我不管,快速上線、快速迭代、快速回饋。 Founder Park:這個風潮大概是從什麼時候開始的? Kai:我覺得是一種共識的成功。當大家看到像 GPTZero 這樣的項目,從宿舍裡成長起來,不斷迭代,然後獲得資本助力和用戶認可,這種快速試錯、快速爆發的成功案例多了,就形成了共識。 一句話,「Better done than perfect」,完成比完美更重要。而且大家也不太擔心競爭,矽谷很多 founder 都願意把自己的產品概念講出來,不怕你抄,我只要快速迭代就好。我覺得這一波年輕人還有很好的 story telling 的能力,這種講故事不是假大空,而是在務實求真的基礎上,加上自己對未來的展望。 Founder Park:先把自己行銷出去。 Kai:對。我覺得底層的觀念在於冒險精神和極度自信。在這種驅動下,他們就不斷勇敢試錯,不怕講錯話。大膽地講自己的產品理念,大膽去執行,錯了大不了再改。這種不怕試錯的文化,促成了這一波大學生創業的熱潮與成功。 美國那邊的 VC 也會看大學生的項目,YC 每期都會固定投一些大學生的項目。 Founder Park:如果回到剛做 VideoTutor 的時候,你會給自己提什麼建議?有什麼可以做得更好的地方? Kai:我覺得應該是節奏更快一點。還有就是團隊組成。 VideoTutor 的團隊是經過多輪磨合的。如果我早知道,我會更早根據產品所需的技能畫像,去更好地組建團隊。我覺得創業回歸到最後,組織能力非常關鍵。我會花更多時間在組織能力上:選人、識人、用好人。 現在的團隊適合從 0 到 1 的成長,但要把 VideoTutor 做得更大,還是需要更有工作經驗的人加入進來,把他們優秀的經驗和能力帶到團隊,幫助整個團隊共同成長。 Founder Park:未來半年內,你覺得 VideoTutor 可能會遇到什麼樣的產品或技術難題? Kai:我覺得一個是渲染,要降到真正的零延遲,還需要工程上的突破。第二點是成長方面,我覺得是產品的 taste,背後包含很多東西,例如 UI、互動設計是否絲滑完美,功能互動是否沒有 bug,視覺佈局是否漂亮等等。這些對我們來說都是考驗。 James:我覺得一開始我們對 VideoTutor 的定位是針對所有學科的可視化教學輔導,但後來我們做得非常垂直,只針對數學領域,因為那是我們最擅長的。我們的數學渲染引擎是最專業的。接下來重點要突破的,可能就是橫向擴展。例如,如何把可視化的優勢帶到文科類場景?例如解釋「鋤禾日當午,汗滴禾下土」。這是我們接下來在技術上要考慮的點。 Founder Park:會因為創辦人的背景在後續擴張上遇到困擾嗎? Kai:不太會。其實有很多大的 VC 都找過我們,像 a16z 這些,不會在太早期出手,而是在團隊已經有成功跡象時再助力,這樣他們知道投資不會失敗。我們和很多大 VC 都保持著很好的關係。 融資是 VideoTutor 最不需要擔心的事情,最需要擔心的還是圍繞著使用者生態和產品。 歡迎加入律動 BlockBeats 官方社群: Telegram 訂閱群:https://t.me/theblockbeats Telegram 交流群:https://t.me/BlockBeats_App Twitter 官方帳號:https://twitter.com/BlockBeatsAsia矽谷的大學生,都在 AI 創業了
融資是 VideoTutor 現在最不需要擔心的事情