作者|SnowyM
編輯|陳伊凡
頭圖|AI生成
“AI原生100”是虎嗅科技組推出針對AI原生創新欄目,這是本系列的第「32」篇文章。
在今天這個AI“淘金熱”的時代,所有人的目光都聚焦在那些更智能、更強大的大語言模型上。
然而,大多數人都忽略了一個房間里的大象:如果AI吃的是“垃圾”,那么它吐出的也必然是“垃圾”。
在B端企業中往往會有超過80%的數據,被“鎖”在PDF、掃描件、表格和演示文稿這些“混亂”的非結構化文檔中。
傳統的OCR工具在處理這些文件時,會“弄亂”布局、破壞表格,導致下游的LLM產生“幻覺”。這在金融、醫療或法律等嚴肅場景中往往是不可被業界接受的。
而在硅谷,一個可能會終結“垃圾進,垃圾出”問題的初創企業,叫 Reducto AI。
這家公司在沒有任何營銷的基礎上,用了 18 個月就融資 1.08 億美元,約合人民幣7.6億元,而其快速的融資速度,即便是在爆火的AI熱潮下,都十分少見。
嘉和資本CEO袁子恒告訴虎嗅,文檔解析類產品,能做和做好的差別很大,因為B端客戶需要的是高精度,特別是文檔布局的表格、復雜公式識別。這也是Reducto AI能夠迅速脫穎而出的優勢。從產業鏈定位來看,非結構化數據解析平臺偏infra層。也就是說,更像是個“賣鏟人”。無論AI營銷、AI客服、AI財務、AI研發、AI HR,AI供應鏈等等,都離不開底層的結構化數據。所以市場規模很大,全球市場超千億美金,還在以超過40%的速度高速增長,因為企業的數據80%以上是非結構化數據,還在持續增長,這些非結構化數據都需要處理成高質量、結構化、AI可以使用的數據。而從用戶需求來看,數據沒有AI-Ready是目前國內外企業落地AI和構建自有知識庫的最大障礙,“痛點很迫切”。
瘋狂增長
Reducto AI成立于2023年1月,起初只是一家兩人團隊的初創公司,在短短18個月內,它相繼獲得了硅谷“名人堂”的重注(虎嗅注:硅谷工程師協會(SVEC)于1989年成立,該協會自1990年開始設置硅谷名人堂。 硅谷工程名人堂旨在記錄那些在專業領域取得了杰出成就的工程師和技術領袖們。 從1990年以來,有超過97個人入選該榜單。 最近一次是NVIDIA 的首席科學家 Bill Dally。 他在斯坦福大學工程學院的流處理研究成果幫助推動了 GPU 計算的發展,掀起了 AI 革命。)
從2024年起,Reducto憑借其API優先(API-first)的文檔AI平臺便開始吸引全球頂級投資機構的目光。
頂級VC們在極短時間內接力領投,反映了他們對這樣一個“品類定義者”公司的極度FOMO(恐慌情緒)。其A輪(2025年4月)和B輪(2025年10月)之間僅隔5-6個月 ,還觸發了B輪領投方(a16z)的“搶先下注”(Pre-emptive Round)。First Round(頂級種子)、Benchmark(頂級A輪)和a16z(頂級B輪)這三家風格頂尖的機構相繼成為Reducto的“第一大外部股東”。
到2025年10月,Reducto的累計融資額已達到1.08億美元。
這里有個很好的小故事,足以證明Reducto的融資速度,其CEO Adit Abraham曾在播客采訪中透露,當Reducto還只是一個兩人團隊時,Benchmark的Chetan Puttagunta就主動與他們溝通,建議進行A輪融資。
這種“反向推銷”的現象,充分反映了Reducto在硅谷的影響力。
Reducto到底造出了什么,能讓全美最大的孵化器——YC社區的早期用戶驚呼“比亞馬遜的AWS還好”?
Reducto的產品形態是一個API優先的文檔AI平臺,輔以一個名為“Reducto Studio”的交互式工作區,供團隊構建、評估和部署數據管道。
它不是一個單一的工具,而是面向開發者的“工具箱”。其核心API矩陣構成了一個完整的工作流,大致由 4 種 API 組成,我們做了整理:
Parse API(解析):作為Reducto的基礎,Parse API將復雜文檔(如PDF、圖像、表格)轉換為包含文本、表格、圖形及布局信息的結構化輸出。
Extract API(提取):基于Parse API,允許用戶通過提供JSON Schema或自然語言提示,從文檔中精確提取結構化字段。
Split API(拆分):將長文檔(如1000頁PDF)智能拆分為語義上有意義的“塊”,為下游RAG應用優化上下文。
Edit API(編輯):Reducto的“核心”,是行業首個AI文檔編輯API,允許AI“回寫”或填寫文檔中的空白、復選框和表格。
在API層之上是Reducto最核心的Agentic OCR框架。
由于Reducto的技術哲學是“像人類一樣閱讀”,采用“視覺優先”方法,將PDF視為包含豐富上下文的視覺對象,而非純文本流,所以他們創新性地采用了Agentic OCR工作流,大致如下:
首先,“傳統CV(計算機視覺)”模型首先介入,對文檔進行視覺分解,理解文檔的整體布局,捕獲區域、表格、文本塊。
接著,“VLM”模型介入,在上下文中解釋每個區域,將標簽(如“發票號”)與數值(如“INV-123”)智能地關聯起來。
最后,由Reducto的護城河技術:Agentic VLM 智能體模型,像一個“人類編輯”一樣,自動審查和糾正前兩遍輸出中可能存在的微小錯誤。
這個“AI監督AI”的系統使Reducto在長尾邊緣情況(如復雜表格、手寫體、低質量掃描件)中仍能保持高準確率,避免了傳統OCR/VLM解決方案中的人工審核問題。
這個“多遍自修正”系統,通過AI智能體替代人工審核員,自動化質量保證(QA)環節,從而實現極高的準確性。
這就是革命性的地方。
傳統OCR/VLM的解決方案是“人在回路中Human-in-the-Loop”(HITL),即模型無法處理時,將任務發給人類審核員。這既慢又貴。
Reducto的“Agentic OCR”用一個“AI質檢員”取代了“人類審核員”。這是一個“AI監督AI”的自修正系統。這就是為什么他們能實現“99%+”的準確性。
憑借這樣的核心產品技術,Reducto的增長堪稱“閃電戰”。在參加2024年初的YC W24批次期間,Reducto完成了從“LLM記憶”到“文檔AI”的關鍵轉型。
Reducto在核心產品(Parse API)發布后的6個月內,ARR從0增長到“7位數”,超過100萬美元。
在2025年10月的播客采訪中,CEO Adit Abraham分享了通過“創始人主導銷售”(Founder-led sales)實現ARR突破500萬美元的經驗。
除了ARR,其他增長指標也相當亮眼。
到2025年4月A輪融資時,Reducto已經處理了“數億頁”文檔;而在2025年10月的B輪融資時,累計處理量超過了“10億頁”。在A輪到B輪的短短5-6個月內,月處理量增長了6倍。
Reducto還表現出了極高的資本效率。CEO Adit Abraham在播客采訪中多次強調,公司在籌集了1.08億美元后,到2025年10月為止,僅“燒掉”了100萬美元。
“籌集1.08億,只花100萬” 表明Reducto的產品市場契合度(PMF)極強,團隊也非常精干。Adit也表示這筆錢,將全被用來在AI人才戰中不計代價地招募到最頂尖的博士,并且用來應對與AWS、Google等云巨頭的長期消耗戰。
硅谷經典創業路徑
Reducto AI的2位創始人也非常有來歷,經驗和性格的搭配讓其順利走過了從“維生素”到“止痛藥” 的硅谷經典創業歷程。
Reducto AI由兩位MIT畢業的聯合創始人Adit Abraham(CEO)和Raunak Chowdhuri(CTO)共同創建。
Adit畢業于麻省理工學院(MIT),獲得計算機科學與工程學士學位。他曾在Google擔任產品經理,負責YouTube搜索,并領導了YouTube搜索歷史上收入最高之一的項目發布。
他還在MIT Media Lab和BlinkAI從事機器學習(ML)研究。Adit是一位具備深厚技術背景的“產品型CEO”,深刻理解技術商業化和規模化的關鍵。
Raunak同樣畢業于MIT,獲得計算機科學學士學位,主攻AI與機器人方向。他是一個“技術天才”,在高中畢業前便在計算機視覺(CV)領域發表了學術論文,并獲得了超過100次引用。在MIT期間,他還曾在MIT Driverless的感知團隊和MIT林肯實驗室擔任機器學習(ML)研究員。
在創辦Reducto之前,Raunak創辦了一家計算化學咨詢公司,并成功將其干到20萬美元的ARR。
可以說,他是Reducto的技術核心,在計算機視覺領域擁有近十年的“科班”經驗。
兩位創始人最初相遇在MIT,當時Adit是大三學生,而Raunak是大一新生,他們在一門研究生機器學習課程上結識。
Reducto的誕生并不是一帆風順,他們也進行了Pivot(產品轉型)。
最初,Adit和Raunak申請YC時的項目名為“Remembrall”,它是一個“LLM的長期記憶API”。這個項目在Twitter上引起了一定的關注,并收到了數百個試用注冊。
然而,Adit在與這些早期用戶交流時發現了問題:雖然用戶覺得這個想法“有趣”,但并沒有真正的需求,客戶只愿意為此支付每月10-20美元。
這個項目顯然只是一個“弱信號”的“Vitamin”(維生素)產品,而非真正解決“Painkiller”(止痛藥)類問題。
在深入與客戶對話后,Adit和Raunak敏銳地意識到,客戶反復抱怨的“如果你能管理聊天記錄,能否管理用戶上傳的PDF文件”才是一個“強信號”。
他們發現,幾乎所有AI團隊都面臨“處理PDF的準確性”問題。于是,他們花了一個周末時間,用Streamlit構建了一個簡單的PDF解析工具原型,并在YC論壇發布。
結果,得到了截然不同的反饋,用戶紛紛表示:“這比我從Textract(AWS)得到的結果還好,有API嗎?”
這個反饋讓Adit和Raunak意識到,他們找到了真正的“Hair on Fire”的痛點,立即決定放棄原有的LLM記憶項目,轉而專注于文檔智能,從而誕生了Reducto AI。
在YC期間,他們憑借全新的方向和出色的產品原型,在仍然是“兩人創業公司”的時候,就成功簽下了一家《財富》10強企業客戶,驗證了PMF。
而且,Adit的畫像在業內非常清晰:極端專注、反直覺、客戶至上。他非常重視“拒絕”的藝術(The Art of Saying "No")。在Reducto的早期,他曾果斷地“解雇”一個價值5000美元的合同,因為該客戶的需求會分散團隊的精力。
他也拒絕了價值“數百萬美元”的建筑文件合同,因為這不符合他們對核心產品精度的專注。Adit非常推崇“工程師每周只有一個優先事項”的工作模式,確保團隊能夠在一個方向上做到極致。
作為一位技術背景的創始人,Adit親自負責公司的銷售工作,直到ARR突破500萬美元。他的銷售理念是“關懷勝于銷售技巧”,他強調應該與早期客戶建立深度關系,以至于“你愿意邀請他們參加你的婚禮”。
開辟新藍海的“賣鏟人”
Reducto所處的“智能文檔處理”(IDP)市場,正在以20%-30%的高復合年增長率高速擴張。
這個賽道的核心痛點,就是我們開頭提到的“80%的數據詛咒”:企業價值被“鎖”在非結構化文檔中,而傳統OCR工具的“準確性災難”導致AI“垃圾進,垃圾出”。
表面上看,這是一個充斥著三類玩家的“紅海”。
云巨頭們,像是Amazon Textract, Google document AI, 它們是云平臺的“捆綁”服務,價格低廉,與云生態深度集成。老牌企業軟件(像是ABBYY),是為“業務人員”設計的“低代碼”RPA工具,品牌歷史悠久。同時,這個行業還存在著一堆開源工具(像是Unstructured.io), 免費、可自托管。
然而,Reducto正在這個“紅海”中開辟一個全新的“藍海”。
Reducto AI是一家罕見的,在正確的時間(VLM與RAG爆發的技術周期)由正確的人(“產品CEO” Adit與“技術天才CTO” Raunak)執行了正確戰略(從YC的“市場拉力”轉型和“極端專注”)的“三重奏”公司。
他們沒有去制造“淘金熱”中的LLM,而是選擇成為那個最關鍵的“賣鏟人”。
云巨頭的工具是“大而全”的捆綁產品,但在需要極致準確性的“長尾”復雜文檔上表現不佳。Reducto則在基準測試中“最高領先AWS, Google和Azure 20%”。在金融或醫療領域,這20%的準確性幾乎就是生與死的區別。
例如,AI原生TPA(第三方管理人)Elysian使用Reducto處理保險索賠文件,將審查速度提高了16倍。醫療公司Anterior使用Reducto處理醫療記錄,實現了99%以上的準確率,將決策從幾天縮短到幾秒。
這種創業路徑和領域,也給了許多AI創業者啟發。
當然,涌入的創業者,這也給Reducto帶來競爭和挑戰。袁子恒最近正在陪跑一家中國出海的文檔解析創業企業,他表示,這家企業的精度超過了Reducto,并且成本更低,速度更快,還開發了自有的多模態數據解析引擎和多個自研模型,主要面向海外市場,已經獲取了很多海外企業客戶,有美國的知名大學、金融機構,還有歐洲的一些企業,在解析精度、千頁價格、支持的格式種類還超過了歐洲大力扶持的大模型廠商Mistral的OCR。
另一個挑戰來自大廠。
首先,AWS和Google正在將其文檔處理能力與VLM(如Gemini)和AI平臺(如Bedrock)深度“捆綁”銷售。他們可能以“更低”甚至“免費”的價格提供“足夠好”的解析能力。
其次,行業面臨“GPT-5是否會免費解決這一切?”的長期威脅。隨著基礎模型在視覺理解能力上的飛躍,Reducto的“準確性”優勢可能會被削弱。
不過,巨頭切入的市場,可能與Reducto不同。袁子恒對文檔解析的創業生態十分熟知,DeepSeek也做過類似探索,今年10月發布了Deepseek-OCR,嘗試解決大語言模型長文本處理的瓶頸,主要目標是提高 LLM 處理長文檔時的計算效率、降低內存占用,并有效解決長上下文的“遺忘機制”問題。本質是輸入預處理器,優化了 LLM “看”和“記住”長文檔的方式。但袁子恒表示,盡管這種OCR看起來和Reducto很像,但從目標和要解決的問題以及面向的市場來看,和Reducto完全不一樣。
還有一個可能的危機,來自CEO Adit Abraham的“極端專注”哲學。“創始人主導銷售”、“雇人慢”、“拒絕客戶”、“每周一件事”,這些理念幫助他們打造了完美的產品,并實現了從0到500萬ARR的奇跡。
但是,這個理念被認為無法將公司從500萬ARR帶到1億美元ARR。













