《AI報報報》是一檔 每天更新、專為忙碌的你打造的 AI 新聞快報節目。給你沒聽過但快爆紅的 AI 趨勢,我們都用 最精簡、最有料、最有趣的方式報給你聽。
每天只要 3~5 分鐘,帶你掌握全世界的 AI 新聞,上班、吃飯、搭車都能聽,一點也不浪費時間。
跟上 AI 時代,從《AI報報報》開始!
🔔 記得訂閱,天天都有新消息!
Powered by Firstory Hosting
《AI報報報》是一檔 每天更新、專為忙碌的你打造的 AI 新聞快報節目。給你沒聽過但快爆紅的 AI 趨勢,我們都用 最精簡、最有料、最有趣的方式報給你聽。
每天只要 3~5 分鐘,帶你掌握全世界的 AI 新聞,上班、吃飯、搭車都能聽,一點也不浪費時間。
跟上 AI 時代,從《AI報報報》開始!
🔔 記得訂閱,天天都有新消息!
Powered by Firstory Hosting
**最新出的一款基於LLM的文件解析模型的輕量級:MonkeyOCR,效能好速度快**
其3B在中文文檔解析任務上平均表現超過了Gemini 2.5 Pro和Qwen2.5-VL-72B
對於多頁文件解析,其處理速度達到每秒0.84頁,超過了MinerU的0.65頁/秒和Qwen2.5-VL-7B的0.12頁/秒
相較於MinerU,MonkeyOCR在九種中英文文件類型上平均表現提升了5.1%,公式辨識提升了15%,表格辨識提升了8.6%
MonkeyOCR採用「結構偵測-內容辨識-關係預測」三元組模式,在簡化傳統分層方法的多工具流程的同時,避免了直接使用多模態模型處理整文檔頁的低效性
支援多種類型中英文文檔,暫不支援照片文檔
github:https://github.com/Yuliang-Liu/MonkeyOCR
Become a free member and never miss an update: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
Support this show: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
Leave a comment and share your thoughts: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**把Claude Code的AI能力整合到GitHub工作流程中的一款工具:claude-hub,變成GitHub的AI助手,實現自動化開發流程**
在GitHub的issue或PR中@機器人 ,Claude就能自動執行寫入程式碼、檢查程式碼、合併程式碼等開發任務
Claude能自主處理完整的開發流程,包括分析程式碼倉庫,端對端開發,進行程式碼審查,PR的生命週期管理,監控CI/CD管線,自動化程式碼回應
具備智慧任務管理能力,可以持續工作,直到任務全部完成,還可以處理卡殼等待等外部進程,並自動恢復工作
https://github.com/claude-did-this/claude-hub
Become a free member and never miss an update: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
Support this show: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
Leave a comment and share your thoughts: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**具備細粒度語音編輯能力的一款AI語音修復模型:PlayDiffusion,修改後的語音聽上去可與原語音無縫銜接**
對於做語音播報、或者是有聲讀物,這種需要頻繁修改語音內容的場景來說比較實用
支援精準修改,例如對語音中的單字進行精準修改,把一句話中的“小明”改成“小紅”
其在編輯過程中保留了上下文訊息,使得修改後的語音與原語音間能保持平滑銜接
透過保留說話者的特徵,來確保修改後的語音與原始語音在音色和風格上保持一致
https://github.com/playht/PlayDiffusion
Become a free member and never miss an update: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
Support this show: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
Leave a comment and share your thoughts: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**很有趣的一個項目,科學研究論文轉換程式碼:Paper2Code**
Paper2Code可以讀取機器學習領域的PDF/LaTeX格式的科學研究論文,然後自動幫你寫出程式碼,且能自我品質評估
假如你想實作一篇論文裡的演算法,但懶得自己寫程式碼,就用它幫你把論文裡的內容寫出程式碼
Paper2Code採用多智能體設計,工作流程分成三個部分,它先閱讀論文,理解演算法的整體結構和流程;然後分析論文中的關鍵細節,例如公式、變數、參數等等;最後根據分析結果,自動產生程式碼
實驗評估,PaperCoder從機器學習論文中產生程式碼的品質高、接近作者實現水平,優於其他基準模型
github:https://github.com/going-doer/Paper2Code
Become a free member and never miss an update: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
Support this show: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
Leave a comment and share your thoughts: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
這些文本介紹了 FLUX.1 Kontext,這是一個即將開源的生成模型套件,被宣稱為「GPT Killer」。ComfyUI 已將其作為官方的 API 節點 推出,主要用於 文字和圖像驅動的編輯與生成。Kontext 模型,包括 Kontext Pro 和 Kontext Max 兩種版本,旨在支援 上下文中的圖像操作,實現從精確物體修改到風格傳輸等多種功能。文章還提供了如何開始使用該模型的說明,並展示了一些 範例輸出,同時也包含了一些關於 付費模型和審核訊息 的用戶討論。
https://blog.comfy.org/p/flux1-kontext-api-node-in-day-1-workflow
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
這些資料提供了一份關於人工智慧 (AI) 快速發展及其廣泛影響的綜合概述。內容涵蓋了AI 在各行各業的應用和採用現況,強調了其在軟體工程、產品開發、醫療、法律、客戶服務及金融等領域的顯著成長。此外,資料也探討了AI 基礎設施的建置與相關資本支出,並指出AI 模型效能的提升與成本下降,以及中美兩國在 AI 領域的競爭格局。
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**可從表格、圖片、圖表等複雜文件中提取結構化資料的Python庫:agentic-doc**
支援100+頁PDF長文件的處理,自動進行分割與並行處理
自動重試和分頁,處理並發、超時和速率限制
可以解析任意長度PDF、單一影像或指向這些文件的URL
可以把擷取的內容以邊界框的形式視覺化,支援批量解析
github:https://github.com/landing-ai/agentic-doc
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**新出來的一種生物學推理模型:BioReason,第一個將 DNA基礎模型與LLM深度結合的模型,疾病路徑預測(例如判斷某個基因變異導致什麼疾病)準確率達到了97%**
變異效應預測準確率達80-88%。其比僅用DNA或LLM的模型相比,性能提升超過15%
它把DNA 基礎模型與LLM結合,來用於生物推理,透過監督微調+GRPO強化學習來進行訓練
它不僅能預測,還能解釋原因,它會逐步推理,這個就能讓科學家清楚看到基因變異是如何導致疾病的,而不是只知道結果不知道過程
BioReason的出現讓基因組AI變得可解釋、可操作,從分析基因變異到研發新藥,這或許會改變生物學研究方式
github:https://github.com/bowang-lab/BioReason
專案頁:https://bowang-lab.github.io/BioReason/
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**微軟Bing凌晨開發了一個視頻生成工具出來:Bing Video Creator,Sora提供技術支持,免費使用! **
目前生成影片時間長為5秒,格式為9:16,未來將支援16:9
最多可以同時排隊生成三個視頻,創作內容保存90天
生成速度有快速和標準兩種模式,最初有10次快速產生機會,用完後可消耗100微軟獎勵積分繼續使用,或用速度標準
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**一款設計師的遊標:觀看,設計師可以用拖曳/點擊視覺化的方式建立前端介面,不用寫程式碼也可開發前端應用**
可以直接在瀏覽器裡拖曳、調整元素來設計網站介面,即時預覽效果,並且內建了AI功能,每一步操作都會自動轉換成程式碼
設計和程式碼團體綁定,在瀏覽器裡修改設計,程式碼會自動更新;在程式碼裡修改,設計基因即時更新
也可以點選瀏覽器裡的任何元素,直接定位到程式碼
目前可以從文字、圖片匯入創建應用
支援無縫整合到現有的 React + TailwindCSS 專案中
github:https://github.com/onlook-dev/onlook
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**一款增強版的Markdown工具:Quarkdown,它在Markdown基礎上增加了許多功能,可以用來產生書籍、簡報**
可以排版組件頁的書籍格式,包含章節、頁碼等,可插入圖表、數學公式等
支援“函數”和“變數”,可以定義函數來擴展功能
支援即時預覽,內容有修改會自動更新
github:https://github.com/iamgio/quarkdown
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**ElevenLabs大更新,發布了對話式AI 2.0,增加了多語言對話切換、RAG、多模態、批量通話的能力**
自動辨識您使用的語言,並用相同的語言回答,需要手動切換
能夠存取使用外部知識庫來回答問題
可以同時處理文字和語音
大量通話功能,可以同時撥打多通電話,對於需要快速聯繫多個場景的比較實用
部落格:https://elevenlabs.io/blog/conversational-ai-2-0
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**一款日語學習AI工具:japanese-analyzer,可以進行日文句子深度解析,拆解句法結構、標註詞性、呈現發音與釋義**
原聲TTS朗讀,還原純正日文發音
一鍵輸出詞性、假名、羅馬音與文法成分,提供精準中文釋義
支持OCR,雙語對照
github:https://github.com/cokice/japanese-analyzer
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**智能體卷瘋了,來一款全端通用AI Agent:Lemon AI,具備自主性和工具調用能力,可從需求到成果交付全流程自動化**
無需人工幹預,給它提供任務目標,它能自動找出完成任務所需的步驟以及工具,支援透過頁面端即時查看任務執行狀態
Lemon AI整合了自然語言處理、程式碼產生、網頁瀏覽、API呼叫、系統命令執行、應用程式操作等多種能力
可執行市場調查、金融分析、數據分析、程式碼程式設計、生活規劃等領域的複雜任務
github:https://github.com/hexdocom/lemonai
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
https://chat.deepseek.com/
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**騰訊剛剛開源了HunyuanVideo-Avatar,根據音頻生成動畫視頻,它能根據語音匹配豐富的表情,讓你的數位人具備「生命力」**
給一張人物的圖片,再給一段音頻,它能讓這張圖片裡的人物動起來,從效果看,嘴型、表情、動作都和語音高度同步!
並且支持多個人物同時對話,這可以用來做對話、訪談類的內容了
支援多種風格,真人照片、動漫、3D角色、卡通等等
做電商直播、創意短片、個人化老師、AI播報員都可以,數位人捲起來了
github:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**AI在育兒領域的應用:一個AI保姆專案:ai-baby-monitor,讓家長不必時刻緊盯著嬰兒,可以安心的做其他事情,也可以延伸到老人看護場景**
ai-baby-monitor是一個基於本地視頻和LLM的AI嬰兒監視器,可作為家長的“第二雙眼睛”,及時發現嬰兒的危險行為或潛在危險情況,提醒大人及時幹預
可以提前設定一些安全規則,如果違反了規則,它就會發出蜂鳴聲警報
基於Qwen2.5 VL模型,所有數據均在本地處理,支援同時監控多個房間
github:https://github.com/zeenolife/ai-baby-monitor
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**完成一個公司名稱,進行一些公司的研究,取得格式化的公司資料! **
hyperbrowserai搞一個公司研究員工具,一個無介面命令列工具
搞公司研究/市場分析的可做資訊收集工具
github:https://github.com/hyperbrowserai/examples/tree/main/company-researcher
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments
**微軟開源的:NLWeb,讓網站從點按鈕、填表格的方式升級為用聊天的方式互動! **
NLWeb是讓網站實現對話式介面的協議,並且支援MCP,也就是說NLWeb也可以和其他AI工具無縫對接
它基於Schema org等語意層,提供了開放式協定和開源工具,用來建構AI網路的基礎層,類似當年HTML對文件共享的作用一樣
支援Windows、MacOS、Linux等作業系統,也相容於Qdrant、Snowflake等多種函式庫、大模型
並提供了程式碼範例和工具,可以快速為網站添加自然語言互動功能
github:https://github.com/microsoft/NLWeb
加入免費會員,更新資訊不漏接: https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw
小額贊助支持本節目: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments