跳至主要内容

釋出 Kuwa v0.3.1

· 閱讀時間約 7 分鐘
Yung-Hsiang Hu

大家好,Kuwa v0.3.1 推出了, 這次的更新主要集中在多模態輸入輸出,語音及圖片皆有支援。再搭配先前推出的 Bot 系統及群聊功能,即可實現如會議摘要、演講摘要、簡易圖片生成、圖片修改等實用功能:

  1. 支援 Whisper 語音轉文字模型,可以上傳語音檔輸出逐字搞,並具備多語者辨識及時間戳記功能
  2. 支援 Stable Diffusion 圖片生成模型,可透過輸入一段文字來生成圖片,或是上傳一張圖片後指示模型如何改動
  3. Huggingface executor 支援串接視覺語言模型,如 Phi-3-Vision, LLaVA等
  4. RAG 支援直接透過 Web UI 及 Modelfile 調整參數,簡化調校門檻
  5. RAG 支援顯示原始文件與引用段落,方便檢視檢索效果以及幻覺
  6. 支援匯入預先建立的 RAG 向量資料庫,方便在不同系統間共享知識庫
  7. 安裝時可簡易選擇多種開放模型
  8. Multi-chat Web UI 支援直接將聊天紀錄匯出成PDF、Doc/ODT
  9. Multi-chat Web UI 支援 Modelfile 語法突顯,方便調整 Modelfile
  10. Kernel API 支援傳遞網站語系,讓 Executor 能根據使用者語系客製化
  11. Executor 移除預設的 System prompt 以避免影響模型效果
訊息

kuwa-v0.3.1 下載資訊: https://github.com/kuwaai/genai-os/releases/tag/v0.3.1
kuwa-v0.3.1 單一執行檔下載連結: https://dl.kuwaai.org/kuwa-os/v0.3.1/

詳細的使用教學文件如下:

  1. Whisper 語音轉文字模型使用教學(含語者辨識):https://kuwaai.org/zh-Hant/blog/whisper-tutorial
  2. Stable Diffusion 圖片生成模型使用教學: https://kuwaai.org/zh-Hant/blog/painter-tutorial
  3. 視覺語言模型串接教學:https://kuwaai.org/zh-Hant/blog/vlm-tutorial

歡迎各位體驗之後給予回饋,遇到任何困難也歡迎透過社群或是其他管道與我們聯絡。

Kuwa官網: https://kuwaai.org/zh-Hant/


Kuwa GenAI OS介紹

Kuwa GenAI OS是一個自由、開放、安全且注重隱私的開源系統,提供友善的生成式人工智慧使用介面,以及支援快速開發大語言模型應用的新世代生成式人工智慧編導系統。 Kuwa提供多語言與多模型的開發與部署之整體解決方案,可以讓個人及各行各業在地端筆電、伺服器或雲端使用生成式AI、開發應用,或開Store商店、對外提供服務。

v0.3.1版的簡要說明如下:

使用環境

  1. 支援Windows、Linux、MacOS等多種作業系統,提供簡易安裝及軟體更新工具,包括Windows單一安裝執行檔、Linux自動安裝Script、Docker啟動腳本、預安裝好的VM虛擬主機等
  2. 支援多種硬體環境,從樹莓派、筆電、個人電腦、地端伺服器到虛擬主機、公私雲端,有無GPU加速器均可

使用介面

  1. 整合介面可以選取任何模型、知識庫或GenAI應用,隨意組合建立單一或群聊的聊天室
  2. 聊天室內可以自主編導,引用對話,指定群聊或直接單聊,切換連貫問答或單筆問答模式
  3. 隨時可以指揮介接,匯入提示腳本或上傳檔案,也可以匯出完整的聊天室對話劇本,直接輸出PDF、Doc/ODT、純文字等格式的檔案或分享網頁
  4. 支援文字、圖片生成,以及語音與視覺識別等多模態語言模型,並可突顯程式、Markdown等語法,或快速使用系統小工具

開發介面

  1. 使用者可以免寫程式,透過串接即有模型、知識庫或Bot應用,調整系統提示與參數、預置情境或建立提示模板,即可打造個人化或更強大的GenAI應用
  2. 使用者可以透過簡易拖拉的方式建立自有的知識庫,或匯入即有的向量資料庫,能同時利用多個知識庫進行GenAI應用
  3. 使用者可以自建及維護共用的Store應用商店,使用者間也可以共享Bot應用
  4. 可透過Ollama modelfile來調校啟用Kuwa擴充的模型及RAG進階功能

部署介面

  1. 支援多國語言,可以自行客製化畫面與訊息後,直接對外部署提供服務
  2. 可以串接即有帳號或提供邀請碼註冊,支援忘記密碼時可以用Email重設密碼
  3. 系統設定可修改系統公告、服務條款、警語等,或進行群組權限管理、使用者管理、模型管理等
  4. 儀錶板支援回饋管理、系統日誌管理、安全隱私管理、訊息查詢等

開發環境

  1. 整合多種生成式AI開源工具,包括Faiss, HuggingFace, Langchain, llama.cpp, Ollama, vLLM等,以及多種Embedding及Transformer相關套件,開發者可以下載、串接、開發多種多模態的大語言模型及應用
  2. RAG Toolchain內建DBQA、DocumentQA、WebQA及SearchQA等多種檢索擴增生成應用工具,可以串接搜尋引擎與自動爬蟲,或整合企業內即有資料庫或系統,方便開發進階的客製化應用
  3. 開放原始碼讓開發者可以根據自己的需求來打造自己想要的客製系統