使用說明
Krixvon API Foundry 把多家 Provider 的 AI / Token / GPU 推理 API 聚合成單一 OpenAI 相容閘道,提供統一路由、用量計費與供應監控。服務埠:前端 3050、Admin API 8080、Gateway 8050。
三種角色
Provider(供應商):有 API 金鑰或本機 GPU 的人,上架供應來源、定價、發布模型賺取收益。
Platform / Admin(平台):審核來源、管理渠道、監控、計費結算。
Customer(下游客戶):開發者 / AI SaaS / 聚合平台(如 New API),用單一 OpenAI 相容 key 呼叫所有模型。
一鍵啟動
cp -n .env.example .env docker compose up -d --build docker compose ps
預設帳號:Admin admin@krixvon.local / admin123456、Provider provider@krixvon.local / provider123456、Customer customer@krixvon.local / customer123456。
Provider — 上架 API / 本機模型
官方 API(OpenAI / Gemini / Claude / DeepSeek / Grok / Groq…):登入 Provider → 供應來源 → 新增 → 選廠商 → 填 Base URL + API Key →(Gemini/Claude 可選 API Version)。系統自動檢核金鑰、同步官方模型、逐一實測,只有實測可用的模型才會進 Playground 與可發布清單。新增時可選方案層級(免費/付費/未知),平台依此調整探測速率,免費層級自動放慢避免 429。
本機模型(Ollama / vLLM / LM Studio):平台在雲端連不到你家的電腦,採「安全通道」。最簡單用 Provider →「本機接入」頁的一行 Agent 指令(已帶連線權杖),它會自動開 cloudflared 通道、回報平台、網址變更自動重報;也可選「開機自動啟動」常駐。前提:本機 ollama serve 在跑且 ollama pull 過模型,並安裝 cloudflared。
定價與發布
模型定價 頁只列實測可用的模型,可一鍵套用官方參考價、官方價 × 係數、依類型/供應商批次定價。設好價後按 「發布到平台」 → 系統自動建立你的對外渠道、綁定模型、設定售價,客戶即可呼叫。供應來源卡片可「停用/啟用」,停用後不被路由、不列入 Playground。
Customer — 接入與呼叫
Customer → API Keys → 建立 → 立即複製完整金鑰(只顯示一次)。直接以 OpenAI 相容方式呼叫:
curl http://localhost:8050/v1/chat/completions \
-H "Authorization: Bearer <你的 KEY>" \
-H "Content-Type: application/json" \
-d '{"model":"gpt-4o-mini","messages":[{"role":"user","content":"你好"}]}'from openai import OpenAI
client = OpenAI(api_key="<你的 KEY>", base_url="http://localhost:8050/v1")
print(client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role":"user","content":"你好"}]).choices[0].message.content)接入 New API / Mix Router
在 New API 後台 → 渠道 → 新增渠道:渠道類型選 OpenAI、Base URL 填 http://localhost:8050(部署後填對外網址)、金鑰填你的 sk-kxv-...,按 「獲取模型」 會自動呼叫 /v1/models 帶入模型清單,免手動輸入。Customer 的「接入指南」頁有可直接複製的渠道設定 JSON 範本。注意:MVP 暫不支援 embedding / image 端點。
Admin — 營運
供應來源審核:系統檢核通過後依設定自動啟用或進人工審核。Channels:把供貨來源模型綁定成對外渠道、設路由策略與定價。來源監控:所有來源狀態、模型數、斷路器冷卻情形。Usage & Billing / Logs:用量、毛利、請求紀錄。
平台韌性(自動,無需設定)
斷路器:來源連線失敗/5xx 冷卻 30s、429 冷卻 60s、401/403 冷卻 5min,期間路由自動跳過、到期恢復。探測節流:依方案層級調速,避免免費配額一次燒光。失敗自動切換:同模型多來源時 failover。gpt-5 / o 系列:自動改用 max_completion_tokens。
常見問題
連線測試 403 Forbidden → 權限/額度問題(去廠商後台開通);本機通道若 server 顯示 cloudflare → Host 不符,請用 Agent(自動處理)。
429 TooManyRequests → 速率限制;免費層級選 tier=free 或升級付費,探測會自動放慢。
模型沒出現在 Playground → 只顯示「實測可用」的,先到供應來源同步、確認 availability=可用。
本機 Ollama 連不上 → 確認 ollama serve 在跑、有 ollama pull,用 Agent 接入(自動處理通道 Host)。
需要更完整的操作細節,可參考各角色頁面內的提示,或聯絡平台管理員。