使用說明

Krixvon API Foundry 把多家 Provider 的 AI / Token / GPU 推理 API 聚合成單一 OpenAI 相容閘道，提供統一路由、用量計費與供應監控。服務埠：前端 3050、Admin API 8080、Gateway 8050。

三種角色

Provider（供應商）：有 API 金鑰或本機 GPU 的人，上架供應來源、定價、發布模型賺取收益。
Platform / Admin（平台）：審核來源、管理渠道、監控、計費結算。
Customer（下游客戶）：開發者 / AI SaaS / 聚合平台（如 New API），用單一 OpenAI 相容 key 呼叫所有模型。

一鍵啟動

cp -n .env.example .env
docker compose up -d --build
docker compose ps

預設帳號：Admin admin@krixvon.local / admin123456、Provider provider@krixvon.local / provider123456、Customer customer@krixvon.local / customer123456。

Provider — 上架 API / 本機模型

官方 API（OpenAI / Gemini / Claude / DeepSeek / Grok / Groq…）：登入 Provider → 供應來源 → 新增 → 選廠商 → 填 Base URL + API Key →（Gemini/Claude 可選 API Version）。系統自動檢核金鑰、同步官方模型、逐一實測，只有實測可用的模型才會進 Playground 與可發布清單。新增時可選方案層級（免費/付費/未知），平台依此調整探測速率，免費層級自動放慢避免 429。

本機模型（Ollama / vLLM / LM Studio）：平台在雲端連不到你家的電腦，採「安全通道」。最簡單用 Provider →「本機接入」頁的一行 Agent 指令（已帶連線權杖），它會自動開 cloudflared 通道、回報平台、網址變更自動重報；也可選「開機自動啟動」常駐。前提：本機 ollama serve 在跑且 ollama pull 過模型，並安裝 cloudflared。

定價與發布

模型定價 頁只列實測可用的模型，可一鍵套用官方參考價、官方價 × 係數、依類型/供應商批次定價。設好價後按 「發布到平台」 → 系統自動建立你的對外渠道、綁定模型、設定售價，客戶即可呼叫。供應來源卡片可「停用/啟用」，停用後不被路由、不列入 Playground。

Customer — 接入與呼叫

Customer → API Keys → 建立 → 立即複製完整金鑰（只顯示一次）。直接以 OpenAI 相容方式呼叫：

curl http://localhost:8050/v1/chat/completions \
  -H "Authorization: Bearer <你的 KEY>" \
  -H "Content-Type: application/json" \
  -d '{"model":"gpt-4o-mini","messages":[{"role":"user","content":"你好"}]}'

from openai import OpenAI
client = OpenAI(api_key="<你的 KEY>", base_url="http://localhost:8050/v1")
print(client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role":"user","content":"你好"}]).choices[0].message.content)

接入 New API / Mix Router

在 New API 後台 → 渠道 → 新增渠道：渠道類型選 OpenAI、Base URL 填 http://localhost:8050（部署後填對外網址）、金鑰填你的 sk-kxv-...，按 「獲取模型」 會自動呼叫 /v1/models 帶入模型清單，免手動輸入。Customer 的「接入指南」頁有可直接複製的渠道設定 JSON 範本。注意：MVP 暫不支援 embedding / image 端點。

Admin — 營運

供應來源審核：系統檢核通過後依設定自動啟用或進人工審核。Channels：把供貨來源模型綁定成對外渠道、設路由策略與定價。來源監控：所有來源狀態、模型數、斷路器冷卻情形。Usage & Billing / Logs：用量、毛利、請求紀錄。

平台韌性（自動，無需設定）

斷路器：來源連線失敗/5xx 冷卻 30s、429 冷卻 60s、401/403 冷卻 5min，期間路由自動跳過、到期恢復。探測節流：依方案層級調速，避免免費配額一次燒光。失敗自動切換：同模型多來源時 failover。gpt-5 / o 系列：自動改用 max_completion_tokens。

常見問題

連線測試 403 Forbidden → 權限/額度問題（去廠商後台開通）；本機通道若 server 顯示 cloudflare → Host 不符，請用 Agent（自動處理）。
429 TooManyRequests → 速率限制；免費層級選 tier=free 或升級付費，探測會自動放慢。
模型沒出現在 Playground → 只顯示「實測可用」的，先到供應來源同步、確認 availability=可用。
本機 Ollama 連不上 → 確認 ollama serve 在跑、有 ollama pull，用 Agent 接入（自動處理通道 Host）。

需要更完整的操作細節，可參考各角色頁面內的提示，或聯絡平台管理員。