Domowy serwer AI z dwoma RTX3090

Domowy serwer AI z dwoma RTX3090
ST
  • Rejestracja: dni
  • Ostatnio: dni
  • Postów: 232
0

Hej

Potrzebuje zbudowac domowy serwer do AI. Obecnie developuje duzo aplikacji na Gemini, którego cena rosnie i rosnie.
Chce miec szybki dostep do wlasnej konfiguracji, wlasnych modeli i wlasnego inference.
Obecnie pracuje na PC z RTX3090, ale wkurza mnie ze musze miec wlaczony PC zeby aplikacjie na moim obecnym domowym serwerze działały.
Runpody i scaleways tez nie wchodza w gre.

Także mam budżet 8000zł.
Potrzebuje kupic

  • Drugiego RTX3090 uzywke
  • RTX4070 zeby wlozyc do PC i wyciagnac obecna RTX3090
  • płyty głównej z dwoma (albo wiecej) slotami PCI
  • procka ktory obsluzy dwie karty (albo wiecej)
  • ram
  • obudowy

Czy ktos moze coś polecic albo spotkał sie z budowaniem takiego sprzetu? Potrzebuje na wszystko Fvat (oprocz RTXa bo uzuwany).
Każda rada mile widziana :)

hzmzp
  • Rejestracja: dni
  • Ostatnio: dni
  • Postów: 741
3

Pod samo AI/inference wystarczy Ci zestaw z AMD Ryzen 9 5900X, płytą ASUS Pro WS X570-ACE, szybkim dyskiem NVMe (do ładowania modeli), 16 GB RAM (choć 32 GB byłoby bezpieczniejsze) oraz mocnym zasilaczem. Koniecznie zadbaj o solidne chłodzenie i dobrą wentylację, bo przy dwóch RTX 3090 temperatury szybko rosną.
Na takim sprzęcie powinieneś postawić goły system — Linuxa albo Windowsa — bez warstwy wirtualizacji (Proxmox, ESXi), ponieważ NVIDIA blokuje serwerowe wykorzystanie konsumenckich kart (vGPU). Teoretycznie da się to obejść za pomocą passthrough i spoofowania ID karty, ale to potrafi być niestabilne i problematyczne.
W praktyce oznacza to, że raczej nie pozbędziesz się obecnego domowego serwera, jeśli chcesz korzystać z innych usług obok AI.

obscurity
  • Rejestracja: dni
  • Ostatnio: dni
2

Żeby uruchomić coś porównywalnego do Gemini 2.5 potrzebowałbyś co najmniej 2x NVIDIA A100 80GB, na dwóch RTX3090 to co najwyżej sobie uruchomisz jakiś model 40B parametrów lub wyższy z większą kwantyzacją a przydatność takich modeli do pisania kodu jest bardzo wątpliwa. Myślę że najlepiej wyjdziesz jednak płacąc za gemini, chyba że robisz to czysto hobbistycznie

onomatobeka
  • Rejestracja: dni
  • Ostatnio: dni
  • Postów: 424
4

To jeszcze nie jest czas na self-host AI, trzeba korzystać z subskrypcji póki są bardzo tanie.

ST
  • Rejestracja: dni
  • Ostatnio: dni
  • Postów: 232
0
hzmzp napisał(a):

Pod samo AI/inference wystarczy Ci zestaw z AMD Ryzen 9 5900X, płytą ASUS Pro WS X570-ACE, szybkim dyskiem NVMe (do ładowania modeli), 16 GB RAM (choć 32 GB byłoby bezpieczniejsze) oraz mocnym zasilaczem. Koniecznie zadbaj o solidne chłodzenie i dobrą wentylację, bo przy dwóch RTX 3090 temperatury szybko rosną.

No i fajnie, dzieki! To już coś. Nigdy nie miałem dwóch kart, wiec wlasnie dobór procka i płyty to już nie takie chop siup. Jedyne co widze że to na AM4. No i nawet lepiej bo taniej.
Ale wiem że AM5 oferuje potencjalnie szybszy RAM, co ludzie wykorzystują do offloadowania modeli do ramu. Jak np. w tym boxie .
Pewnie pójde w AM4, bo taniej, i nie wykluczne że nawet w to co podales zeby nie szukac.

Na takim sprzęcie powinieneś postawić goły system — Linuxa albo Windowsa — bez warstwy wirtualizacji (Proxmox, ESXi), ponieważ NVIDIA blokuje serwerowe wykorzystanie konsumenckich kart (vGPU). Teoretycznie da się to obejść za pomocą passthrough i spoofowania ID karty, ale to potrafi być niestabilne i problematyczne.
W praktyce oznacza to, że raczej nie pozbędziesz się obecnego domowego serwera, jeśli chcesz korzystać z innych usług obok AI.

No i to też dobre info. Nawet to chyba lepiej. Zamierzam zrobić automatyzacje w home assistant, żeby wyłaczać serwer po 23 i uruchamiać go o 8 rano. Zaoszczędze prądu.
Albo w ogóle postaram się o szybki boot-up serwera i będe go uruchamiał on-demand

obscurity napisał(a):

Żeby uruchomić coś porównywalnego do Gemini 2.5 potrzebowałbyś co najmniej 2x NVIDIA A100 80GB, na dwóch RTX3090 to co najwyżej sobie uruchomisz jakiś model 40B parametrów lub wyższy z większą kwantyzacją a przydatność takich modeli do pisania kodu jest bardzo wątpliwa. Myślę że najlepiej wyjdziesz jednak płacąc za gemini, chyba że robisz to czysto hobbistycznie

Developuje na gemini ale obecna ich podwyżka output z 0.6$ na 2.5$ w ciągu jednej nocy, troche zabiła sens budowania aplikacji. Przyszłość jest w małych modelach tj. Bielik 11B, Gemma 27B czy Qwen 30B. Ale zależy mi na uruchamianiu w pełnym kwancie. Żeby nie zastanawiać się z tyłu głowy czy aby może coś nie działa przez kwantyzacje.

onomatobeka napisał(a):

To jeszcze nie jest czas na self-host AI, trzeba korzystać z subskrypcji póki są bardzo tanie.

Już nic nie jest tanie. Było. Ale obecne ceny, jakby oprzeć aplikacje z dużym ruchem to jest koniec.

Przyznam szczerze że największy problem mam z obudową i wielkością potencjalnego serwera. Takie dwa RTX3090 muszą mieć bude jak dla psa.
Chyba że ktoś widział jakieś małę buildy?
Zastanawiam się jeszcze nad tym boxem: https://www.gmktec.com/products/amd-ryzen%E2%84%A2-ai-max-395-evo-x2-ai-mini-pc?variant=64bbb08e-da87-4bed-949b-1652cd311770

Ma 128gb w APU, ale mało strasznie jest review na jego temat.
No i niby QWEN3 32B osiąga 10 tokenów. Niby nie az tak dużo, ale nie wiadomo czy w pełnym kwancie czy to nie czasem Q4 :(

ST
  • Rejestracja: dni
  • Ostatnio: dni
  • Postów: 232
0

Temat jednak zamykam. Postanowiłem rozbudować workstacje
Stacja robocza z dwoma RTX 3090 do AI

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.