NVIDIAMay 25, 20261 מקורות

OpenBMB משחררת את VoxCPM2: חלופת open-source ל-ElevenLabs עם תמיכה ב-30 שפות

ניתוח AI

VoxCPM2 הוא מודל דיבור רב-לשוני בגודל 2B פרמטרים עם voice cloning, voice design (הגדרת קול ללא דגימת ייחוס), ו-TTS איכותי על פני 30 שפות בלי צורך ב-language tags. הוא משוחרר תחת תנאים מתירניים שמכוונים לאותה קהילת prosumer/indie-dev שאימצה את Whisper, Bark ו-Coqui — וההשוואה המתבקשת היא ל-ElevenLabs בשבריר מהעלות.

מבחינה מעשית, footprint של 2B פרמטרים נכנס בנוחות על GPU צרכני יחיד של NVIDIA, וזו הסיבה המעשית שהשחרור חשוב לקהילת ה-local-AI. הדיון המתמשך ב-r/LocalLLaMA, 'האם NVIDIA עדיין ברירת המחדל הטובה ביותר ל-local LLMs ב-2026?' (233 upvotes), מונע חלקית בדיוק על ידי שחרורים מהסוג הזה: כל עוד המודלים open-source המובילים מכוונים ל-GPUs ברמת CUDA, NVIDIA נשארת ברירת המחדל.

ההקשר התחרותי: VoxCPM2 נוחת בזמן ש-@huggingface ריטווט פוסט ב-X שציין burn ממוצע של 17M tokens ביום ב-local-model, סימן ש-local inference חצה לנפח שימוש יומיומי רציני. הוא גם לוחץ על vendors של voice סגורים (ElevenLabs, OpenAI TTS, Google Cloud TTS) על תמחור עבור workloads שאינם קריטיים — הפקת podcast, פיתוח משחקים indie, כלי נגישות. מה לעקוב: השוואות איכות עצמאיות מול ElevenLabs Turbo ו-OpenAI TTS-1-HD, בקרות בטיחות ל-voice-cloning (consent, watermarking), והאם VoxCPM2 ייאומץ על ידי toolchain ה-video-generation ה-open-source (workflows של ComfyUI, Wan, HunyuanVideo) כשכבת הקול ברירת המחדל. אם כן, הוא יהפוך ל-primitive הקול דה-פקטו של ה-stack המדיה open-source של AI.

מקורות

dev.to

https://dev.to/bytefer/the-free-open-source-alternative-to-elevenlabs-is-finally-here-3ei4