Qwen 3.5 Omni: โมเดล AI ของ Alibaba ตอนนี้สามารถฟัง ดู และโคลนเสียงของคุณได้แล้ว

สรุปโดยย่อ

Qwen 3.5 Omni ของ Alibaba นำ AI แบบ omnimodal แบบเรียลไทม์ที่แท้จริงมาสู่การแข่งขันระดับแนวหน้า
การประมวลผลเสียงและภาพแบบเนทีฟเอาชนะไปป์ไลน์แบบมัลติโมดัลที่ต่อเชื่อมกันในด้านความเร็วและความสอดคล้อง
การโคลนเสียง การขัดจังหวะตามความหมาย และ vibe coding บ่งบอกถึงการเปลี่ยนแปลงไปสู่เอเจนต์ AI ที่โต้ตอบได้อย่างสมบูรณ์

Alibaba เพิ่งเปิดตัวการอัปเกรด AI ที่ทะเยอทะยานที่สุดเท่าที่เคยมีมา

ทีม Qwen ของบริษัทได้ปล่อย Qwen 3.5 Omni เมื่อวันอาทิตย์ ซึ่งเป็นเวอร์ชันใหม่ของ AI แบบ "omnimodal" ที่ประมวลผลข้อความ รูปภาพ เสียง และวิดีโอพร้อมกัน และตอบกลับแบบเรียลไทม์ใน 36 ภาษา ทำให้โมเดลนี้อยู่ในสนามรบเดียวกันกับโมเดลพื้นฐาน AI ที่ทันสมัยที่สุดที่มีอยู่ในปัจจุบัน

"Omni" ไม่ใช่แค่คำศัพท์ทางการตลาดธรรมดา โมเดล AI ส่วนใหญ่ที่คุณโต้ตอบด้วยเป็นระบบที่รับข้อความเข้าและส่งข้อความออกเป็นหลัก บางตัวจัดการกับรูปภาพ บางตัวจัดการกับเสียง Qwen 3.5 Omni จัดการกับทั้งหมดนี้แบบเนทีฟในเวลาเดียวกัน โดยไม่จำเป็นต้องแปลงทุกอย่างเป็นข้อความผ่านเครื่องมือของบุคคลที่สาม

โมเดลใหม่มีสามขนาด—Plus, Flash และ Light—ทั้งหมดรองรับหน้าต่างบริบท 256,000 โทเค็น ซึ่งถือว่าเล็ก (ตามมาตรฐานปัจจุบัน) ได้รับการฝึกฝนด้วยข้อมูลเสียงและภาพมากกว่า 100 ล้านชั่วโมง—ซึ่งเป็นขนาดที่ทำให้อยู่ในระดับที่แตกต่างจากคู่แข่งส่วนใหญ่

Qwen 3.5 Omni เป็นวิวัฒนาการของ Qwen 3 Omni Flash ซึ่งเป็นโมเดล omnimodal ก่อนหน้าของ Alibaba ที่เปิดตัวในเดือนธันวาคม 2025 เวอร์ชันนั้นทำให้ประทับใจด้วยความสามารถในการประมวลผลวิดีโอและเสียงพร้อมกัน—สามารถจัดการคำสั่งแก้ไขรูปภาพที่รวมอินพุตภาพหลายตัวในวิธีที่คู่แข่งทำไม่ได้—และสตรีมการตอบกลับด้วยเสียงที่มีความหน่วงต่ำถึง 234 มิลลิวินาที

นอกจากนี้ยังเป็นโมเดลแรกที่พยายามสร้างทางเลือกอื่นแทน NotebookLM ของ Google โดยบรรลุบางสิ่งบางอย่าง แต่คุณภาพยังไม่เท่ากับสิ่งที่ Google เสนอ

Qwen 3.5 Omni นำทั้งหมดนั้นมาและเพิ่มหน้าต่างบริบทที่ยาวขึ้น การให้เหตุผลที่ดีขึ้น ไลบรารีภาษาที่กว้างขึ้นมาก และชุดคุณสมบัติการโต้ตอบแบบเรียลไทม์ที่รุ่นก่อนไม่มี

การอัปเกรดที่โดดเด่นคือสิ่งที่เกิดขึ้นเมื่อคุณพูดคุยกับมันจริงๆ Qwen3.5-Omni รองรับการขัดจังหวะตามความหมายแล้ว: สามารถบอกความแตกต่างระหว่างการที่คุณพูดว่า "อืม" ระหว่างประโยคและการที่คุณต้องการขัดจังหวะจริงๆ จึงจะไม่หยุดกลางคิดทุกครั้งที่มีคนไอในพื้นหลัง ทำให้การโต้ตอบด้วยการพูดราบรื่นมากขึ้น

เทคนิคใหม่ที่เรียกว่า ARIA ย่อมาจาก Adaptive Rate Interleave Alignment ยังแก้ไขความรำคาญเล็กน้อยแต่ยืดเยื้อ: ระบบ AI ที่พูดตัวเลขหรือคำที่ผิดปกติไม่ชัดเจนเมื่ออ่านออกเสียง ARIA ซิงค์ข้อความและคำพูดแบบไดนามิกเพื่อให้ผลลัพธ์เป็นธรรมชาติและแม่นยำ

จากนั้นก็มีการโคลนเสียง ผู้ใช้สามารถอัปโหลดตัวอย่างเสียงและให้โมเดลใช้เสียงนั้นในการตอบกลับ ซึ่งเป็นคุณสมบัติที่ทำให้ Qwen แข่งขันโดยตรงกับ ElevenLabs และเครื่องมือเสียงเฉพาะทางอื่นๆ อย่างไรก็ตาม เราไม่สามารถเข้าถึงคุณสมบัตินี้ได้ เพราะเป็นคุณสมบัติที่อย่างน้อยในตอนนี้ ใช้ได้เฉพาะผ่าน API เท่านั้น

ในเบนช์มาร์กเสถียรภาพเสียงหลายภาษา Qwen3.5 Omni-Plus เอาชนะ ElevenLabs, GPT-Audio และ Minimax ใน 20 ภาษา โมเดลยังรองรับการค้นหาเว็บแบบเรียลไทม์ หมายความว่าสามารถตอบคำถามเกี่ยวกับข่าวด่วนหรือข้อมูลตลาดสดได้โดยไม่ต้องแกล้งทำเป็นว่ารู้อยู่แล้ว

ทีมงานยังเน้นสิ่งที่พวกเขาเรียกว่า "Audio-Visual Vibe Coding" โมเดลสามารถดูการบันทึกหน้าจอหรือวิดีโอของงานเขียนโค้ดและเขียนโค้ดที่ใช้งานได้โดยอิงจากสิ่งที่เห็นและได้ยินเพียงอย่างเดียว ไม่จำเป็นต้องใช้พรอมต์ข้อความ เป็นการแสดงตัวอย่างเล็กๆ ของวิธีที่ผู้ช่วย AI อาจทำงานภายในเวิร์กโฟลว์ของคุณในที่สุด แทนที่จะทำงานควบคู่ไปกับมัน

เพื่อทำความเข้าใจว่า "omnimodal" หมายความว่าอย่างไรในทางปฏิบัติ เราได้ทำการทดสอบอย่างรวดเร็ว: เราป้อนทั้ง Qwen3.5-Omni และ ChatGPT 5.4 ในโหมด "thinking" ด้วย YouTube Short เดียวกัน—คลิปของประธาน Dastan (Dastan เป็นบริษัทแม่ของ Decrypt) และนักวิจารณ์ Farokh พูดคุยเกี่ยวกับข่าวด่วน Qwen 3.5 Omni ประมวลผลวิดีโอแบบเนทีฟและส่งคืนการวิเคราะห์เต็มรูปแบบในประมาณหนึ่งนาที: ใครกำลังพูด พวกเขากำลังพูดคุยเกี่ยวกับอะไร และความคิดเห็นที่สำคัญเกี่ยวกับหัวข้อโดยอิงจากความรู้ของตัวเองเกี่ยวกับเรื่องนั้น

ChatGPT 5.4 ซึ่งไม่ใช่ omnimodal ต้องจัดการกับสิ่งที่ได้รับ มันดึงเฟรมจากวิดีโอ ประมวลผลผ่านโมเดลวิชั่น ใช้ Whisper เพื่อถอดเสียงเป็นข้อความ และใช้เครื่องมือ OCR เพื่ออ่านคำบรรยายที่ฝังไว้—สามกระบวนการที่แยกจากกันถูกต่อเข้าด้วยกันเพื่อประมาณสิ่งที่ Qwen3.5-Omni ทำในครั้งเดียว ผลลัพธ์ใช้เวลาเก้านาที และนั่นอยู่ภายใต้เงื่อนไขที่เหมาะสมที่สุด: วิดีโอที่มีแสงดี มีเสียงที่ชัดเจน และมีคำบรรยายแบบฝัง เนื้อหาในโลกจริงไม่ค่อยเสนอทั้งสามอย่าง

ในการทดสอบอย่างรวดเร็วของเราในอินพุตหลายตัว โมเดลยังจัดการกับพรอมต์ในภาษาสペイน โปรตุเกส และอังกฤษโดยไม่มีปัญหา—สลับภาษาระหว่างการสนทนาโดยไม่สูญเสียบริบท

ในเบนช์มาร์กมาตรฐาน Qwen 3.5 Omni Plus มีประสิทธิภาพเหนือกว่า Gemini 3.1 Pro ในงานความเข้าใจเสียงทั่วไป การให้เหตุผล และการแปล และเทียบเท่ากันในความเข้าใจเสียงและภาพ การรู้จำเสียงครอบคลุม 113 ภาษาและภาษาถิ่นแล้ว—เพิ่มขึ้นจาก 19 ภาษาในรุ่นก่อน

นี่เป็นการปล่อย AI ครั้งสำคัญครั้งที่สองของ Alibaba ในหกสัปดาห์ ในเดือนกุมภาพันธ์ บริษัทเปิดตัว Qwen 3.5 โมเดลข้อความและภาพที่เทียบเท่าหรือเอาชนะโมเดลระดับแนวหน้าในเบนช์มาร์กการให้เหตุผลและการเขียนโค้ด—ส่วนหนึ่งของแนวโน้มที่ยังรวมถึง Qwen Deep Research และชุดเครื่องมือที่แข่งขันกับ OpenAI และ Google Qwen 3.5 Omni ขยายโมเมนตัมนั้นไปสู่ดินแดนมัลติโมดัลเต็มรูปแบบ ในช่วงเวลาที่ห้องปฏิบัติการ AI ทุกแห่งกำลังแข่งกันสร้างระบบที่จัดการกับการสื่อสารของมนุษย์ทุกรูปแบบ—ไม่ใช่แค่คำบนหน้าจอ

โมเดลนี้พร้อมให้ใช้งานแล้วผ่าน API ของ Alibaba Cloud และสามารถทดสอบได้โดยตรงที่ Qwen Chat หรือผ่านการสาธิตออนไลน์ของ Hugging Face

จดหมายข่าว Daily Debrief

เริ่มต้นทุกวันด้วยข่าวสำคัญตอนนี้ พร้อมคุณสมบัติต้นฉบับ พอดแคสต์ วิดีโอ และอื่นๆ อีกมากมาย

แหล่งที่มา: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni: โมเดล AI ของ Alibaba ตอนนี้สามารถฟัง ดู และโคลนเสียงของคุณได้แล้ว

สรุปโดยย่อ

จดหมายข่าว Daily Debrief

คุณอาจชอบเช่นกัน

ผู้ได้รับการเสนอชื่อของทรัมป์ถูกเผชิญหน้าเรื่องการโจมตีหาเสียงที่เต็มไปด้วยความเกลียดชัง

ผู้ถือหุ้น Falcon Energy Materials เลือกตั้งคณะกรรมการใหม่และอนุมัติแผนค่าตอบแทนในการประชุมผู้ถือหุ้นประจำปี

Wealthsimple นำสัญญาตลาดพยากรณ์ Kalshi 4,000 รายการมาสู่แคนาดา

ข่าวที่กำลังมาแรง

ทำไม Bitcoin ถึงดึงดูดความสนใจด้วยการเปิดตัว Parabolic 7

เจาะลึกการอภิปราย ETF ของ Ethereum — ความหมายสำหรับนักลงทุน

อิลลินอยส์ผ่านกฎหมายภาษีโอน Crypto 0.2% เริ่มต้นในปี 2027

ไอร์แลนด์เสนอมาตรการป้องกันคริปโตท่ามกลางความกังวลด้านความเสี่ยงด้านกฎระเบียบ

หน่วยงานสหรัฐฯ เสนอกฎระเบียบการระบุตัวตนลูกค้า Stablecoin ภายใต้กฎหมาย GENIUS Act

ข่าวสดตลอด 24/7

ราคาคริปโต