Tencent взриви пазара: новият HY2.0Think със 406 млрд. параметри влиза в битката за най-мощен ИИ

Китайският гигант Tencent представи HY2.0Think – модел от ново поколение със „смес от експерти“, свръхдълъг контекст и водещи резултати в логически задачи

https://blitz.bg/dzhadzhi/tencent-vzrivi-pazara-noviyat-hy20think-sas-406-mlrd-parametri-vliza-v-bitkata-za-nay-moshten-ii_news1123006.html Blitz.bg

Китайският технологичен гигант Tencent пуска на пазара езиковия модел HY2.0Think с архитектура „микс от експерти“ и 406 милиарда параметри. Моделът поддържа свръхдълъг контекст до 256 хил. лексеми и демонстрира водещи резултати в задачите, изискващи сложни логически разсъждения: математика, програмиране, наука. Успоредно с това Tencent интегрира модела DeepSeek V3.2 в своята екосистема.

HY2.0 е изграден на базата на архитектурата „смес от експерти“ (MoE): при общ размер до 406 милиарда параметъра, в даден момент участват само 32 милиарда. Моделът поддържа свръхдълъг контекст – до 256 хиляди токена, което му позволява да работи с големи документи и сложни вериги от разсъждения. HY 2.0 Think използва „стратегии за санкциониране на дължината“, за да избегне генерирането на прекалено многословен изход. Tencent го нарежда сред лидерите в индустрията по отношение на ефективността и скоростта на извеждане.

За разлика от предишната версия на Hunyuan-T1, версията HY2.0Think е обучена на базата на подобрени данни за предварително обучение и с актуализирани методи за подсилено обучение. Това е подобрило представянето в задачите, които изискват логически изводи, включително математиката, науката, програмирането и точното следване на инструкции.

HY2.0Think се представи отлично в различните бенчмаркове, включително задачите от нивото на Международната олимпиада по математика IMO-AnswerBench и HMMT 2025, състезание на Харвардския технологичен институт.

Актуализираните данни от предварителното обучение също така позволиха решаването на тестове, които изискват задълбочени знания, като Human Last Exam (HLE) и ARC AGI.

При задачи, при които е важно да се следват точно инструкциите и да се работи с дълги текстове, HY2.0Think преодолява разликата между обучението и реалното използване на модела, като използва метода „корекция на извадката по важност“. Това спомага за стабилизиране на обучението с подсилване при обработката на дълги контексти и подобрява работата при сложни многостъпкови и многовариантни задачи.

В областта на програмирането и интелигентните агенти Tencent е разработила мащабируеми среди за тестване и синтетични набори от данни. Това е подобрило възможностите на модела за писане на код, извикване на сложни инструменти и изпълнение на задачи на агента. HY2.0 показа високо ниво в SWE-bench Verified и Tau2-Bench практически тестове, фокусирани върху сценарии за реални приложения.

Tencent също така постепенно въвежда модела DeepSeek V3.2 в своята екосистема. И двата модела бяха пуснати за първи път в собствените приложения на компанията за изкуствен интелект – Yuanbao и ima. В същото време Tencent Cloud отвори достъп до тях чрез API и облачни услуги.

Пускането на HY2.0 и интегрирането на DeepSeek V3.2 отразяват стратегията на Tencent за укрепване на собствената ѝ платформа за изкуствен интелект – от собствените приложения до облачните услуги. DeepSeek наскоро пусна отворен модел, който показва резултати, съответстващи на нивото на златния медал на Международната олимпиада по математика, който обикновено се присъжда само на около 8% от участниците.

Източник: Калдата

Абонирайте се за нас в Google News Showcase, за да следите най-важните новини от деня.
Коментирай