|
Sunshine
|
Anthropic запускает Claude Opus 4.8 с успехом в кодировании и честности Anthropic сегодня объявлено запуск своей последней модели ИИ, Claude Opus 4.8. Anthropic утверждает, что модель является «более эффективным сотрудником» с улучшениями в агентном кодировании, междисциплинарном рассуждении, использовании агентного компьютера, работе с знаниями и агентном финансовом анализе.
 Тестировщики обнаружили, что Opus 4.8 «более надежен и острее в своих суждениях» при выполнении агентских задач, и модель также добилась успехов в честности.
Ранние тестировщики сообщают, что Opus 4.8 с большей вероятностью будет отмечать неопределенность в отношении своей работы и с меньшей вероятностью делать неподтвержденные заявления. Это подтверждается нашими оценками, которые показывают, что Opus 4.8 примерно в четыре раза реже, чем его предшественник, допускает недостатки в написанном коде.
Оценки соответствия предполагают, что модель достигает новых максимумов в показателях просоциальных черт, таких как поддержка автономии пользователей и действия в интересах пользователя. Показатели смещенного поведения, такого как обман, ниже, чем в Opus 4.7, и аналогичны превью мифов Клода. Антропные бенчмарки указывают на то, что Opus 4.8 набрал 69,2% на SWE-Bench Pro, опередив GPT-5.5 и Gemini 3.1 Pro по тесту и нескольким другим бенчмаркам, хотя GPT–5.5 лидирует по бенчмарку терминального кодирования. Быстрый режим Opus 4.8 также работает в 2,5 раза быстрее, и теперь он в три раза дешевле, чем предыдущие модели. Наряду с Opus 4.8, Anthropic добавляет новые функции в свою линейку продуктов.
- Динамические рабочие процессы (предварительная версия исследования) - Клод может выполнять более крупные задачи в Кодексе Клода. Он способен планировать работу и запускать сотни параллельных субагентов за один сеанс. Он способен выполнять миграции в масштабе кодовой базы на сотни тысяч строк кода. Функция доступна для планов Claude Code for Enterprise, Team и Max.
- Контроль усилий - В Claude.ai и Cowork пользователи могут выбирать, сколько усилий Клод вкладывает в ответ. При более низкой настройке Клод будет реагировать быстрее и медленнее использовать лимиты скорости. Opus 4.8 по умолчанию требует больших усилий, что, по словам Anthropic, является лучшим балансом качества и пользовательского опыта.
- Messages API - Messages API принимает системные записи внутри массива сообщений, поэтому разработчики могут обновлять инструкции Клода в середине задачи.
Сегодня Claude Opus 4.8 доступен повсюду. Цены на регулярное использование не изменились по сравнению с Opus 4.7. Anthropic работает над моделями, которые имеют те же возможности, что и Opus 4.8 по более низкой цене, и новым классом моделей, которые еще умнее Opus. Anthropic заявляет, что разрабатывает меры предосторожности для модели Claude Mythos, которую тестирует с небольшим числом организаций, и ожидает, что сможет представить модели класса Mythos всем клиентам «в ближайшие недели».-Источник
|
|
|