Viralny post na BridgeBench twierdzi, że Claude Opus 4.6 został osłabiony. Krytycy uważają, że porównanie danych jest wadliwe i mylące. BeInCrypto Polska - ViraViralny post na BridgeBench twierdzi, że Claude Opus 4.6 został osłabiony. Krytycy uważają, że porównanie danych jest wadliwe i mylące. BeInCrypto Polska - Vira

Viralny post na BridgeBench twierdzi, że Claude Opus 4,6 został „osłabiony”, krytycy nazywają to złą nauką

2026/04/13 21:13
3 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

BridgeMind AI twierdzi, że Claude Opus 4.6 od firmy Anthropic został potajemnie pogorszony po ponownym teście benchmarku halucynacji. Wiralowy wpis spotkał się jednak z ostrą krytyką z powodu wadliwej metodologii.

To twierdzenie wywołało szeroką debatę, czy firmy AI po cichu obniżają jakość płatnych modeli, aby zmniejszyć koszty.

BridgeMind twierdzi, że halucynacje wzrosły o 98%

Zespół BridgeMind, twórcy benchmarku BridgeBench dla kodowania, opublikował informację, że Claude Opus 4.6 spadł z drugiego na dziesiąte miejsce na ich liście halucynacji. Zgodnie z ich danymi, dokładność spadła z 83,3% do 68,3%.

Wpis przedstawił to jako dowód na „zmniejszenie poziomu rozumowania”. Jednak bliższa analiza danych pokazuje inny obraz.

Krytycy twierdzą, że porównanie jest zasadniczo błędne

Według informatyka Paula Calcrafta, takie twierdzenie to „niezwykle zła nauka”. Podkreśla on istotny problem w metodologii.

Pierwotnie wysoki wynik pochodził tylko z sześciu benchmarkowych zadań. Nowy test rozszerzył to na 30 zadań.

Na sześciu wspólnych zadaniach wydajność była niemal identyczna – spadła tylko z 87,6% do 85,4%.

Ta niewielka różnica wynika głównie z jednej dodatkowej halucynacji w jednym zadaniu. Bez powtórzonych testów to mieści się w standardowym zakresie statystycznej zmienności dla modeli AI.

Duże modele językowe nie są deterministyczne i pojedyncza zła odpowiedź przy małej próbie może wyraźnie zmienić wyniki.

Szersza frustracja napędza tę narrację

Mimo to wpis wywołał silne emocje. Od premiery w lutym 2026 r. Claude Opus 4.6 zmaga się z ciągłymi skargami na pogorszenie jakości.

Programiści zgłaszają krótsze odpowiedzi, słabsze wykonywanie instrukcji i mniejszą głębię rozumowania w godzinach szczytu.

Częściowo wynika to z zamierzonych zmian produktu. Anthropic wprowadził adaptacyjne sterowanie rozumowaniem, które pozwala modelowi samodzielnie zarządzać limitem wysiłku. Domyślnie ustalono poziom średni, co zwiększa efektywność kosztem głębi.

Niezależna analiza ponad 6800 sesji Claude Code wykazała, że głębia rozumowania spadła o około 67% do końca lutego.

Stosunek odczytu plików przed edycją kodu zmniejszył się z 6,6 do 2,0. To sugeruje, że model próbował poprawiać kod, który ledwo przeglądał.

Co to oznacza dla użytkowników AI

To pokazuje rosnące napięcie w branży AI. Firmy optymalizują modele pod kątem kosztów i skali po premierze, a zaawansowani użytkownicy oczekują stałej, wysokiej wydajności. Ten rozdźwięk pogłębia utratę zaufania.

Dostępne dane z BridgeBench nie potwierdzają celowego pogorszenia modelu. Benchmark porównuje nieporównywalne próbki, a wyniki na wspólnych zadaniach są niemal identyczne.

Jednak sama frustracja nie jest całkiem bezpodstawna. Adaptacyjne sterowanie rozumowaniem i optymalizacja na poziomie usługi faktycznie zmieniły zachowanie Claude Opus 4.6 dla użytkowników. Dla deweloperów polegających na stabilnych wynikach te różnice mają znaczenie.

Anthropic nie opublikował oficjalnego stanowiska dotyczącego zarzutów BridgeBench według stanu na 13 kwietnia.

BeInCrypto Polska - Viralny post na BridgeBench twierdzi, że Claude Opus 4,6 został „osłabiony”, krytycy nazywają to złą nauką

Okazja rynkowa
Logo 4
Cena 4(4)
$0.013102
$0.013102$0.013102
+0.32%
USD
4 (4) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!