🇵🇱 Polish Knowledge Benchmark

Ocena modeli językowych na pytaniach wielokrotnego wyboru (ABCD) z wiedzy o Polsce  ·  Accuracy = % poprawnych odpowiedzi

51Modele
-Pytań (max)
30TOP Kategorii
-Suma odp.
Wybierz poziomy trudności, dla których chcesz wyświetlić statystyki
🎯 Format & Wyniki
Pytania wielokrotnego wyboru (A/B/C/D) o wiedzy z zakresu Polski.
Wynik w tabelach to % poprawnych odpowiedzi.
Przyciski Poziomu Trudności filtrują wszystkie widoki jednocześnie.
🏗️ Źródła & Generowanie
Dane przygotowane przez społeczność Speakleash — Wikipedia, wiedza regionalna, własne zbiory z naciskiem na różnorodność domenową.
Pytania wygenerowane syntetycznie przez DeepSeek 3.2.
Kontekstowe pytania zostały odfiltrowane dedykowanym klasyfikatorem BERT (usunięto pytania wymagające znajomości tekstu źródłowego).
⚖️ Ocena Trudności
Poziom trudności pytań i zestawów odpowiedzi oceniony przez Qwen3.5-397B-A17B-FP8 w skali 1–5.

📦 Wersja benchmarku: 1.0 Benchmark zrealizowany dzięki udostępnionej mocy obliczeniowej przez ACK Cyfronet AGH w ramach grantu PLG/2024/016951
📊 Skuteczność na kategorie (Heatmap)
Zaznacz kategorie, by zawęzić widok do konkretnych obszarów tematycznych
🔍 Przykładowe pytania — analiza modeli

Kliknij pytanie, by rozwinąć pełną treść z opcjami. Komórki: ✓ = poprawna, ✗ = błędna. Lista automatycznie dopasowuje się do wybranego u góry Poziomu Trudności.