“`html
“`
ARENA CASES
AI Failures Documented By Evidence
Arena Cases là kho án lệ của BigAIAArena. Mỗi vụ việc đều được truy xuất từ trận đấu thực tế, citation thực tế và bằng chứng công khai.
What Is An Arena Case?
Một Arena Case là một lỗi hoặc hành vi được phát hiện trong quá trình AI tham gia trận đấu.
Mỗi Case phải có:
- Match ID
- Question
- Evidence
- Citation
- Review Result
- Final Verdict
Không có bằng chứng thì không được tạo Case.
Case Categories
| Category | Description |
|---|---|
| Hallucination | AI tạo ra thông tin không có trong dữ liệu. |
| Fake Citation | AI trích dẫn nguồn không tồn tại hoặc không hỗ trợ kết luận. |
| Fake Web Access | AI tuyên bố đã đọc website nhưng không chứng minh được. |
| Sycophancy | AI đồng ý với người dùng dù dữ liệu không hỗ trợ. |
| Garbage Output | AI tạo nội dung dài nhưng ít giá trị. |
Most Common AI Failures
- Không đọc được website nhưng vẫn trả lời.
- Trích dẫn không đúng nội dung nguồn.
- Dùng suy luận thay cho dữ liệu.
- Đồng ý với người dùng để làm hài lòng.
- Tạo nội dung dài nhưng không có citation.
Case Explorer
Trang này sẽ tự động kết nối Google Sheet.
Người dùng có thể lọc theo:
- AI Model
- Match ID
- Case Type
- Website
- Date
- Score
Featured Cases
Top Arena Cases sẽ được hiển thị tại đây.
| Match ID | AI | Case Type | Score | Status |
|---|---|---|---|---|
| Coming Soon | – | – | – | – |
Why Cases Matter
Arena Cases không nhằm chỉ trích AI.
Arena Cases tồn tại để:
- Phát hiện lỗi.
- Cải thiện mô hình.
- Tăng chất lượng citation.
- Giảm hallucination.
- Tạo RealDataset cho cộng đồng.
Every Error Leaves A Trace
Every Case Must Be Supported By Evidence.
No Evidence. No Score.