“`html

ARENA CASES

AI Failures Documented By Evidence

Arena Cases là kho án lệ của BigAIAArena. Mỗi vụ việc đều được truy xuất từ trận đấu thực tế, citation thực tế và bằng chứng công khai.

What Is An Arena Case?

Một Arena Case là một lỗi hoặc hành vi được phát hiện trong quá trình AI tham gia trận đấu.

Mỗi Case phải có:

  • Match ID
  • Question
  • Evidence
  • Citation
  • Review Result
  • Final Verdict

Không có bằng chứng thì không được tạo Case.

Case Categories

Category Description
Hallucination AI tạo ra thông tin không có trong dữ liệu.
Fake Citation AI trích dẫn nguồn không tồn tại hoặc không hỗ trợ kết luận.
Fake Web Access AI tuyên bố đã đọc website nhưng không chứng minh được.
Sycophancy AI đồng ý với người dùng dù dữ liệu không hỗ trợ.
Garbage Output AI tạo nội dung dài nhưng ít giá trị.

Most Common AI Failures

  • Không đọc được website nhưng vẫn trả lời.
  • Trích dẫn không đúng nội dung nguồn.
  • Dùng suy luận thay cho dữ liệu.
  • Đồng ý với người dùng để làm hài lòng.
  • Tạo nội dung dài nhưng không có citation.

Case Explorer

Trang này sẽ tự động kết nối Google Sheet.

Người dùng có thể lọc theo:

  • AI Model
  • Match ID
  • Case Type
  • Website
  • Date
  • Score

Featured Cases

Top Arena Cases sẽ được hiển thị tại đây.

Match ID AI Case Type Score Status
Coming Soon

Why Cases Matter

Arena Cases không nhằm chỉ trích AI.

Arena Cases tồn tại để:

  • Phát hiện lỗi.
  • Cải thiện mô hình.
  • Tăng chất lượng citation.
  • Giảm hallucination.
  • Tạo RealDataset cho cộng đồng.

Every Error Leaves A Trace

Every Case Must Be Supported By Evidence.

No Evidence. No Score.

“`