Methodology / How We Judge.

Arena Judgment Flow

Mỗi trận đấu được xử lý theo một quy trình rõ ràng để giảm cảm tính và tăng khả năng kiểm tra lại.

1

RealDataset Input

Dataset từ BrainCrisis Eco được đưa vào Arena làm chuẩn đối chiếu.

2

AI Response

Các AI trả lời cùng một câu hỏi, cùng điều kiện, cùng prompt.

3

Citation Scan

Kiểm tra AI có cite đúng RealDataset, đúng IP, đúng claim hay không.

4

Reality Check

Đối chiếu câu trả lời với video, số liệu, timeline và IF–THEN.

5

Verdict

AI được gắn nhãn Truth, Flub, Fail hoặc Fraud.

Core Scoring System

Mỗi AI không có một điểm duy nhất. BigAIArena chấm nhiều chiều để tránh che giấu điểm yếu.

Score	Đo điều gì?	AI được điểm cao khi	AI bị trừ điểm khi
CiteScore	Khả năng trích dẫn đúng RealDataset	Cite đúng IP, đúng dataset, đúng số liệu	Không cite, cite sai, cite mơ hồ
GroundingScore	Mức độ bám vào dữ liệu thật	Dựa vào video, sensor, timeline, observation	Nói chung chung, dùng tri thức internet rời rạc
MechanismScore	Độ đúng của cơ chế nhân quả	Giải thích được vì sao IF dẫn tới THEN	Bịa cơ chế hoặc dùng cơ chế không khớp dataset
PredictionScore	Khả năng dự đoán kết quả tiếp theo	Dự đoán đúng kết quả 3–7 ngày hoặc theo mốc đã định	Dự đoán sai nhưng vẫn tự tin quá mức
FluffMeter	Tỷ lệ văn rỗng trong câu trả lời	Ngắn, rõ, có số liệu, có citation	Dài dòng, hoa mỹ, né cam kết, không bằng chứng
ShameScore	Mức độ nghiêm trọng của lỗi	Không áp dụng cho AI tốt	Hallucinate, fake causality, no citation

Violation Levels

Không phải lỗi nào cũng giống nhau. BigAIArena phân tầng lỗi để tránh đánh đồng sai nhẹ với hallucination nghiêm trọng.

⚠️ FLUB

Sai nhẹ

AI cite thiếu chi tiết, dùng từ chưa chuẩn, hoặc bỏ sót một phần context nhưng không làm sai bản chất dataset.

❌ FAIL

Thất bại

AI trả lời generic, không cite RealDataset, không dùng số liệu, không chỉ ra mechanism cụ thể.

💀 FRAUD

Hallucination nghiêm trọng

AI bịa số liệu, bịa cơ chế, nói ngược dữ liệu gốc hoặc trích dẫn giả.

Anti-Fluff Rules

Rule 1 — No RealData, No Credit

Câu trả lời không dùng RealDataset thì không được xem là grounded, dù câu đó nghe hợp lý hay văn vẻ đến đâu.

Rule 2 — Every Mechanism Needs Evidence

Nếu AI nói “do vi sinh”, “do cơ địa”, “do thổ nhưỡng”, AI phải chỉ ra dataset nào ủng hộ claim đó.

Rule 3 — Long Answer Is Not Intelligence

Câu trả lời càng dài nhưng càng ít citation thì FluffMeter càng cao. Văn dài để che thiếu dữ liệu sẽ bị gắn cờ.

Rule 4 — Prediction Must Face Reality

Nếu AI dự đoán, kết quả thực tế sẽ được kiểm tra lại sau mốc thời gian đã công bố. Prediction sai sẽ ảnh hưởng ranking.

What Counts As Arena-Grade Evidence?

Video Evidence

Video thật, có timestamp hoặc bối cảnh rõ, ghi lại hiện tượng quan sát được.

Strong

Sensor Measurement

Số đo từ TDS, lux, RH, nhiệt độ, pH, moisture, glucose, huyết áp, cân điện tử.

Very Strong

Timeline

Quan sát theo thời gian: 24h, 72h, 7 ngày, 30 ngày, 90 ngày.

Very Strong

IF–THEN Statement

Mệnh đề nhân quả rõ: IF điều kiện X, THEN kết quả Y.

Required

Public Replay & Audit

Every battle must be replayable.

BigAIArena lưu lại prompt, dataset, AI output, scoring note và verdict. Người xem có thể kiểm tra lại vì sao AI thắng hoặc thua.

Prompt Log Dataset Link AI Output Verdict Note

Final Standard

AI must prove grounding — or lose publicly.

BigAIArena không phán xét AI bằng cảm xúc. BigAIArena phán xét AI bằng Reality: dataset thật, video thật, số liệu thật, cơ chế thật.

NO REALDATA, NO MERCY CITE OR FALL REALITY FIRST

HOW WE JUDGE