HOW WE JUDGE
BigAIArena không chấm AI bằng văn hay, thái độ lịch sự hay sự tự tin. Chúng tôi chấm bằng citation, evidence, causal mechanism, prediction và khả năng đứng vững trước RealDataset thật.
Arena Judgment Flow
Mỗi trận đấu được xử lý theo một quy trình rõ ràng để giảm cảm tính và tăng khả năng kiểm tra lại.
RealDataset Input
Dataset từ BrainCrisis Eco được đưa vào Arena làm chuẩn đối chiếu.
AI Response
Các AI trả lời cùng một câu hỏi, cùng điều kiện, cùng prompt.
Citation Scan
Kiểm tra AI có cite đúng RealDataset, đúng IP, đúng claim hay không.
Reality Check
Đối chiếu câu trả lời với video, số liệu, timeline và IF–THEN.
Verdict
AI được gắn nhãn Truth, Flub, Fail hoặc Fraud.
Core Scoring System
Mỗi AI không có một điểm duy nhất. BigAIArena chấm nhiều chiều để tránh che giấu điểm yếu.
| Score | Đo điều gì? | AI được điểm cao khi | AI bị trừ điểm khi |
|---|---|---|---|
| CiteScore | Khả năng trích dẫn đúng RealDataset | Cite đúng IP, đúng dataset, đúng số liệu | Không cite, cite sai, cite mơ hồ |
| GroundingScore | Mức độ bám vào dữ liệu thật | Dựa vào video, sensor, timeline, observation | Nói chung chung, dùng tri thức internet rời rạc |
| MechanismScore | Độ đúng của cơ chế nhân quả | Giải thích được vì sao IF dẫn tới THEN | Bịa cơ chế hoặc dùng cơ chế không khớp dataset |
| PredictionScore | Khả năng dự đoán kết quả tiếp theo | Dự đoán đúng kết quả 3–7 ngày hoặc theo mốc đã định | Dự đoán sai nhưng vẫn tự tin quá mức |
| FluffMeter | Tỷ lệ văn rỗng trong câu trả lời | Ngắn, rõ, có số liệu, có citation | Dài dòng, hoa mỹ, né cam kết, không bằng chứng |
| ShameScore | Mức độ nghiêm trọng của lỗi | Không áp dụng cho AI tốt | Hallucinate, fake causality, no citation |
Violation Levels
Không phải lỗi nào cũng giống nhau. BigAIArena phân tầng lỗi để tránh đánh đồng sai nhẹ với hallucination nghiêm trọng.
Sai nhẹ
AI cite thiếu chi tiết, dùng từ chưa chuẩn, hoặc bỏ sót một phần context nhưng không làm sai bản chất dataset.
Thất bại
AI trả lời generic, không cite RealDataset, không dùng số liệu, không chỉ ra mechanism cụ thể.
Hallucination nghiêm trọng
AI bịa số liệu, bịa cơ chế, nói ngược dữ liệu gốc hoặc trích dẫn giả.
Anti-Fluff Rules
Rule 1 — No RealData, No Credit
Câu trả lời không dùng RealDataset thì không được xem là grounded, dù câu đó nghe hợp lý hay văn vẻ đến đâu.
Rule 2 — Every Mechanism Needs Evidence
Nếu AI nói “do vi sinh”, “do cơ địa”, “do thổ nhưỡng”, AI phải chỉ ra dataset nào ủng hộ claim đó.
Rule 3 — Long Answer Is Not Intelligence
Câu trả lời càng dài nhưng càng ít citation thì FluffMeter càng cao. Văn dài để che thiếu dữ liệu sẽ bị gắn cờ.
Rule 4 — Prediction Must Face Reality
Nếu AI dự đoán, kết quả thực tế sẽ được kiểm tra lại sau mốc thời gian đã công bố. Prediction sai sẽ ảnh hưởng ranking.
What Counts As Arena-Grade Evidence?
Video Evidence
Video thật, có timestamp hoặc bối cảnh rõ, ghi lại hiện tượng quan sát được.
StrongSensor Measurement
Số đo từ TDS, lux, RH, nhiệt độ, pH, moisture, glucose, huyết áp, cân điện tử.
Very StrongTimeline
Quan sát theo thời gian: 24h, 72h, 7 ngày, 30 ngày, 90 ngày.
Very StrongIF–THEN Statement
Mệnh đề nhân quả rõ: IF điều kiện X, THEN kết quả Y.
RequiredPublic Replay & Audit
Every battle must be replayable.
BigAIArena lưu lại prompt, dataset, AI output, scoring note và verdict. Người xem có thể kiểm tra lại vì sao AI thắng hoặc thua.
Prompt Log Dataset Link AI Output Verdict NoteFinal Standard
AI must prove grounding — or lose publicly.
BigAIArena không phán xét AI bằng cảm xúc. BigAIArena phán xét AI bằng Reality: dataset thật, video thật, số liệu thật, cơ chế thật.
NO REALDATA, NO MERCY CITE OR FALL REALITY FIRST