2016-05-26 3 views
0

XGBoost генерирует список прогнозов для тестового набора данных. Мой вопрос в том, как я могу сопоставить сгенерированные прогнозы с фактическими строками тестового файла? Можно ли считать, что n-го предсказания соответствует n-й строке данных? XGBoost использует многопоточность для своих операций. Итак, в такой настройке можно доверять тому, что результаты прогнозирования строго соответствуют строкам тестовых данных? В идеале было бы очень любимым, если бы был способ аннотировать предсказания с некоторым идентификатором строки из файла тестовых данных?Как сопоставить прогнозы XGBoost с соответствующими строками данных?

Я использую этот пример и работаю с форматом данных DMATrix XGBoost. https://github.com/dmlc/xgboost/tree/master/demo/binary_classification

ответ

0

Я не уверен, что его строго безопасен, но исходя из моего опыта, это предположение работает. Кроме того, для большинства фрагментов кода, использующих xgboost, которые я видел на соревнованиях Kaggle like this one, люди делают это же предположение, и это работает. Короче говоря, вы можете быть уверены, что он работает, однако я не зарылся в документацию, и поэтому я не могу сказать, что он работает все время.