|
看著這一行代碼
- X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2,random_state=0)
複製代碼
我心生疑惑,這究竟代表什麼含義?
現在我基本弄懂了,特記錄下來。
train_test_split()是sklearn包的model_selection模塊中提供的隨機劃分訓練集和測試集的函數;使用train_test_split函數可以將原始數據集按照一定比例劃分訓練集和測試集對模型進行訓練
x,y是原始的數據集。X_train,y_train 是原始數據集劃分出來作為訓練模型的,fit模型的時候用。
X_test,y_test 這部分的數據不參與模型的訓練,而是用於評價訓練出來的模型好壞,score評分的時候用。
test_size =0.2測試集的劃分比例。如果為浮點型,則在0.0-1.0之間,代表測試集的比例;如果為整數型,則為測試集樣本的絕對數量;如果沒有,則為訓練集的補充。
random_state:是隨機數的種子。固定隨機種子時,同樣的代碼,得到的訓練集數據相同。不固定隨機種子時,同樣的代碼,得到的訓練集數據不同。
|
|