我正在嘗試選擇要發送給特定用戶的唯一用戶 ID。
假設我希望它是 10M 行中的 200,000 行。我只想要大約 200,000 行的 1500 個唯一用戶 ID(行不需要具體,幾千就可以)。每個用戶都有多個評分。
這是資料集鏈接。
我如何加載資料。
names = ['user_id', 'movie_id', 'rating', 'timestamp']
df = pd.read_csv('ratings.csv', sep='::', names=names)
print(df)
有沒有辦法像熊貓一樣把它分組?
uj5u.com熱心網友回復:
我沒有測驗真實的資料集,但邏輯應該是這樣的:
# select 1500 unique users
import numpy as np
users = np.random.choice(df['user_id'].unique(), size=1500, replace=False)
# filter the users and get (up to) 200k random rows
df_sample = df[df['user_id'].isin(users)].sample(n=200000)
檔案:numpy.random.choice和pandas.DataFrame.sample
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/479034.html
下一篇:從更大的資料幀中隨機子集資料幀
