分析任务 v2:社交媒体行为 — 多方法联合分析
数据集:
/tmp/social_analysis/social_media_user_behavior.csv— 25000 用户 × 45 列/tmp/social_analysis/platform_statistics_2026.csv— 18 平台聚合统计
请完成以下 6 道题,结果写入
/tmp/social_analysis/report_v2_<YOUR_NAME>.md(<YOUR_NAME>
取 dscc 或 claude)。 所有随机过程
random_state=42;所有数值保留 4 位小数。
你可以自由使用 pandas / numpy / scipy / sklearn。
Q1. 跨表一致性检查
以 primary_platform 为键,把用户级
daily_screen_time_minutes 的均值与
platform_statistics_2026.csv 的
avg_daily_time_minutes 对齐,仅保留两表都有的平台。
- 给出 18 行左右(或交集行数)的对照表:平台 / 用户均值 / 平台表值 / 差值
- 报告两列的 Pearson 相关系数
- 指出 用户自报均值 − 平台表值 绝对差最大的 3 个平台
Q2. 独立性检验
构造 is_content_creator × has_purchased_via_social 的
2×2 列联表,做 chi-square 独立性检验。输出:
- 2×2 列联表(原始计数)
chi2,dof,p_value- 结论(α=0.05):是否拒绝独立性
Q3. 逻辑回归:预测是否通过社交平台购买过
目标
has_purchased_via_social(布尔)。特征(按此顺序):
numeric: age, daily_screen_time_minutes, num_platforms_used,
engagement_rate_pct, monthly_social_spending_usd, posts_per_week,
followers_count
boolean: follows_influencers, is_content_creator, uses_ai_features
categorical (one-hot): ad_click_frequency, income_bracket, primary_platform
步骤:
- 丢弃任一特征缺失的行(如有)
train_test_split(test_size=0.2, random_state=42, stratify=y)StandardScaler只对 numeric 列;布尔转 0/1;categorical 用pd.get_dummies(drop_first=True)LogisticRegression(max_iter=2000, random_state=42)- 输出:train AUC, test AUC, test accuracy
- 列出系数绝对值 top 5 的特征及其系数(正负号保留)
Q4. Simpson’s 风险检查
整体层面计算 addiction_level_1_to_10 与
sleep_hours_per_night 的 Pearson 相关系数
r_all;再按
is_content_creator ∈ {True, False} 分两组分别计算
r_creator,
r_non_creator。报告三个数字并判断是否出现符号反转或量级减半以上。
Q5. K-Means 行为聚类
对以下 4
个数值特征:daily_screen_time_minutes, engagement_rate_pct, posts_per_week, addiction_level_1_to_10
StandardScaler→KMeans(n_clusters=4, n_init=10, random_state=42)- 输出每簇规模(用户数、占比 %)
- 输出每簇在原始尺度上的 4 个特征均值
- 用一句话给每簇起个业务标签(如 “低活跃观众”、“重度创作者”)
Q6. 异常参与度用户
只保留 followers_count >= 1000 的用户。用
followers_count(log10(1+x) 变换后)预测
engagement_rate_pct,做一元 OLS 线性回归,找出
残差绝对值 top 5
的用户。输出:user_id, followers_count, engagement_rate_pct, predicted, residual。
输出要求
Markdown 报告,6 个小节标题与本文件一致(Q1–Q6)。表格用管道符。不要加未要求的额外分析。不要画图。