DSCC
home / demo / social_media_analysis / PROMPT_v2

分析任务 v2:社交媒体行为 — 多方法联合分析

数据集:

请完成以下 6 道题,结果写入 /tmp/social_analysis/report_v2_<YOUR_NAME>.md<YOUR_NAME>dsccclaude)。 所有随机过程 random_state=42;所有数值保留 4 位小数。 你可以自由使用 pandas / numpy / scipy / sklearn。

Q1. 跨表一致性检查

primary_platform 为键,把用户级 daily_screen_time_minutes 的均值与 platform_statistics_2026.csvavg_daily_time_minutes 对齐,仅保留两表都有的平台。

  1. 给出 18 行左右(或交集行数)的对照表:平台 / 用户均值 / 平台表值 / 差值
  2. 报告两列的 Pearson 相关系数
  3. 指出 用户自报均值 − 平台表值 绝对差最大的 3 个平台

Q2. 独立性检验

构造 is_content_creator × has_purchased_via_social 的 2×2 列联表,做 chi-square 独立性检验。输出:

Q3. 逻辑回归:预测是否通过社交平台购买过

目标 has_purchased_via_social(布尔)。特征(按此顺序):

numeric:  age, daily_screen_time_minutes, num_platforms_used,
          engagement_rate_pct, monthly_social_spending_usd, posts_per_week,
          followers_count
boolean:  follows_influencers, is_content_creator, uses_ai_features
categorical (one-hot): ad_click_frequency, income_bracket, primary_platform

步骤:

  1. 丢弃任一特征缺失的行(如有)
  2. train_test_split(test_size=0.2, random_state=42, stratify=y)
  3. StandardScaler 只对 numeric 列;布尔转 0/1;categorical 用 pd.get_dummies(drop_first=True)
  4. LogisticRegression(max_iter=2000, random_state=42)
  5. 输出:train AUC, test AUC, test accuracy
  6. 列出系数绝对值 top 5 的特征及其系数(正负号保留)

Q4. Simpson’s 风险检查

整体层面计算 addiction_level_1_to_10sleep_hours_per_night 的 Pearson 相关系数 r_all;再按 is_content_creator ∈ {True, False} 分两组分别计算 r_creator, r_non_creator。报告三个数字并判断是否出现符号反转或量级减半以上

Q5. K-Means 行为聚类

对以下 4 个数值特征:daily_screen_time_minutes, engagement_rate_pct, posts_per_week, addiction_level_1_to_10

  1. StandardScalerKMeans(n_clusters=4, n_init=10, random_state=42)
  2. 输出每簇规模(用户数、占比 %)
  3. 输出每簇在原始尺度上的 4 个特征均值
  4. 用一句话给每簇起个业务标签(如 “低活跃观众”、“重度创作者”)

Q6. 异常参与度用户

只保留 followers_count >= 1000 的用户。用 followers_countlog10(1+x) 变换后)预测 engagement_rate_pct,做一元 OLS 线性回归,找出 残差绝对值 top 5 的用户。输出:user_id, followers_count, engagement_rate_pct, predicted, residual

输出要求

Markdown 报告,6 个小节标题与本文件一致(Q1–Q6)。表格用管道符。不要加未要求的额外分析。不要画图。