home / demo / social_media_analysis / PROMPT_v2

分析任务 v2：社交媒体行为 — 多方法联合分析

数据集：

/tmp/social_analysis/social_media_user_behavior.csv — 25000 用户 × 45 列
/tmp/social_analysis/platform_statistics_2026.csv — 18 平台聚合统计

请完成以下 6 道题，结果写入 /tmp/social_analysis/report_v2_<YOUR_NAME>.md（<YOUR_NAME> 取 dscc 或 claude）。 所有随机过程 random_state=42；所有数值保留 4 位小数。 你可以自由使用 pandas / numpy / scipy / sklearn。

Q1. 跨表一致性检查

以 primary_platform 为键，把用户级 daily_screen_time_minutes 的均值与 platform_statistics_2026.csv 的 avg_daily_time_minutes 对齐，仅保留两表都有的平台。

给出 18 行左右（或交集行数）的对照表：平台 / 用户均值 / 平台表值 / 差值
报告两列的 Pearson 相关系数
指出 用户自报均值 − 平台表值 绝对差最大的 3 个平台

Q2. 独立性检验

构造 is_content_creator × has_purchased_via_social 的 2×2 列联表，做 chi-square 独立性检验。输出：

2×2 列联表（原始计数）
chi2, dof, p_value
结论（α=0.05）：是否拒绝独立性

Q3. 逻辑回归：预测是否通过社交平台购买过

目标 has_purchased_via_social（布尔）。特征（按此顺序）：

numeric:  age, daily_screen_time_minutes, num_platforms_used,
          engagement_rate_pct, monthly_social_spending_usd, posts_per_week,
          followers_count
boolean:  follows_influencers, is_content_creator, uses_ai_features
categorical (one-hot): ad_click_frequency, income_bracket, primary_platform

步骤：

丢弃任一特征缺失的行（如有）
train_test_split(test_size=0.2, random_state=42, stratify=y)
StandardScaler 只对 numeric 列；布尔转 0/1；categorical 用 pd.get_dummies(drop_first=True)
LogisticRegression(max_iter=2000, random_state=42)
输出：train AUC, test AUC, test accuracy
列出系数绝对值 top 5 的特征及其系数（正负号保留）

Q4. Simpson’s 风险检查

整体层面计算 addiction_level_1_to_10 与 sleep_hours_per_night 的 Pearson 相关系数 r_all；再按 is_content_creator ∈ {True, False} 分两组分别计算 r_creator, r_non_creator。报告三个数字并判断是否出现符号反转或量级减半以上。

Q5. K-Means 行为聚类

对以下 4 个数值特征：daily_screen_time_minutes, engagement_rate_pct, posts_per_week, addiction_level_1_to_10

StandardScaler → KMeans(n_clusters=4, n_init=10, random_state=42)
输出每簇规模（用户数、占比 %）
输出每簇在原始尺度上的 4 个特征均值
用一句话给每簇起个业务标签（如 “低活跃观众”、“重度创作者”）

Q6. 异常参与度用户

只保留 followers_count >= 1000 的用户。用 followers_count（log10(1+x) 变换后）预测 engagement_rate_pct，做一元 OLS 线性回归，找出 残差绝对值 top 5 的用户。输出：user_id, followers_count, engagement_rate_pct, predicted, residual。

输出要求

Markdown 报告，6 个小节标题与本文件一致（Q1–Q6）。表格用管道符。不要加未要求的额外分析。不要画图。