# 数据处理技巧

## Wikipedia 大容量数据提取

Wikipedia页面往往有几千行，snapshot会被截断。最佳方案：

### 方案1：正则直接提取（最快）
```js
document.body.innerText.match(/关键词[\s\S]{0,3000}/)
```
- 用于：找特定轮次比分、积分榜、赛程表
- 例：`/第14轮[\s\S]{0,3000}/` 直接拿到第14轮所有比分

### 方案2：提取带上下文（定位用）
```js
document.body.innerText.match(/比赛场数[\s\S]{0,3000}/)
```
- 用于：先定位到表格附近，再提取

### 方案3：表格数据提取
```js
(() => { 
  const tables = document.querySelectorAll('table'); 
  let result = []; 
  for (const t of tables) { 
    if (t.innerText.includes('积分') && t.innerText.includes('球队')) {
      result.push(t.innerText.substring(0, 3000)); 
    }
  }
  return result.join('\n---\n'); 
})()
```
- 注意：必须用箭头函数或 IIFE，不能用 return 语句
- 返回 JSON.stringify 结果再在 Python 侧解析

### 实用技巧
- Yahoo Japan搜索结果摘要经常直接包含足够数据（比分、积分），不必点进去
- T足球(tzuqiu.cc)被Cloudflare拦，别试
- 百度百科也是好数据源，内容更结构化
- Instagram/小红书有时有赛程图但无法抓取

## 搜索策略

- Yahoo Japan → 搜索结果摘要有时就够用了，不必每个链接都点进去
- Chrome F12 Console 有时也需要 `document.body.innerText.match` 方式提取数据