17370845950

如何使用 Selenium 从网页元素中准确提取全部单词列表

本文讲解如何在 selenium 中正确获取动态渲染页面中所有单词(包括不可见但已加载的 dom 元素内容),解决 `.text` 返回空字符串的问题,推荐使用 `get_attribute("textcontent")` 替代。

在使用 Selenium 抓取类似 10 Fast Fingers 这类动态加载单词的打字测试页面时,一个常见误区是直接调用 element.text 获取文本内容。虽然该方法对当前可见、已渲染且未被 CSS 隐藏的元素有效,但它会忽略因滚动位置、CSS 样式(如 display: none、visibility: hidden 或 opacity: 0)或尚未进入视口而未被浏览器“激活”

的文本节点——而这正是你看到大量空字符串的根本原因。

实际上,目标页面(#row1 > span[wordnr])中的所有单词 元素在页面加载后即已存在于 DOM 中,但部分元素可能尚未被浏览器计算为“可读文本”(例如处于懒加载区域或被临时隐藏),导致 .text 返回空值;而 get_attribute("textContent") 则直接读取元素的原始 DOM 文本内容,不受渲染状态或 CSS 可见性影响,因此能稳定获取全部约 300 个单词。

✅ 正确做法如下(已优化并添加健壮性处理):

from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))
try:
    driver.get("https://www./link/8e3502fa984f26f6890f4a54c4be3f8d")

    # 等待并拒绝 Cookie 弹窗(显式等待更可靠)
    WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.ID, "CybotCookiebotDialogBodyButtonDecline"))
    ).click()

    # 等待单词容器加载完成(确保 #row1 存在且子元素就绪)
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#row1"))
    )

    # 使用 get_attribute("textContent") 替代 .text
    words = driver.find_elements(By.CSS_SELECTOR, "#row1 > span[wordnr]")
    word_list = [word.get_attribute("textContent") for word in words if word.get_attribute("textContent")]

    print(f"成功提取 {len(word_list)} 个单词")
    print(word_list[:20])  # 打印前20个作为验证

finally:
    # driver.quit()  # 生产环境建议保留,调试时可注释
    pass

? 关键要点与注意事项:

  • 永远优先使用 get_attribute("textContent") 而非 .text 来获取结构化文本内容,尤其在处理动态词表、隐藏元素或 SSR/CSR 混合渲染页面时;
  • ⚠️ .text 依赖浏览器渲染引擎的“可视文本计算”,受 display、visibility、opacity、clip-path 等样式影响,不可靠
  • ⚠️ get_attribute("innerText") 同样受可见性影响,不推荐;textContent 是 DOM Level 3 标准属性,返回纯文本内容(含空格/换行),最接近源 HTML;
  • ✅ 添加 WebDriverWait 显式等待关键元素就绪,避免因网络延迟或 JS 加载顺序导致 find_elements 返回空列表;
  • ✅ 过滤掉 None 或空白字符串(if word.get_attribute("textContent")),提升数据洁净度;
  • ? 若后续需自动输入,注意目标输入框可能有防机器人检测(如事件监听、输入节流),需模拟真实用户行为(如 send_keys() + ActionChains 移动光标等)。

通过以上调整,你将稳定获取完整单词列表,为自动化打字、性能分析或本地训练提供高质量数据基础。