17370845950

使用Python做区块链数据分析_比特币与以太坊案例
Python区块链数据分析首选比特币和以太坊,核心步骤为:一、通过Blockstream(BTC)或Alchemy/Infura/Etherscan(ETH)获取链上数据;二、用pandas提取活跃地址、Gas消耗、MVRV等指标;三、结合matplotlib/plotly可视化揭示网络状态与异常。

用Python做区块链数据分析,核心是获取链上数据、清洗处理、提取指标并可视化。比特币和以太坊因生态成熟、API丰富、社区工具完善,是最常被选作入门和实战的两条公链。

一、数据获取:从公开API到本地节点

比特币和以太坊都支持多种数据接入方式。初学者推荐使用托管API服务,省去同步全节点的资源消耗;进阶用户可运行轻节点或归档节点获取更细粒度数据。

  • 比特币:可用 Blockstream API(https://blockstream.info/api)获取实时区块、交易、地址余额等,无需密钥,响应快,适合教学与小规模分析。
  • 以太坊:推荐使用 Alchemy 或 Infura(需注册获取API key),配合 web3.py 调用 eth_getBlockByNumber、eth_getTransactionReceipt 等方法;也可用 Etherscan API(适合地址交易历史、代币持有量等场景)。
  • 注意:Etherscan 和 Blockstream 的免费额度有限,高频请求需加 sleep 或升级套餐;web3.py 连接需指定 HTTP/WebSocket 提供商 URL,主网与测试网(如 Sepolia)URL 不同,别混淆。

二、关键指标提取:从交易到网络健康度

链上数据分析不是堆砌原始字段,而是围绕业务问题提炼可解释指标。常见方向包括活跃度、集中度、资金流向和网络效率。

  • 比特币:计算每日活跃地址数(去重输入/输出地址)、链上交易费中位数、MVRV Z-Score(衡量市场情绪)、大额转账(>100 BTC)频次变化。
  • 以太坊:统计日均Gas消耗总量、智能合约调用占比、ERC-20转账数量、新合约部署数、Top 100 地址的ETH持仓变动(反映巨鲸行为)。
  • 小技巧:用 pandas 对交易时间戳转为 datetime 后按天 resample;用 groupby + nunique 统计活跃地址;对地址余额变化做 rolling mean 观察趋势;避免直接 count() 所有交易——未确认交易或零值转账会干扰结果。

三、典型分析场景与代码片段

以下两个轻量级示例可直接运行,依赖 requests、pandas、matplotlib:

  • 比特币7日链上交易量趋势:调用 Blockstream API 获取最近7天区块数据,sum(block['tx_count'] * avg_tx_size),再乘以当日BTC价格估算交易价值量。
  • 以太坊某DeFi协议资金流入热力图:用 Etherscan API 查协议合约地址的“内部交易”(Internal Txns),提取 from、to、value 字段,用 networkx 构建地址关系图,结合 matplotlib 颜色映射显示资金净流入强度。
  • 提醒:Etherscan 返回 value 是 wei 单位,需除以 10**18 转为 ETH;Blockstream 返回的交易不带金额,需解析输入输出脚本并查UTXO状态——若只做宏观分析,可用交易笔数代替价值量作为代理变量。

四、可视化与洞察落地

图表不是装饰,要服务于判断。避免堆砌折线图,优先选择能揭示结构或异常的表达方式。

  • 用双Y轴图对比比特币交易数与矿工费中位数,识别拥堵拐点;
  • 将以太坊Gas Price分布绘制成直方图+核密度曲线,观察竞价分层(如基础费 vs 小费区间是否拉大);
  • 对地址集群做简单聚类(如按入金频次+单笔均值),标出疑似CEX、混币器或稳定币发行方——这类标签虽不精确,但可辅助链上情报初筛。
  • 工具建议:plotly 可交互缩放,适合探索阶段;seaborn 的 clustermap 适合看地址行为相似性;保存图像时用 bbox_inches='tight' 防标题截断。