不能盲目将HTML中所有的图片转换成二进制来存储,当图片越来越大时,image的data域会变得非常大,从而导致无法通过data来读取图片。
图片数据读不出来的现象:
由于很多情况是不清楚图片的,处理HTML的图片问题,还是使用相对路径来处理。
附将图片转为data数据的方法:
private string ReplaceFileSystemImages(string html)
{
var matches = Regex.Matches(html, @"]*?src\s*=\s*([""']?[^'"">]+?['""])[^>]*?>", RegexOptions.IgnoreCase | RegexOptions.IgnorePatternWhitespace | RegexOptions.Multiline);
foreach (Match match in matches)
{
string src = match.Groups[1].Value;
src = src.Trim('\"');
if (File.Exists(src))
{
var ext = Path.GetExtension(src);
if (ext.Length > 0)
{
ext = ext.Substring(1);
src = string.Format("'data:image/{0};base64,{1}'", ext, Convert.ToBase64String(File.ReadAllBytes(src)));
html = html.Replace(match.Groups[1].Value, src);
}
}
}
return html;
}
参考文献: