广

ASP.NET

  • IOS开发
  • android开发
  • PHP编程
  • JavaScript
  • ASP.NET
  • ASP编程
  • JSP编程
  • Java编程
  • 易语言
  • Ruby编程
  • Perl编程
  • AJAX
  • 正则表达式
  • C语言
  • 编程开发

    asp.net 网页编码自动识别代码

    2018-05-08 11:29:45 次阅读 稿源:互联网
    广告
    代码如下:

    using System;
    using System.Net;
    using System.Text;
    using System.Text.RegularExpressions;

    class Program
    {
    // 获取网页的HTML内容,根据网页的charset自动判断Encoding
    static string GetHtml(string url)
    {
    return GetHtml(url, null);
    }

    // 获取网页的HTML内容,指定Encoding
    static string GetHtml(string url, Encoding encoding)
    {
    byte[] buf = new WebClient().DownloadData(url);
    if (encoding != null) return encoding.GetString(buf);
    string html = Encoding.UTF8.GetString(buf);
    encoding = GetEncoding(html);
    if (encoding == null || encoding == Encoding.UTF8) return html;
    return encoding.GetString(buf);
    }

    // 根据网页的HTML内容提取网页的Encoding
    static Encoding GetEncoding(string html)
    {
    string pattern = @"(?i)/bcharset=(?<charset>[-a-zA-Z_0-9]+)";
    string charset = Regex.Match(html, pattern).Groups["charset"].Value;
    try { return Encoding.GetEncoding(charset); }
    catch (ArgumentException) { return null; }
    }

    // 程序入口
    static void Main()
    {
    Console.WriteLine(GetHtml(http://www.jb51.net));

    Console.Read();
    }
    }

    一起学吧部分文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与一起学吧进行文章共享合作。

    广告
    广告
    广告