感謝網路上的善心人士肯分享程式碼讓我解決問題
我也要秉持這個精神把改好的程式片段也分享出來

1.處理無效字元的java code
String validString="[\u0000-\u0008|\u000B|\u000C|\u000E-\u001F|\uD800-\uDFFF|\uFFFE|\uFFFF]";
String text = xmlText.replaceAll(validString, "");
解說:
其中validString表示xml所定義的所有無效字元
xmlText為從檔案讀入的xml字串
利用java強大的取代功能,一次性把錯誤字元全部清空


2.抓出html文件中的圖檔
String patternStr = "src=\"(http://[a-zA-Z0-9/.]*/(.*?[jpg|png|gif]))\"";
Pattern pattern = Pattern.compile(patternStr);
Matcher matcher = pattern.matcher(htmlText);
while(matcher.find()) {
String photolink = matcher.group(1);//抓出網址
String JPG_file = matcher.group(2);//抓出圖檔名稱
}
解說:
htmlText為從檔案中讀入的html字串

以上看的懂得應該會自己用
看不懂就當作這是篇國王的文章吧
arrow
arrow
    全站熱搜

    45 發表在 痞客邦 留言(0) 人氣()