求java 完美解析 docx文档例子

求java 完美解析 docx文档例子

回答: 求java 完美解析 docx文档例子

  1.   java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法。经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。



    ----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。



    ----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。

           1、采用字节的形式读取rtf模板内容

           2、将可变的内容字符串转为rtf编码

           3、替换原文中的可变部分,形成新的rtf文档



    主要程序如下:

    /**

    * 将制定的字符串转换为rtf编码

    */

    public String bin2hex(String bin) {
            char[] digital = "0123456789ABCDEF".toCharArray();
            StringBuffer sb = new StringBuffer("");
            byte[] bs = bin.getBytes();
            int bit;
            for (int i = 0; i < bs.length;i++) {
                bit = (bs[i] & 0x0f0) >> 4;

                sb.append("\\'");
                sb.append(digital[bit]);
                bit = bs[i] & 0x0f;
                sb.append(digital[bit]);
            }
            return sb.toString();
        }



    /**

    * 字节形式读取rtf模板内容

    */

    public String readByteRtf(InputStream ins, String path){

       String sourcecontent = "";
      try{
        ins = new FileInputStream(path);
        byte[] b = new byte[1024];
              if (ins == null) {
                   System.out.println("源模板文件不存在");
              }
              int bytesRead = 0;
              while (true) {
                  bytesRead = ins.read(b, 0, 1024); // return final read bytes counts
                  if(bytesRead == -1) {// end of InputStream
                   System.out.println("读取模板文件结束");
                   break;
                  }
                  sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes
               }
      }catch(Exception e){
       e.printStackTrace();
      }

    }



          以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。运行源代码前提:



    c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf 的文件。。。。。文件名是在程序中指定的呵呵。由于是由商业软件中拆分出的demo所以只是将自己原来的写的程序分离,合并在一个java文件中,所以有的方法在示例程序中看似多余,没有必要那么麻烦。



         对于替换部分需要循环的特例程序,我不好拆分,里面很容易暴露商业软件的东西,所以就不贴了,有需要的话可以加我QQ或者MSN,一起讨论呵呵。附件传了半天也没有传上去,没有办法只有这样搞了呵呵。模板文件附件无法存放,需要的直接联系呵呵。其实直接看以下的java程序部分,就会明白



    /**

    * 以下部分是java源代码

    */




    package com;



    import java.io.File;

    import java.io.FileInputStream;

    import java.io.FileWriter;

    import java.io.IOException;

    import java.io.InputStream;

    import java.io.PrintWriter;

    import java.text.SimpleDateFormat;

    import java.util.Date;



    public class OperatorRTF {



    /**

    * 字符串转换为rtf编码

    * @param content

    * @return

    */

    public String strToRtf(String content){

    char[] digital = "0123456789ABCDEF".toCharArray();

            StringBuffer sb = new StringBuffer("");

            byte[] bs = content.getBytes();

            int bit;

            for (int i = 0; i < bs.length; i++) {

                bit = (bs[i] & 0x0f0) >> 4;

            sb.append("\\'");

                sb.append(digital[bit]);

                bit = bs[i] & 0x0f;

                sb.append(digital[bit]);

            }

            return sb.toString();

    }



    /**

    * 替换文档的可变部分

    * @param content

    * @param replacecontent

    * @param flag

    * @return

    */

    public String replaceRTF(String content,String replacecontent,int flag){

    String rc = strToRtf(replacecontent);

    String target = "";

    /*if(flag==0){

    target = content.replace("$time$",rc);

    }*/

    if(flag==0){

    target = content.replace("$timetop$",rc);

    }

    if(flag==1){

    target = content.replace("$info$",rc);

    }

    if(flag==2){

    target = content.replace("$idea$",rc);

    }

    if(flag==3){

    target = content.replace("$advice$",rc);

    }

    if(flag==4){

    target = content.replace("$infosend$",rc);

    }

    return target;

    }



    /**

    * 获取文件路径

    * @param flag

    * @return

    */

    public String getSavePath() {



    String path = "C:\\YQ";



    File fDirecotry = new File(path);

    if (!fDirecotry.exists()) {

    fDirecotry.mkdirs();

    }

    return path;

    }



    /**

    * 半角转为全角

    */

    public String ToSBC(String input){

       char[] c = input.toCharArray();

       for (int i = 0; i < c.length; i++){

           if (c[i] == 32){

               c[i] = (char) 12288;

               continue;

           }

           if (c[i] < 127){

           c[i] = (char) (c[i] + 65248);

           }

       }

       return new String(c);

    }



    public void rgModel(String username, String content) {

    // TODO Auto-generated method stub

    /*  构建生成文件名 targetname:12时10分23秒_username_记录.rtf */

    Date current=new Date();

            SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

    String targetname = sdf.format(current).substring(11,13) + "时";

    targetname += sdf.format(current).substring(14,16) + "分";

    targetname += sdf.format(current).substring(17,19) + "秒";

    targetname += "_" + username +"_记录.rtf";



    /* 字节形式读取模板文件内容,将结果转为字符串 */

    String strpath = getSavePath();

    String sourname = strpath+"\\"+"模板.rtf";

    String sourcecontent = "";

    InputStream ins = null;

    try{

    ins = new FileInputStream(sourname);

    byte[] b = new byte[1024];

            if (ins == null) {

                 System.out.println("源模板文件不存在");

            }

            int bytesRead = 0;

            while (true) {

                bytesRead = ins.read(b, 0, 1024); // return final read bytes counts

                if(bytesRead == -1) {// end of InputStream

               System.out.println("读取模板文件结束");

               break;

                }

                sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes

             }

    }catch(Exception e){

    e.printStackTrace();

    }

    /* 修改变化部分 */

    String targetcontent = "";

    /**

    * 拆分之后的数组元素与模板中的标识符对应关系

    * array[0]:timetop   

    * array[1]:info

    * array[2]:idea

    * array[3]:advice

    * array[4]:infosend

    */

    String array[] = content.split("~");

    /**

    * 2008年11月27日:更新模板之后时间无需自动填充

    */

    /*String nowtime = sdf.format(current).substring(0,4) + "年";

    nowtime += sdf.format(current).substring(5,7) + "月";

    nowtime += sdf.format(current).substring(8,10) + "日";*/

    for(int i=0;i<array.length;i++){

    /*if(i==0){

    targetcontent = documentDoc.replaceRTF(sourcecontent,nowtime,i);

    }else{

    targetcontent = documentDoc.replaceRTF(targetcontent,array[i-1],i);

    }*/

    if(i==0){

    targetcontent = replaceRTF(sourcecontent, array[i], i);

    }else{

    targetcontent = replaceRTF(targetcontent, array[i], i);

    }



    }

    /* 结果输出保存到文件 */

    try {

    FileWriter fw = new FileWriter(getSavePath()+"\\" + targetname,true);

                PrintWriter out = new PrintWriter(fw);

                if(targetcontent.equals("")||targetcontent==""){

                out.println(sourcecontent);

                }else{

                out.println(targetcontent);

                }

                out.close();

                fw.close();

                System.out.println(getSavePath()+"  该目录下生成文件" + targetname + " 成功");

    } catch (IOException e) {

    // TODO Auto-generated catch block

    e.printStackTrace();

    }

    }









    public static void main(String[] args) {

    // TODO Auto-generated method stub

    OperatorRTF oRTF = new OperatorRTF();

    /**

    * 被替换内容以"~"符号分割,处理的时候将其拆分为数组即可

    */

    String content = "2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法";

    oRTF.rgModel("cheney",content);



    }



    }

怎样解析xml文档?急切求助!!请教高手了??

  1. Q
    怎样使用SAX来解析xml文档??希望有具体的实现代码!多谢!
    通过实现handlerbase接口,来解析xml文档具体应该怎样去做?
    求教高手!!
  2. A
    下载XML包就有例子

求一个 软件需求设计文档 的实例,格式规范,符合行业标准

  1. Q
    公司要求着手编写软件需求设计文档
    求一个 软件需求设计文档 的实例,格式规范,符合 软件工程 设计标准 
    各位IT界的精英,有资源的朋友麻烦给我发一下,不甚感激
    仅仅参考格式和标准,保证不会将其用于其它用途
    我的邮箱是373894155@qq.com ,再次感谢
  2. A
    那些规范啊,确实是不好弄的,深有同感,也是在纠结中

解析Office2007文档

  1. Q
    求,怎样解析Office2007的文档,
    提取里面的图片或文字。

    包括docx, xlsx. pptx

    不用微软的dll 
    Microsoft.Office.Interop.Word 这些

    跪求!!

    用C#实现
  2. A
    .xlsx重命名为.rar,解压后都能在里面找到


    反正.docx、.xlsx之类的其实是一个zip打包的文件,改后缀就可以用解压软件打开了,

求XPath的中文帮助文档

  1. Q
    各位大神,菜鸟求一个XPath的中文帮助文档网站下载地址,有哪位大神知道,还请指点,求回复
  2. A
    http://wenku.baidu.com/view/9fec55d86f1aff00bfd51e04.html

急:求解答javascript对XML文档操作问题(文档里的内容没有变化)

  1. Q
    用javascript对XML文档操作,
      
    这是哪里出问题了,文档里的内容并没有改变,,

    一个简单代码如下:
    <html>

    <body>

    <script language="JavaScript">

    var mydoc=createDoument();//创建一个DOM对象

    mydoc.async=false;//设置同步装载

    mydoc.load("note.xml");//加载目的xml文档

    var root=mydoc.documentElement;//获取根节点元素

    document.write(root.xml);//输出根元素下的节点内容

    document.write("<br/>-----------------<br/>");

    var node=mydoc.createNode(1,"元素名","");//创建新名为“元素名”的新节点

    node.text="新节点内容";//创建新节点内容

    root.appendChild(node);//添加到根节点之下

    window.alert(root.xml);

    document.write(root.xml);

    function createDoument()//创建支持的MSXml DOM文档对象

    {

        var aVersions=["MSXml2.DOMDocument.5.0","MSXml2.DOMDocument.4.0",

        "MSXml2.DOMDocument.3.0","MSXml2.DOMDocument","Microsoft.XmlDom"];

        for(var i=0;i<aVersions.length;i++)

        {

             try

             {

                var oXmlDom=new ActiveXObject(aVersions[i]);

                return oXmlDom;

             }  catch (oError){}

        }

        throw new Error("MSXml is not installed.");

    }

    </script>

    </body>

    </html>



    是不是只是在临时内存(当我们把一个xml文档加载到内存)改变的原因,
      
    root.xml文档里的内容并没有改变,,

    求高手解答。。。。
  2. A
    正如你说的,浏览器对本地访问权限进行了限制,因此,你即使用FSO也是无法实现改写。
    除非用户对浏览器的设置做了修改。
    通常情况下,是将数据回传至服务器进行保存。

求好心人指导android帮助文档chm

  1. Q
    最近在学android,看到视频上用的一些方法不知道具体是干什么,想看看具体是什么意思,就想找一个类似于MFC编程时候用到的MSDN 或者java编程的时候用到chm,不知道android有没有这样类似的帮助文档,有的话各位大哥行行好,指导一下  或者发给我一份吧。。。谢谢了
  2. A

    android官网http://developer.android.com/develop/index.html,最官方的文档

    刚刚又试了一下,把网断了的时候,快一些,网打开的时候就很慢,我想应该是每次打开index的时候会先访问网络,然后再本地,该怎么设置让它不访问网络,直接本地啊买一个VPN帐号,直接使用VPN上上官方网站会更好、更快,资讯更新!
    这也是一个方法,不过感觉还是不弄那么复杂的好真的不复杂,你用了就知道了,以后无论是用谷歌搜索还是android文档都很方便,一劳永逸的事情你不去干,反而在这里瞎折腾真的很浪费时间,而且费力不讨好,况且一个VPN账号也不贵啊,才10元/月,少吃点不就得了。

Nutch解析msword文档

  1. Q
    nutch-0.8.1用得是apache poi project的hwpf作为msword parsing的解决方案

    但是奇怪的是,我在单独使用poi来做解析本地word文档什么问题都没有,用本地文件构造FileInputStream,然后来初始化一个WordExtractor.....中文的大文档也可以处理

    但是在用nutch的方式解析时,碰到中文文档就会出席StringIndexOutOfBoundException,即使这个中文文档只有不到一个page。

    不知有没有各位碰到过类似问题的?还请多多指教

    先谢了
  2. A
    关注,顶一下

求Qt SDK4.7.3文档

  1. Q
    我现在正在学习Qt编程,安装的是Qt SDK4.7.3 ,但是没有文档,对各种类和函数不知如何用,现求一个文档,望各位有的话知会一声!谢啦!!!
  2. A
    楼上正解。
    安完sdk后在qt/bin/assistant.exe就是帮助

求pdf格式的directshow文档,chm的无法打印

  1. Q
    准备啃directshow文档的  可是在电脑上看不方便
    想打印,可是chm格式的不好打印  
    求pdf格式的  我好打印
  2. A
    虽然不是官方文档,但也是个很好的DirectShow参考资料,要打印的话有点多哎...
    http://www.bairuitech.com/upimg/soft/documents/Directshow_SDK_Notes.pdf