کاربرد Tika در جاوا
Tika toollit کاربردهای بسیار متنوعی دارااست البته یکی مهمترین کاربردهای آن در موتورهای کاوش میباشد. اصولا با به کارگیری از تیکا، موتورهای کاوش میتوانند ابرداده ها را در وب سایت ها پیدا کرده و آنها را دستیابی طراحی اپلیکیشن در مشهد نمایند.
تیکا به وسیله بخش اعظمی از سازمانهای تحقیقاتی مثل ناسا و دانش گاه های مطرح دنیا گزینه استعمال قرار میگیرد. از این ابزار برای مدیر محتوا، به خواسته تجزیه و محاسبه مقادیر و دیتاهای متعدد آیتم به کارگیری قرار میگیرد.
از طرفی تیکا قادر است با استعمال از مکانیزم تشخیص MIME، نوع داده ای که گواهی در آن میباشد را تشخیص داده و رابط تجزیه متن و فراداده را کسب نماید و آن گاه آن را برای استفاده کننده با اعتنا به افزونه های تجزیه کننده خاصی که مخاطب معلوم می نماید، خلاصه نماید.
Tika از کلیه اشکال اوراق ارائه گردیده در MIME پناه می نماید. هر وقت پرونده ای از روش Tika عبور می نماید، نوع گواهی و همینطور لهجه آن را بر پایه ی خویش گواهی تشخیص داده میخواهد شد. قابل ذکر میباشد که استانداردهای چند کاربردی MIME شایسته ترین استانداردهای جان دار برای شناسایی گونه های سندها میباشند. داده ها این استانداردها در تعاملات داخلی به مرورگر یاری می نماید.
اساسا هر مجال که مرورگر با یک فولدر رسانهای روبرو میشود، این قابلیت و امکان امداد مینماید تا یک اپلیکیشن سازگار و متناسب برای اکران محتوای آن گزینش گردد. در حالتی که هیچ نرم افزار قابل قبولی برای اجرای یک مدرک رسانهای خاص وجود نداشته باشد، به مخاطب سفارش میخواهد شد نرمافزار و یا این که افزونه مطلوب را بر روی سیستم خویش نصب نماید.
Tika همینطور میتواند تشخیص را به ردیاب مطلوب تری واگذار نماید، چون الگوریتم گزینه به کارگیری به وسیله ردیاب، متعلق به ایفا میباشد. برای مثال، ردیاب پیش فرض آغاز بایت های جادویی را رسیدگی می نماید، آنگاه داده ها مرتبط با فراداده ها را کاوش می نماید و در شرایطیکه نوع محتوا هنوز معلوم نشده باشد، از لودکننده خدمت برای تست مجموع ردیاب های مو جود استعمال می نماید.
Tikaمی تواند تعداد قابل توجهی از گونه های پرونده ها در فرمت های متفاوت: xml، html، pdf، پرونده های جاوا، پوشه های jar و…. را پیدا کرده آن را پردازش کرده و در مشت شما قرار دهد.
کسب محتوا در Tika
تیکا برای استحصال محتوا از اشکال مختلفی از کتابخانه های تجزیه کننده به کارگیری می نماید و بعد از تصمیم گیری درباره نوع مدرک تجزیه کننده مطلوب را گزینش می نماید. هنگام تجزیه ورقه ها، در مجموع از طریق parse To String به کار گیری میشود. در تحت گستردن مختصر و خلاصه ای از فرایند تجزیه گفته شده میباشد:
در صدر زمانی سندی را به Tika منتقل میکنیم، از مکانیزم تشخیص مطلوب، صحیح مانند آنچه پیش از اینً توضیح داده شد، به کار گیری می نماید و نوع مدرک را تشخیص میدهد. آنگاه با مشخص و معلوم شدن نوع گواهی، Tika تجزیه کننده قابل قبولی را از دربین مخزن تجزیه کنندگان متفاوت تعیین می نماید. مخزن تجزیه کننده کلاسهایی را در مشت دارااست که از دیگر کتابخانه های فرنگی استعمال می نمایند.
ضمن محتوا، تیکا توان استحصال فراداده را از یک پوشه داراست فراداده چیزی وجود ندارد جز داده ها مازاد مرتبط با پرونده ای که یاور پوشه میباشد. برای مثال، یک ترانه یا این که یک فولدر صوتی دانلود مینمایید. متادیتای آن دربرگیرنده مواقعی مانند اسم هنرمند، اسم گالری و تیتر میباشد و تیکا قادر است این نوع داده ها را از ورقه ها استحصال نماید.
Extensible Metadata Platform (XMP) استانداردی برای پردازش و ذخیره داده ها مرتبط با محتوای یک پرونده میباشد. XMP از گونه های متفاوت استاندارد برای تعریفوتمجید، ساخت و پردازش فراداده برای گونه های گوناگون ورقه ها درست شده میباشد. هنگام به کار گیری از Tika، میتوانید از روشی مانند (metadata.name) برای اخذ اسم ها از فولدر به کارگیری فرمائید. با این هم اکنون، برای فراخوانی اسم، به یک فولدر متاداده نیاز دارید. این فولدر را از روش طریق تجزیه ای که در صدر توضیح داده شد، اخذ میکنید. یک کدام از پارامترهای یک ابرداده این میباشد که بعداز کامل شدن طریق تجزیه، فراداده را در خویش نگه میدارد.
چهطور خواهیم توانست از رابط کاربری گرافیکی Tika به کار گیری کنیم؟
Tika با رابط کاربری گرافیکی (GUI) همپا میباشد که مخاطب قادر است از آن استعمال نماید. پس از نصب Tika میتوانید آن را در فایل “gui” پیدا فرمایید.
در GUI، روی open کلیک فرمائید، مرور نمائید و فایلی را که قرار میباشد استحصال خواهد شد، گزینش فرمائید (آن را به خلأ پنجره بکشید). در غایت Tika محتوای پرونده ها را کسب کرده و در پنج پوسته متعدد اکران میدهد: فراداده تصویری، متن پوسته بندی گردیده، متن بی آلایش، محتوای اساسی و متن ساختار یافته. میتوانید هر پوسته را که میخواهید تعیین نمائید.
تجزیه API در Tika
تجزیه کننده API یکیاز مهمترین بخش های نرمافزار میباشد. این قسمت تیکا ماهیت بغرنج عملیات را با تجزیه خلاصه می نماید و عمل را برای مخاطب بسیار شل خیس می نماید. تیکا برای این عمل صرفا به یک نحوه متکی میباشد که تجزیه کننده اسم داراست و از قسمت های پایین درست شده میباشد:
• جریان ورودی (InputStream)-داده ورودی تولید گردیده را از مدرک، تجزیه می نماید.
• هندلر محتوا (ContentHandler) – که توالی اتفاق ها XHTML SAX را از گواهی ورودی تجزیه گردیده اخذ می نماید (این در اختیار گرفتن کننده، حوادث را پردازش می نماید و سود را آرم میدهد)
• فراداده (metadata)- فراداده ای میباشد که مختصات فراداده را در تجزیه کننده و سوا آن تجزیه می نماید.
• مثال متن تجزیه کننده (ParseContext)- که داده ها خاص متن را جابجایی میدهد (میتواند برای سفارشی سازی فرایند تجزیه استعمال شود).
در حالتیکه جریان ورودی خوانده نشود، تجزیه کننده یک IOException ساختوساز میشود، در شرایطی که جریان ورودی قابل تجزیه وجود ندارد TikaException تولید میشوند و در حالتیکه در اختیار گرفتن کننده نمی تواند پردازش نماید SAXException، یک اتفاق افتاد را پردازش می نماید. هنگام تجزیه، تیکا سعی بر به کار گیری دوباره از کتابخانه های تجزیه کننده جان دار دارااست و در سود، بیشتر کلاس های مجری صرفا سازگار با اینگونه کتابخانه هایی میباشند.
با سلام و عرض احترام خدمت شما دوست محترم
با توجه به مطالب ارزنده و مفید وبلاگ شما ؛ به صورت رسمی برای ساخت پیج اختصاصی در دینون و انتشار مطالب آموزشی دعوت می شوید.
در دینون می توانید مطالب آموزشی خود را منتشر نمایید ، به سوالات دیگران پاسخ دهید ، برای پیج خود اشتراک تعریف کرده تا دیگران در ازای پرداخت حق اشتراک به مطالب شما دسترسی داشته باشند.
منتظر حضور شما هستیم.
https://dinon.ir
با تشکر ، تیم پشتیبانی دینون