کاربرد Tika در جاوا :: مقالات تخصصی طراحی اپلیکیشن

کاربرد Tika در جاوا
Tika toollit کاربردهای بسیار متنوعی دارااست البته یکی مهم‌ترین کاربردهای آن در موتورهای کاوش میباشد. اصولا با به کارگیری از تیکا، موتورهای کاوش می‌توانند ابرداده ها را در وب سایت ها پیدا کرده و آنها را دستیابی طراحی اپلیکیشن در مشهد نمایند.
تیکا به وسیله بخش اعظمی از سازمانهای تحقیقاتی مثل ناسا و دانش گاه های مطرح دنیا گزینه استعمال قرار می‌گیرد. از این ابزار برای مدیر محتوا، به خواسته تجزیه و محاسبه مقادیر و دیتاهای متعدد آیتم به کارگیری قرار می‌گیرد.
از طرفی تیکا قادر است با استعمال از مکانیزم تشخیص MIME، نوع داده ای که گواهی در آن میباشد را تشخیص داده و رابط تجزیه متن و فراداده را کسب نماید و آن گاه آن را برای استفاده کننده با اعتنا به افزونه های تجزیه کننده خاصی که مخاطب معلوم می نماید، خلاصه نماید.

Tika از کلیه اشکال اوراق ارائه گردیده در MIME پناه می نماید. هر وقت پرونده ای از روش Tika عبور می نماید، نوع گواهی و همینطور لهجه آن را بر پایه ی خویش گواهی تشخیص داده می‏خواهد شد. قابل ذکر میباشد که استانداردهای چند کاربردی MIME شایسته ترین استانداردهای جان دار برای شناسایی گونه های سندها می‌باشند. داده ها این استانداردها در تعاملات داخلی به مرورگر یاری می نماید.
اساسا هر مجال که مرورگر با یک فولدر رسانه‎‏ای روبرو میشود، این قابلیت و امکان امداد می‏نماید تا یک اپلیکیشن سازگار و متناسب برای اکران محتوای آن گزینش گردد. در حالتی که هیچ نرم افزار قابل قبولی برای اجرای یک مدرک رسانه‏ای خاص وجود نداشته باشد، به مخاطب سفارش می‏خواهد شد نرم‌افزار و یا این که افزونه مطلوب را بر روی سیستم خویش نصب نماید.

Tika همینطور میتواند تشخیص را به ردیاب مطلوب تری واگذار نماید، چون الگوریتم گزینه به کارگیری به وسیله ردیاب، متعلق به ایفا میباشد. برای مثال، ردیاب پیش فرض آغاز بایت های جادویی را رسیدگی می نماید، آن‌گاه داده ها مرتبط با فراداده ها را کاوش می نماید و در شرایطی‌که نوع محتوا هنوز معلوم نشده باشد، از لودکننده خدمت برای تست مجموع ردیاب های مو جود استعمال می نماید.

Tikaمی تواند تعداد قابل توجهی از گونه های پرونده ها در فرمت های متفاوت: xml، html، pdf، پرونده های جاوا، پوشه های jar و…. را پیدا کرده آن را پردازش کرده و در مشت شما قرار دهد.

کسب محتوا در Tika
تیکا برای استحصال محتوا از اشکال مختلفی از کتابخانه های تجزیه کننده به کارگیری می نماید و بعد از تصمیم گیری درباره نوع مدرک تجزیه کننده مطلوب را گزینش می نماید. هنگام تجزیه ورقه ها، در مجموع از طریق parse To String به کار گیری میشود. در تحت گستردن مختصر و خلاصه ای از فرایند تجزیه گفته شده میباشد:

در صدر زمانی سندی را به Tika منتقل می‌کنیم، از مکانیزم تشخیص مطلوب، صحیح مانند آنچه پیش از اینً توضیح داده شد، به کار گیری می نماید و نوع مدرک را تشخیص می‌دهد. آن‌گاه با مشخص و معلوم شدن نوع گواهی، Tika تجزیه کننده قابل قبولی را از دربین مخزن تجزیه کنندگان متفاوت تعیین می نماید. مخزن تجزیه کننده کلاسهایی را در مشت دارااست که از دیگر کتابخانه های فرنگی استعمال می نمایند.

ضمن محتوا، تیکا توان استحصال فراداده را از یک پوشه داراست فراداده چیزی وجود ندارد جز داده ها مازاد مرتبط با پرونده ای که یاور پوشه میباشد. برای مثال، یک ترانه یا این که یک فولدر صوتی دانلود می‏نمایید. متادیتای آن دربرگیرنده مواقعی مانند اسم هنرمند، اسم گالری و تیتر میباشد و تیکا قادر است این نوع داده ها را از ورقه ها استحصال نماید.

Extensible Metadata Platform (XMP) استانداردی برای پردازش و ذخیره داده ها مرتبط با محتوای یک پرونده میباشد. XMP از گونه های متفاوت استاندارد برای تعریف‌و‌تمجید، ساخت و پردازش فراداده برای گونه های گوناگون ورقه ها درست شده میباشد. هنگام به کار گیری از Tika، میتوانید از روشی مانند (metadata.name) برای اخذ اسم ها از فولدر به کارگیری فرمائید. با این هم اکنون، برای فراخوانی اسم، به یک فولدر متاداده نیاز دارید. این فولدر را از روش طریق تجزیه ای که در صدر توضیح داده شد، اخذ میکنید. یک کدام از پارامترهای یک ابرداده این میباشد که بعداز کامل شدن طریق تجزیه، فراداده را در خویش نگه میدارد.

چه‌طور خواهیم توانست از رابط کاربری گرافیکی Tika به کار گیری کنیم؟
Tika با رابط کاربری گرافیکی (GUI) همپا میباشد که مخاطب قادر است از آن استعمال نماید. پس از نصب Tika می‌توانید آن را در فایل “gui” پیدا فرمایید.
در GUI، روی open کلیک فرمائید، مرور نمائید و فایلی را که قرار میباشد استحصال خواهد شد، گزینش فرمائید (آن را به خلأ پنجره بکشید). در غایت Tika محتوای پرونده ها را کسب کرده و در پنج پوسته متعدد اکران می‌دهد: فراداده تصویری، متن پوسته بندی گردیده، متن بی آلایش، محتوای اساسی و متن ساختار یافته. میتوانید هر پوسته را که میخواهید تعیین نمائید.

تجزیه API در Tika
تجزیه کننده API یکی‌از مهمترین بخش های نرم‌افزار میباشد. این قسمت تیکا ماهیت بغرنج عملیات را با تجزیه خلاصه می نماید و عمل را برای مخاطب بسیار شل خیس می نماید. تیکا برای این عمل صرفا به یک نحوه متکی میباشد که تجزیه کننده اسم داراست و از قسمت های پایین درست شده میباشد:
• جریان ورودی (InputStream)-داده ورودی تولید گردیده را از مدرک، تجزیه می نماید.
• هندلر محتوا (ContentHandler) – که توالی اتفاق ها XHTML SAX را از گواهی ورودی تجزیه گردیده اخذ می نماید (این در اختیار گرفتن کننده، حوادث را پردازش می نماید و سود را آرم میدهد)
• فراداده (metadata)- فراداده ای میباشد که مختصات فراداده را در تجزیه کننده و سوا آن تجزیه می نماید.
• مثال متن تجزیه کننده (ParseContext)- که داده ها خاص متن را جابجایی می‌دهد (می‌تواند برای سفارشی سازی فرایند تجزیه استعمال شود).

در حالتی‌که جریان ورودی خوانده نشود، تجزیه کننده یک IOException ساخت‌و‌ساز میشود، در شرایطی که جریان ورودی قابل تجزیه وجود ندارد TikaException تولید می‏شوند و در حالتی‌که در اختیار گرفتن کننده نمی تواند پردازش نماید SAXException، یک اتفاق افتاد را پردازش می نماید. هنگام تجزیه، تیکا سعی بر به کار گیری دوباره از کتابخانه های تجزیه کننده جان دار دارااست و در سود، بیشتر کلاس های مجری صرفا سازگار با اینگونه کتابخانه هایی میباشند.

۰۲/۱۱/۱۰

دیزاین اپلیکیشن

طراحی اپلیکیشن در مشهد

۱۰ بهمن ۰۲ ، ۱۴:۵۰

dinon

با سلام و عرض احترام خدمت شما دوست محترم

با توجه به مطالب ارزنده و مفید وبلاگ شما ؛ به صورت رسمی برای ساخت پیج اختصاصی در دینون و انتشار مطالب آموزشی دعوت می شوید.

در دینون می توانید مطالب آموزشی خود را منتشر نمایید ، به سوالات دیگران پاسخ دهید ، برای پیج خود اشتراک تعریف کرده تا دیگران در ازای پرداخت حق اشتراک به مطالب شما دسترسی داشته باشند.

منتظر حضور شما هستیم.

https://dinon.ir

با تشکر ، تیم پشتیبانی دینون